Qwen2.5-Interleaved-0.1-sizeB-Instruct

This is a merge of pre-trained language models created using mergekit.

Merge Details

Merge Method

This model was merged using the passthrough merge method.

Models Merged

The following models were included in the merge:

Qwen/Qwen2.5-1.5B-Instruct

Configuration

The following YAML configuration was used to produce this model:

dtype: bfloat16
merge_method: passthrough
slices:
- sources:
  - layer_range: [0, 10]
    model: Qwen/Qwen2.5-1.5B-Instruct
- sources:
  - layer_range: [10, 11]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [10, 11]
    model: Qwen/Qwen2.5-1.5B-Instruct
- sources:
  - layer_range: [10, 11]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [11, 12]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [11, 12]
    model: Qwen/Qwen2.5-1.5B-Instruct
- sources:
  - layer_range: [11, 12]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [12, 13]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [12, 13]
    model: Qwen/Qwen2.5-1.5B-Instruct
- sources:
  - layer_range: [12, 13]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [13, 14]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [13, 14]
    model: Qwen/Qwen2.5-1.5B-Instruct
- sources:
  - layer_range: [13, 14]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [14, 15]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [14, 15]
    model: Qwen/Qwen2.5-1.5B-Instruct
- sources:
  - layer_range: [14, 15]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [15, 16]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [15, 16]
    model: Qwen/Qwen2.5-1.5B-Instruct
- sources:
  - layer_range: [15, 16]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [16, 17]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [16, 17]
    model: Qwen/Qwen2.5-1.5B-Instruct
- sources:
  - layer_range: [16, 17]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [17, 18]
    model: Qwen/Qwen2.5-1.5B-Instruct
    parameters:
      scale:
      - filter: o_proj
        value: 0.1
      - filter: down_proj
        value: 0.1
      - value: 1.0
- sources:
  - layer_range: [17, 18]
    model: Qwen/Qwen2.5-1.5B-Instruct
- sources:
  - layer_range: [18, 28]
    model: Qwen/Qwen2.5-1.5B-Instruct

Downloads last month: 22

Safetensors

Model size

2B params

Tensor type

BF16

Model tree for PJMixers-Dev/qwen2.5-1.5b-instruct-43-layers-0.1

Base model

Qwen/Qwen2.5-1.5B

Finetuned

Qwen/Qwen2.5-1.5B-Instruct

Finetuned

(1264)

this model