Training in progress, epoch 1

Files changed (5) hide show

adapter_config.json CHANGED Viewed

@@ -3,8 +3,6 @@
   "auto_mapping": null,
   "base_model_name_or_path": "google/gemma-2-27b-it",
   "bias": "none",
-  "eva_config": null,
-  "exclude_modules": null,
   "fan_in_fan_out": null,
   "inference_mode": true,
   "init_lora_weights": true,
@@ -12,8 +10,7 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 16,
-  "lora_bias": false,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
@@ -23,12 +20,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "gate_proj",
     "v_proj",
-    "down_proj",
     "k_proj",
     "up_proj",
     "q_proj"
   ],
   "task_type": "CAUSAL_LM",

   "auto_mapping": null,
   "base_model_name_or_path": "google/gemma-2-27b-it",
   "bias": "none",
   "fan_in_fan_out": null,
   "inference_mode": true,
   "init_lora_weights": true,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 64,
   "lora_dropout": 0.05,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
+    "gate_proj",
     "k_proj",
+    "o_proj",
     "up_proj",
+    "down_proj",
     "q_proj"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f3d6bb0152d9248d4d8c5595dbcc30c73c8ae1e34f03c387d8f1babd7e5d511
 size 456807968

 version https://git-lfs.github.com/spec/v1
+oid sha256:64ee69a6b5ed2d91b48a6efdebe8a533cc37db75600ebcf8b786a1a0a22eab23
 size 456807968

config.json CHANGED Viewed

@@ -27,7 +27,7 @@
     "_load_in_4bit": true,
     "_load_in_8bit": false,
     "bnb_4bit_compute_dtype": "bfloat16",
-    "bnb_4bit_quant_storage": "uint8",
     "bnb_4bit_quant_type": "nf4",
     "bnb_4bit_use_double_quant": true,
     "llm_int8_enable_fp32_cpu_offload": false,
@@ -44,7 +44,7 @@
   "sliding_window": 4096,
   "sliding_window_size": 4096,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.47.1",
   "use_cache": false,
   "vocab_size": 256000
 }

     "_load_in_4bit": true,
     "_load_in_8bit": false,
     "bnb_4bit_compute_dtype": "bfloat16",
+    "bnb_4bit_quant_storage": "bfloat16",
     "bnb_4bit_quant_type": "nf4",
     "bnb_4bit_use_double_quant": true,
     "llm_int8_enable_fp32_cpu_offload": false,
   "sliding_window": 4096,
   "sliding_window_size": 4096,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.46.3",
   "use_cache": false,
   "vocab_size": 256000
 }

tokenizer_config.json CHANGED Viewed

@@ -2003,7 +2003,6 @@
   "chat_template": "{{ bos_token }}{% if messages[0]['role'] == 'system' %}{{ raise_exception('System role not supported') }}{% endif %}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if (message['role'] == 'assistant') %}{% set role = 'model' %}{% else %}{% set role = message['role'] %}{% endif %}{{ '<start_of_turn>' + role + '\n' + message['content'] | trim + '<end_of_turn>\n' }}{% endfor %}{% if add_generation_prompt %}{{'<start_of_turn>model\n'}}{% endif %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "<eos>",
-  "extra_special_tokens": {},
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "sp_model_kwargs": {},

   "chat_template": "{{ bos_token }}{% if messages[0]['role'] == 'system' %}{{ raise_exception('System role not supported') }}{% endif %}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if (message['role'] == 'assistant') %}{% set role = 'model' %}{% else %}{% set role = message['role'] %}{% endif %}{{ '<start_of_turn>' + role + '\n' + message['content'] | trim + '<end_of_turn>\n' }}{% endfor %}{% if add_generation_prompt %}{{'<start_of_turn>model\n'}}{% endif %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "<eos>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<pad>",
   "sp_model_kwargs": {},

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a6b229a80811553a8917ed8e0f624c6e8ad3674fe3237b402de0aa44dd4c70d
-size 7992

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf34f757061c10a83a328ef66420695ee72014af4919f9aa990773d92f93b3c9
+size 8120