Dbmaxwell commited on Aug 15

Commit

3a09181

verified ·

1 Parent(s): 35bde9b

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +4 -0
added_tokens.json +3 -0
chat_template.jinja +47 -0
checkpoint-2000/added_tokens.json +3 -0
checkpoint-2000/chat_template.jinja +47 -0
checkpoint-2000/config.json +56 -0
checkpoint-2000/generation_config.json +11 -0
checkpoint-2000/model.safetensors +3 -0
checkpoint-2000/optimizer.pt +3 -0
checkpoint-2000/rng_state.pth +3 -0
checkpoint-2000/scheduler.pt +3 -0
checkpoint-2000/special_tokens_map.json +33 -0
checkpoint-2000/tokenizer.json +3 -0
checkpoint-2000/tokenizer.model +3 -0
checkpoint-2000/tokenizer_config.json +0 -0
checkpoint-2000/trainer_state.json +474 -0
checkpoint-2000/training_args.bin +3 -0
checkpoint-2200/added_tokens.json +3 -0
checkpoint-2200/chat_template.jinja +47 -0
checkpoint-2200/config.json +56 -0
checkpoint-2200/generation_config.json +11 -0
checkpoint-2200/model.safetensors +3 -0
checkpoint-2200/optimizer.pt +3 -0
checkpoint-2200/rng_state.pth +3 -0
checkpoint-2200/scheduler.pt +3 -0
checkpoint-2200/special_tokens_map.json +33 -0
checkpoint-2200/tokenizer.json +3 -0
checkpoint-2200/tokenizer.model +3 -0
checkpoint-2200/tokenizer_config.json +0 -0
checkpoint-2200/trainer_state.json +518 -0
checkpoint-2200/training_args.bin +3 -0
checkpoint-2250/added_tokens.json +3 -0
checkpoint-2250/chat_template.jinja +47 -0
checkpoint-2250/config.json +56 -0
checkpoint-2250/generation_config.json +11 -0
checkpoint-2250/model.safetensors +3 -0
checkpoint-2250/optimizer.pt +3 -0
checkpoint-2250/rng_state.pth +3 -0
checkpoint-2250/scheduler.pt +3 -0
checkpoint-2250/special_tokens_map.json +33 -0
checkpoint-2250/tokenizer.json +3 -0
checkpoint-2250/tokenizer.model +3 -0
checkpoint-2250/tokenizer_config.json +0 -0
checkpoint-2250/trainer_state.json +525 -0
checkpoint-2250/training_args.bin +3 -0
config.json +56 -0
generation_config.json +11 -0
model.safetensors +3 -0
special_tokens_map.json +33 -0
tokenizer.json +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,7 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+checkpoint-2000/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-2200/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-2250/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{'<start_of_turn>model
+'}}
+{%- endif -%}

checkpoint-2000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

checkpoint-2000/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{'<start_of_turn>model
+'}}
+{%- endif -%}

checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_sliding_window_pattern": 6,
+  "architectures": [
+    "Gemma3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attn_logit_softcapping": null,
+  "bos_token_id": 2,
+  "cache_implementation": "hybrid",
+  "eos_token_id": 1,
+  "final_logit_softcapping": null,
+  "head_dim": 256,
+  "hidden_activation": "gelu_pytorch_tanh",
+  "hidden_size": 640,
+  "initializer_range": 0.02,
+  "intermediate_size": 2048,
+  "layer_types": [
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "model_type": "gemma3_text",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 18,
+  "num_key_value_heads": 1,
+  "pad_token_id": 0,
+  "query_pre_attn_scalar": 256,
+  "rms_norm_eps": 1e-06,
+  "rope_local_base_freq": 10000.0,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 512,
+  "sliding_window_pattern": 6,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_bidirectional_attention": false,
+  "use_cache": true,
+  "vocab_size": 262144
+}

checkpoint-2000/generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "cache_implementation": "hybrid",
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    106
+  ],
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.52.4"
+}

checkpoint-2000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7204dfb6f3a944a032ca5ed20d71c923a4fed2c3b11dfabc2c1ff9f2fabe8af8
+size 536223056

checkpoint-2000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ca1a55e9b06ab065a794a5a279c828b57c60635010bf66dec7ffd15ff01ee57
+size 1072590714

checkpoint-2000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2ec28ea0c416565eeac14a0e9c944f185ac250f4ed4bd15c84ff77ed78ba9301
+size 14244

checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3acb1a08fa90ba7cf2a95ded566b5ae5aa74d9f58bbee28804cc9682a3227ce
+size 1064

checkpoint-2000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2000/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e570d6288ff0afcea981a80492eddfa3e2239a79de89e5074cbb74b548fa5e2b
+size 33384833

checkpoint-2000/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

checkpoint-2000/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,474 @@

+{
+  "best_global_step": 2000,
+  "best_metric": 1.8876391649246216,
+  "best_model_checkpoint": "./gemma3-270m-turkish_instructions-finetuned/checkpoint-2000",
+  "epoch": 1.7777777777777777,
+  "eval_steps": 100,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.044444444444444446,
+      "grad_norm": 19.25,
+      "learning_rate": 1.088888888888889e-05,
+      "loss": 3.5828,
+      "step": 50
+    },
+    {
+      "epoch": 0.08888888888888889,
+      "grad_norm": 17.875,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 2.4877,
+      "step": 100
+    },
+    {
+      "epoch": 0.08888888888888889,
+      "eval_loss": 2.275900363922119,
+      "eval_runtime": 48.3609,
+      "eval_samples_per_second": 20.678,
+      "eval_steps_per_second": 10.339,
+      "step": 100
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 18.25,
+      "learning_rate": 3.311111111111112e-05,
+      "loss": 2.255,
+      "step": 150
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "grad_norm": 13.4375,
+      "learning_rate": 4.422222222222222e-05,
+      "loss": 2.2559,
+      "step": 200
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "eval_loss": 2.1721303462982178,
+      "eval_runtime": 48.5933,
+      "eval_samples_per_second": 20.579,
+      "eval_steps_per_second": 10.289,
+      "step": 200
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 18.875,
+      "learning_rate": 4.99826726554013e-05,
+      "loss": 2.2218,
+      "step": 250
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 16.625,
+      "learning_rate": 4.983543173414964e-05,
+      "loss": 2.1805,
+      "step": 300
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "eval_loss": 2.1423935890197754,
+      "eval_runtime": 48.7813,
+      "eval_samples_per_second": 20.5,
+      "eval_steps_per_second": 10.25,
+      "step": 300
+    },
+    {
+      "epoch": 0.3111111111111111,
+      "grad_norm": 15.0625,
+      "learning_rate": 4.953882760420223e-05,
+      "loss": 2.2345,
+      "step": 350
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "grad_norm": 15.75,
+      "learning_rate": 4.909464407769633e-05,
+      "loss": 2.1545,
+      "step": 400
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "eval_loss": 2.081547260284424,
+      "eval_runtime": 48.8759,
+      "eval_samples_per_second": 20.46,
+      "eval_steps_per_second": 10.23,
+      "step": 400
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 17.875,
+      "learning_rate": 4.850555252662495e-05,
+      "loss": 2.0966,
+      "step": 450
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 13.1875,
+      "learning_rate": 4.7775095816891336e-05,
+      "loss": 2.0782,
+      "step": 500
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "eval_loss": 2.0508856773376465,
+      "eval_runtime": 48.9079,
+      "eval_samples_per_second": 20.447,
+      "eval_steps_per_second": 10.223,
+      "step": 500
+    },
+    {
+      "epoch": 0.4888888888888889,
+      "grad_norm": 15.9375,
+      "learning_rate": 4.690766700109659e-05,
+      "loss": 2.115,
+      "step": 550
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 13.9375,
+      "learning_rate": 4.590848289820442e-05,
+      "loss": 2.0314,
+      "step": 600
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "eval_loss": 2.0262327194213867,
+      "eval_runtime": 48.768,
+      "eval_samples_per_second": 20.505,
+      "eval_steps_per_second": 10.253,
+      "step": 600
+    },
+    {
+      "epoch": 0.5777777777777777,
+      "grad_norm": 14.5,
+      "learning_rate": 4.4783552718978e-05,
+      "loss": 2.0892,
+      "step": 650
+    },
+    {
+      "epoch": 0.6222222222222222,
+      "grad_norm": 14.0,
+      "learning_rate": 4.3539641925879495e-05,
+      "loss": 2.0352,
+      "step": 700
+    },
+    {
+      "epoch": 0.6222222222222222,
+      "eval_loss": 1.9995155334472656,
+      "eval_runtime": 48.8752,
+      "eval_samples_per_second": 20.46,
+      "eval_steps_per_second": 10.23,
+      "step": 700
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 13.25,
+      "learning_rate": 4.2184231544782596e-05,
+      "loss": 2.0117,
+      "step": 750
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": 13.25,
+      "learning_rate": 4.072547317320281e-05,
+      "loss": 1.9848,
+      "step": 800
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "eval_loss": 1.9770301580429077,
+      "eval_runtime": 48.7445,
+      "eval_samples_per_second": 20.515,
+      "eval_steps_per_second": 10.258,
+      "step": 800
+    },
+    {
+      "epoch": 0.7555555555555555,
+      "grad_norm": 13.375,
+      "learning_rate": 3.9172139955630774e-05,
+      "loss": 2.0014,
+      "step": 850
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 12.75,
+      "learning_rate": 3.7533573820809006e-05,
+      "loss": 1.9938,
+      "step": 900
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.9461404085159302,
+      "eval_runtime": 48.8094,
+      "eval_samples_per_second": 20.488,
+      "eval_steps_per_second": 10.244,
+      "step": 900
+    },
+    {
+      "epoch": 0.8444444444444444,
+      "grad_norm": 13.8125,
+      "learning_rate": 3.5819629298273245e-05,
+      "loss": 1.9914,
+      "step": 950
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 13.6875,
+      "learning_rate": 3.4040614252052305e-05,
+      "loss": 1.9724,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "eval_loss": 1.9275351762771606,
+      "eval_runtime": 48.8023,
+      "eval_samples_per_second": 20.491,
+      "eval_steps_per_second": 10.245,
+      "step": 1000
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 13.25,
+      "learning_rate": 3.2207227887960935e-05,
+      "loss": 1.9607,
+      "step": 1050
+    },
+    {
+      "epoch": 0.9777777777777777,
+      "grad_norm": 15.375,
+      "learning_rate": 3.033049640731711e-05,
+      "loss": 1.9418,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9777777777777777,
+      "eval_loss": 1.9146583080291748,
+      "eval_runtime": 48.7562,
+      "eval_samples_per_second": 20.51,
+      "eval_steps_per_second": 10.255,
+      "step": 1100
+    },
+    {
+      "epoch": 1.0222222222222221,
+      "grad_norm": 11.875,
+      "learning_rate": 2.8421706694069926e-05,
+      "loss": 1.8229,
+      "step": 1150
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "grad_norm": 13.625,
+      "learning_rate": 2.649233843415149e-05,
+      "loss": 1.6831,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "eval_loss": 1.9151355028152466,
+      "eval_runtime": 48.9802,
+      "eval_samples_per_second": 20.416,
+      "eval_steps_per_second": 10.208,
+      "step": 1200
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 12.625,
+      "learning_rate": 2.4553995075294933e-05,
+      "loss": 1.6801,
+      "step": 1250
+    },
+    {
+      "epoch": 1.1555555555555554,
+      "grad_norm": 14.5,
+      "learning_rate": 2.2618334042534464e-05,
+      "loss": 1.7079,
+      "step": 1300
+    },
+    {
+      "epoch": 1.1555555555555554,
+      "eval_loss": 1.9095146656036377,
+      "eval_runtime": 48.6949,
+      "eval_samples_per_second": 20.536,
+      "eval_steps_per_second": 10.268,
+      "step": 1300
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 11.75,
+      "learning_rate": 2.0696996629079526e-05,
+      "loss": 1.6667,
+      "step": 1350
+    },
+    {
+      "epoch": 1.2444444444444445,
+      "grad_norm": 13.375,
+      "learning_rate": 1.880153798420768e-05,
+      "loss": 1.6615,
+      "step": 1400
+    },
+    {
+      "epoch": 1.2444444444444445,
+      "eval_loss": 1.9029484987258911,
+      "eval_runtime": 48.6447,
+      "eval_samples_per_second": 20.557,
+      "eval_steps_per_second": 10.279,
+      "step": 1400
+    },
+    {
+      "epoch": 1.2888888888888888,
+      "grad_norm": 15.3125,
+      "learning_rate": 1.6943357619237226e-05,
+      "loss": 1.6417,
+      "step": 1450
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 12.75,
+      "learning_rate": 1.5133630849524793e-05,
+      "loss": 1.6729,
+      "step": 1500
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "eval_loss": 1.8957328796386719,
+      "eval_runtime": 48.7052,
+      "eval_samples_per_second": 20.532,
+      "eval_steps_per_second": 10.266,
+      "step": 1500
+    },
+    {
+      "epoch": 1.3777777777777778,
+      "grad_norm": 12.8125,
+      "learning_rate": 1.3383241584803884e-05,
+      "loss": 1.6703,
+      "step": 1550
+    },
+    {
+      "epoch": 1.4222222222222223,
+      "grad_norm": 12.3125,
+      "learning_rate": 1.170271687207106e-05,
+      "loss": 1.6666,
+      "step": 1600
+    },
+    {
+      "epoch": 1.4222222222222223,
+      "eval_loss": 1.89302659034729,
+      "eval_runtime": 48.6027,
+      "eval_samples_per_second": 20.575,
+      "eval_steps_per_second": 10.287,
+      "step": 1600
+    },
+    {
+      "epoch": 1.4666666666666668,
+      "grad_norm": 15.5,
+      "learning_rate": 1.010216358468665e-05,
+      "loss": 1.6447,
+      "step": 1650
+    },
+    {
+      "epoch": 1.511111111111111,
+      "grad_norm": 12.625,
+      "learning_rate": 8.591207638449154e-06,
+      "loss": 1.6755,
+      "step": 1700
+    },
+    {
+      "epoch": 1.511111111111111,
+      "eval_loss": 1.891126275062561,
+      "eval_runtime": 48.5903,
+      "eval_samples_per_second": 20.58,
+      "eval_steps_per_second": 10.29,
+      "step": 1700
+    },
+    {
+      "epoch": 1.5555555555555556,
+      "grad_norm": 14.0625,
+      "learning_rate": 7.178936100204994e-06,
+      "loss": 1.6474,
+      "step": 1750
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 12.6875,
+      "learning_rate": 5.873842537159274e-06,
+      "loss": 1.66,
+      "step": 1800
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 1.8891392946243286,
+      "eval_runtime": 48.6956,
+      "eval_samples_per_second": 20.536,
+      "eval_steps_per_second": 10.268,
+      "step": 1800
+    },
+    {
+      "epoch": 1.6444444444444444,
+      "grad_norm": 14.0625,
+      "learning_rate": 4.683775935563222e-06,
+      "loss": 1.682,
+      "step": 1850
+    },
+    {
+      "epoch": 1.6888888888888889,
+      "grad_norm": 14.6875,
+      "learning_rate": 3.6158934959873353e-06,
+      "loss": 1.6299,
+      "step": 1900
+    },
+    {
+      "epoch": 1.6888888888888889,
+      "eval_loss": 1.8877633810043335,
+      "eval_runtime": 48.685,
+      "eval_samples_per_second": 20.54,
+      "eval_steps_per_second": 10.27,
+      "step": 1900
+    },
+    {
+      "epoch": 1.7333333333333334,
+      "grad_norm": 11.875,
+      "learning_rate": 2.6766175890749786e-06,
+      "loss": 1.6601,
+      "step": 1950
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 13.625,
+      "learning_rate": 1.8715971306496745e-06,
+      "loss": 1.6286,
+      "step": 2000
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "eval_loss": 1.8876391649246216,
+      "eval_runtime": 48.4452,
+      "eval_samples_per_second": 20.642,
+      "eval_steps_per_second": 10.321,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2465612169216000.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51ff9f61bcdaae5ac53531ca1cc31aab96bc0e3a0c0ccd88418c58ca3f44c82d
+size 5304

checkpoint-2200/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

checkpoint-2200/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{'<start_of_turn>model
+'}}
+{%- endif -%}

checkpoint-2200/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_sliding_window_pattern": 6,
+  "architectures": [
+    "Gemma3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attn_logit_softcapping": null,
+  "bos_token_id": 2,
+  "cache_implementation": "hybrid",
+  "eos_token_id": 1,
+  "final_logit_softcapping": null,
+  "head_dim": 256,
+  "hidden_activation": "gelu_pytorch_tanh",
+  "hidden_size": 640,
+  "initializer_range": 0.02,
+  "intermediate_size": 2048,
+  "layer_types": [
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "model_type": "gemma3_text",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 18,
+  "num_key_value_heads": 1,
+  "pad_token_id": 0,
+  "query_pre_attn_scalar": 256,
+  "rms_norm_eps": 1e-06,
+  "rope_local_base_freq": 10000.0,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 512,
+  "sliding_window_pattern": 6,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_bidirectional_attention": false,
+  "use_cache": true,
+  "vocab_size": 262144
+}

checkpoint-2200/generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "cache_implementation": "hybrid",
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    106
+  ],
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.52.4"
+}

checkpoint-2200/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:efe872bec3b6dd893add9a14c1f41c7221af35506062d825c0c88f42f9065b80
+size 536223056

checkpoint-2200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33f9ef975b278600b0268b01644e66932af546a098a8007c4900562970239155
+size 1072590714

checkpoint-2200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5f38f6446ba43bb9ae0be4911c150b41c5adfbe2712844ea3cb854b62ee2432
+size 14244

checkpoint-2200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78b6b554e381cf0f46cecfb4e224f04cd835ca288ef75eb3df2c929e21a0cb8a
+size 1064

checkpoint-2200/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2200/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e570d6288ff0afcea981a80492eddfa3e2239a79de89e5074cbb74b548fa5e2b
+size 33384833

checkpoint-2200/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

checkpoint-2200/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,518 @@

+{
+  "best_global_step": 2000,
+  "best_metric": 1.8876391649246216,
+  "best_model_checkpoint": "./gemma3-270m-turkish_instructions-finetuned/checkpoint-2000",
+  "epoch": 1.9555555555555557,
+  "eval_steps": 100,
+  "global_step": 2200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.044444444444444446,
+      "grad_norm": 19.25,
+      "learning_rate": 1.088888888888889e-05,
+      "loss": 3.5828,
+      "step": 50
+    },
+    {
+      "epoch": 0.08888888888888889,
+      "grad_norm": 17.875,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 2.4877,
+      "step": 100
+    },
+    {
+      "epoch": 0.08888888888888889,
+      "eval_loss": 2.275900363922119,
+      "eval_runtime": 48.3609,
+      "eval_samples_per_second": 20.678,
+      "eval_steps_per_second": 10.339,
+      "step": 100
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 18.25,
+      "learning_rate": 3.311111111111112e-05,
+      "loss": 2.255,
+      "step": 150
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "grad_norm": 13.4375,
+      "learning_rate": 4.422222222222222e-05,
+      "loss": 2.2559,
+      "step": 200
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "eval_loss": 2.1721303462982178,
+      "eval_runtime": 48.5933,
+      "eval_samples_per_second": 20.579,
+      "eval_steps_per_second": 10.289,
+      "step": 200
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 18.875,
+      "learning_rate": 4.99826726554013e-05,
+      "loss": 2.2218,
+      "step": 250
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 16.625,
+      "learning_rate": 4.983543173414964e-05,
+      "loss": 2.1805,
+      "step": 300
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "eval_loss": 2.1423935890197754,
+      "eval_runtime": 48.7813,
+      "eval_samples_per_second": 20.5,
+      "eval_steps_per_second": 10.25,
+      "step": 300
+    },
+    {
+      "epoch": 0.3111111111111111,
+      "grad_norm": 15.0625,
+      "learning_rate": 4.953882760420223e-05,
+      "loss": 2.2345,
+      "step": 350
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "grad_norm": 15.75,
+      "learning_rate": 4.909464407769633e-05,
+      "loss": 2.1545,
+      "step": 400
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "eval_loss": 2.081547260284424,
+      "eval_runtime": 48.8759,
+      "eval_samples_per_second": 20.46,
+      "eval_steps_per_second": 10.23,
+      "step": 400
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 17.875,
+      "learning_rate": 4.850555252662495e-05,
+      "loss": 2.0966,
+      "step": 450
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 13.1875,
+      "learning_rate": 4.7775095816891336e-05,
+      "loss": 2.0782,
+      "step": 500
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "eval_loss": 2.0508856773376465,
+      "eval_runtime": 48.9079,
+      "eval_samples_per_second": 20.447,
+      "eval_steps_per_second": 10.223,
+      "step": 500
+    },
+    {
+      "epoch": 0.4888888888888889,
+      "grad_norm": 15.9375,
+      "learning_rate": 4.690766700109659e-05,
+      "loss": 2.115,
+      "step": 550
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 13.9375,
+      "learning_rate": 4.590848289820442e-05,
+      "loss": 2.0314,
+      "step": 600
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "eval_loss": 2.0262327194213867,
+      "eval_runtime": 48.768,
+      "eval_samples_per_second": 20.505,
+      "eval_steps_per_second": 10.253,
+      "step": 600
+    },
+    {
+      "epoch": 0.5777777777777777,
+      "grad_norm": 14.5,
+      "learning_rate": 4.4783552718978e-05,
+      "loss": 2.0892,
+      "step": 650
+    },
+    {
+      "epoch": 0.6222222222222222,
+      "grad_norm": 14.0,
+      "learning_rate": 4.3539641925879495e-05,
+      "loss": 2.0352,
+      "step": 700
+    },
+    {
+      "epoch": 0.6222222222222222,
+      "eval_loss": 1.9995155334472656,
+      "eval_runtime": 48.8752,
+      "eval_samples_per_second": 20.46,
+      "eval_steps_per_second": 10.23,
+      "step": 700
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 13.25,
+      "learning_rate": 4.2184231544782596e-05,
+      "loss": 2.0117,
+      "step": 750
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": 13.25,
+      "learning_rate": 4.072547317320281e-05,
+      "loss": 1.9848,
+      "step": 800
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "eval_loss": 1.9770301580429077,
+      "eval_runtime": 48.7445,
+      "eval_samples_per_second": 20.515,
+      "eval_steps_per_second": 10.258,
+      "step": 800
+    },
+    {
+      "epoch": 0.7555555555555555,
+      "grad_norm": 13.375,
+      "learning_rate": 3.9172139955630774e-05,
+      "loss": 2.0014,
+      "step": 850
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 12.75,
+      "learning_rate": 3.7533573820809006e-05,
+      "loss": 1.9938,
+      "step": 900
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.9461404085159302,
+      "eval_runtime": 48.8094,
+      "eval_samples_per_second": 20.488,
+      "eval_steps_per_second": 10.244,
+      "step": 900
+    },
+    {
+      "epoch": 0.8444444444444444,
+      "grad_norm": 13.8125,
+      "learning_rate": 3.5819629298273245e-05,
+      "loss": 1.9914,
+      "step": 950
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 13.6875,
+      "learning_rate": 3.4040614252052305e-05,
+      "loss": 1.9724,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "eval_loss": 1.9275351762771606,
+      "eval_runtime": 48.8023,
+      "eval_samples_per_second": 20.491,
+      "eval_steps_per_second": 10.245,
+      "step": 1000
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 13.25,
+      "learning_rate": 3.2207227887960935e-05,
+      "loss": 1.9607,
+      "step": 1050
+    },
+    {
+      "epoch": 0.9777777777777777,
+      "grad_norm": 15.375,
+      "learning_rate": 3.033049640731711e-05,
+      "loss": 1.9418,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9777777777777777,
+      "eval_loss": 1.9146583080291748,
+      "eval_runtime": 48.7562,
+      "eval_samples_per_second": 20.51,
+      "eval_steps_per_second": 10.255,
+      "step": 1100
+    },
+    {
+      "epoch": 1.0222222222222221,
+      "grad_norm": 11.875,
+      "learning_rate": 2.8421706694069926e-05,
+      "loss": 1.8229,
+      "step": 1150
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "grad_norm": 13.625,
+      "learning_rate": 2.649233843415149e-05,
+      "loss": 1.6831,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "eval_loss": 1.9151355028152466,
+      "eval_runtime": 48.9802,
+      "eval_samples_per_second": 20.416,
+      "eval_steps_per_second": 10.208,
+      "step": 1200
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 12.625,
+      "learning_rate": 2.4553995075294933e-05,
+      "loss": 1.6801,
+      "step": 1250
+    },
+    {
+      "epoch": 1.1555555555555554,
+      "grad_norm": 14.5,
+      "learning_rate": 2.2618334042534464e-05,
+      "loss": 1.7079,
+      "step": 1300
+    },
+    {
+      "epoch": 1.1555555555555554,
+      "eval_loss": 1.9095146656036377,
+      "eval_runtime": 48.6949,
+      "eval_samples_per_second": 20.536,
+      "eval_steps_per_second": 10.268,
+      "step": 1300
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 11.75,
+      "learning_rate": 2.0696996629079526e-05,
+      "loss": 1.6667,
+      "step": 1350
+    },
+    {
+      "epoch": 1.2444444444444445,
+      "grad_norm": 13.375,
+      "learning_rate": 1.880153798420768e-05,
+      "loss": 1.6615,
+      "step": 1400
+    },
+    {
+      "epoch": 1.2444444444444445,
+      "eval_loss": 1.9029484987258911,
+      "eval_runtime": 48.6447,
+      "eval_samples_per_second": 20.557,
+      "eval_steps_per_second": 10.279,
+      "step": 1400
+    },
+    {
+      "epoch": 1.2888888888888888,
+      "grad_norm": 15.3125,
+      "learning_rate": 1.6943357619237226e-05,
+      "loss": 1.6417,
+      "step": 1450
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 12.75,
+      "learning_rate": 1.5133630849524793e-05,
+      "loss": 1.6729,
+      "step": 1500
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "eval_loss": 1.8957328796386719,
+      "eval_runtime": 48.7052,
+      "eval_samples_per_second": 20.532,
+      "eval_steps_per_second": 10.266,
+      "step": 1500
+    },
+    {
+      "epoch": 1.3777777777777778,
+      "grad_norm": 12.8125,
+      "learning_rate": 1.3383241584803884e-05,
+      "loss": 1.6703,
+      "step": 1550
+    },
+    {
+      "epoch": 1.4222222222222223,
+      "grad_norm": 12.3125,
+      "learning_rate": 1.170271687207106e-05,
+      "loss": 1.6666,
+      "step": 1600
+    },
+    {
+      "epoch": 1.4222222222222223,
+      "eval_loss": 1.89302659034729,
+      "eval_runtime": 48.6027,
+      "eval_samples_per_second": 20.575,
+      "eval_steps_per_second": 10.287,
+      "step": 1600
+    },
+    {
+      "epoch": 1.4666666666666668,
+      "grad_norm": 15.5,
+      "learning_rate": 1.010216358468665e-05,
+      "loss": 1.6447,
+      "step": 1650
+    },
+    {
+      "epoch": 1.511111111111111,
+      "grad_norm": 12.625,
+      "learning_rate": 8.591207638449154e-06,
+      "loss": 1.6755,
+      "step": 1700
+    },
+    {
+      "epoch": 1.511111111111111,
+      "eval_loss": 1.891126275062561,
+      "eval_runtime": 48.5903,
+      "eval_samples_per_second": 20.58,
+      "eval_steps_per_second": 10.29,
+      "step": 1700
+    },
+    {
+      "epoch": 1.5555555555555556,
+      "grad_norm": 14.0625,
+      "learning_rate": 7.178936100204994e-06,
+      "loss": 1.6474,
+      "step": 1750
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 12.6875,
+      "learning_rate": 5.873842537159274e-06,
+      "loss": 1.66,
+      "step": 1800
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 1.8891392946243286,
+      "eval_runtime": 48.6956,
+      "eval_samples_per_second": 20.536,
+      "eval_steps_per_second": 10.268,
+      "step": 1800
+    },
+    {
+      "epoch": 1.6444444444444444,
+      "grad_norm": 14.0625,
+      "learning_rate": 4.683775935563222e-06,
+      "loss": 1.682,
+      "step": 1850
+    },
+    {
+      "epoch": 1.6888888888888889,
+      "grad_norm": 14.6875,
+      "learning_rate": 3.6158934959873353e-06,
+      "loss": 1.6299,
+      "step": 1900
+    },
+    {
+      "epoch": 1.6888888888888889,
+      "eval_loss": 1.8877633810043335,
+      "eval_runtime": 48.685,
+      "eval_samples_per_second": 20.54,
+      "eval_steps_per_second": 10.27,
+      "step": 1900
+    },
+    {
+      "epoch": 1.7333333333333334,
+      "grad_norm": 11.875,
+      "learning_rate": 2.6766175890749786e-06,
+      "loss": 1.6601,
+      "step": 1950
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 13.625,
+      "learning_rate": 1.8715971306496745e-06,
+      "loss": 1.6286,
+      "step": 2000
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "eval_loss": 1.8876391649246216,
+      "eval_runtime": 48.4452,
+      "eval_samples_per_second": 20.642,
+      "eval_steps_per_second": 10.321,
+      "step": 2000
+    },
+    {
+      "epoch": 1.8222222222222222,
+      "grad_norm": 11.625,
+      "learning_rate": 1.2056736084706589e-06,
+      "loss": 1.6788,
+      "step": 2050
+    },
+    {
+      "epoch": 1.8666666666666667,
+      "grad_norm": 13.125,
+      "learning_rate": 6.828519649558191e-07,
+      "loss": 1.6811,
+      "step": 2100
+    },
+    {
+      "epoch": 1.8666666666666667,
+      "eval_loss": 1.8877239227294922,
+      "eval_runtime": 48.6643,
+      "eval_samples_per_second": 20.549,
+      "eval_steps_per_second": 10.274,
+      "step": 2100
+    },
+    {
+      "epoch": 1.911111111111111,
+      "grad_norm": 12.1875,
+      "learning_rate": 3.062765109867499e-07,
+      "loss": 1.6562,
+      "step": 2150
+    },
+    {
+      "epoch": 1.9555555555555557,
+      "grad_norm": 13.4375,
+      "learning_rate": 7.821201565316182e-08,
+      "loss": 1.6527,
+      "step": 2200
+    },
+    {
+      "epoch": 1.9555555555555557,
+      "eval_loss": 1.8878294229507446,
+      "eval_runtime": 48.65,
+      "eval_samples_per_second": 20.555,
+      "eval_steps_per_second": 10.277,
+      "step": 2200
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2712173386137600.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51ff9f61bcdaae5ac53531ca1cc31aab96bc0e3a0c0ccd88418c58ca3f44c82d
+size 5304

checkpoint-2250/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<image_soft_token>": 262144
+}

checkpoint-2250/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,47 @@

+{{ bos_token }}
+{%- if messages[0]['role'] == 'system' -%}
+    {%- if messages[0]['content'] is string -%}
+        {%- set first_user_prefix = messages[0]['content'] + '
+' -%}
+    {%- else -%}
+        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '
+' -%}
+    {%- endif -%}
+    {%- set loop_messages = messages[1:] -%}
+{%- else -%}
+    {%- set first_user_prefix = "" -%}
+    {%- set loop_messages = messages -%}
+{%- endif -%}
+{%- for message in loop_messages -%}
+    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}
+        {{ raise_exception("Conversation roles must alternate user/assistant/user/assistant/...") }}
+    {%- endif -%}
+    {%- if (message['role'] == 'assistant') -%}
+        {%- set role = "model" -%}
+    {%- else -%}
+        {%- set role = message['role'] -%}
+    {%- endif -%}
+    {{ '<start_of_turn>' + role + '
+' + (first_user_prefix if loop.first else "") }}
+    {%- if message['content'] is string -%}
+        {{ message['content'] | trim }}
+    {%- elif message['content'] is iterable -%}
+        {%- for item in message['content'] -%}
+            {%- if item['type'] == 'image' -%}
+                {{ '<start_of_image>' }}
+            {%- elif item['type'] == 'text' -%}
+                {{ item['text'] | trim }}
+            {%- endif -%}
+        {%- endfor -%}
+    {%- else -%}
+        {{ raise_exception("Invalid content type") }}
+    {%- endif -%}
+    {{ '<end_of_turn>
+' }}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{'<start_of_turn>model
+'}}
+{%- endif -%}

checkpoint-2250/config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_sliding_window_pattern": 6,
+  "architectures": [
+    "Gemma3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attn_logit_softcapping": null,
+  "bos_token_id": 2,
+  "cache_implementation": "hybrid",
+  "eos_token_id": 1,
+  "final_logit_softcapping": null,
+  "head_dim": 256,
+  "hidden_activation": "gelu_pytorch_tanh",
+  "hidden_size": 640,
+  "initializer_range": 0.02,
+  "intermediate_size": 2048,
+  "layer_types": [
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "model_type": "gemma3_text",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 18,
+  "num_key_value_heads": 1,
+  "pad_token_id": 0,
+  "query_pre_attn_scalar": 256,
+  "rms_norm_eps": 1e-06,
+  "rope_local_base_freq": 10000.0,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 512,
+  "sliding_window_pattern": 6,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_bidirectional_attention": false,
+  "use_cache": true,
+  "vocab_size": 262144
+}

checkpoint-2250/generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "cache_implementation": "hybrid",
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    106
+  ],
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.52.4"
+}

checkpoint-2250/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:167a1b553a36c55710b27020272e1c73fa083db459266e49447d4a5f9fa0e99e
+size 536223056

checkpoint-2250/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7ca38aa29fdc7d7fae28324f62f22d3b66a9327f3d1569d34cf169fd82dfd9d
+size 1072590714

checkpoint-2250/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5f38f6446ba43bb9ae0be4911c150b41c5adfbe2712844ea3cb854b62ee2432
+size 14244

checkpoint-2250/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1bec953c174e41850d61f3908d88b9683a2b8a87c5e9752e8ae44ce839aa2004
+size 1064

checkpoint-2250/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-2250/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e570d6288ff0afcea981a80492eddfa3e2239a79de89e5074cbb74b548fa5e2b
+size 33384833

checkpoint-2250/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
+size 4689074

checkpoint-2250/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2250/trainer_state.json ADDED Viewed

	@@ -0,0 +1,525 @@

+{
+  "best_global_step": 2000,
+  "best_metric": 1.8876391649246216,
+  "best_model_checkpoint": "./gemma3-270m-turkish_instructions-finetuned/checkpoint-2000",
+  "epoch": 2.0,
+  "eval_steps": 100,
+  "global_step": 2250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.044444444444444446,
+      "grad_norm": 19.25,
+      "learning_rate": 1.088888888888889e-05,
+      "loss": 3.5828,
+      "step": 50
+    },
+    {
+      "epoch": 0.08888888888888889,
+      "grad_norm": 17.875,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 2.4877,
+      "step": 100
+    },
+    {
+      "epoch": 0.08888888888888889,
+      "eval_loss": 2.275900363922119,
+      "eval_runtime": 48.3609,
+      "eval_samples_per_second": 20.678,
+      "eval_steps_per_second": 10.339,
+      "step": 100
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 18.25,
+      "learning_rate": 3.311111111111112e-05,
+      "loss": 2.255,
+      "step": 150
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "grad_norm": 13.4375,
+      "learning_rate": 4.422222222222222e-05,
+      "loss": 2.2559,
+      "step": 200
+    },
+    {
+      "epoch": 0.17777777777777778,
+      "eval_loss": 2.1721303462982178,
+      "eval_runtime": 48.5933,
+      "eval_samples_per_second": 20.579,
+      "eval_steps_per_second": 10.289,
+      "step": 200
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 18.875,
+      "learning_rate": 4.99826726554013e-05,
+      "loss": 2.2218,
+      "step": 250
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 16.625,
+      "learning_rate": 4.983543173414964e-05,
+      "loss": 2.1805,
+      "step": 300
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "eval_loss": 2.1423935890197754,
+      "eval_runtime": 48.7813,
+      "eval_samples_per_second": 20.5,
+      "eval_steps_per_second": 10.25,
+      "step": 300
+    },
+    {
+      "epoch": 0.3111111111111111,
+      "grad_norm": 15.0625,
+      "learning_rate": 4.953882760420223e-05,
+      "loss": 2.2345,
+      "step": 350
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "grad_norm": 15.75,
+      "learning_rate": 4.909464407769633e-05,
+      "loss": 2.1545,
+      "step": 400
+    },
+    {
+      "epoch": 0.35555555555555557,
+      "eval_loss": 2.081547260284424,
+      "eval_runtime": 48.8759,
+      "eval_samples_per_second": 20.46,
+      "eval_steps_per_second": 10.23,
+      "step": 400
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 17.875,
+      "learning_rate": 4.850555252662495e-05,
+      "loss": 2.0966,
+      "step": 450
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 13.1875,
+      "learning_rate": 4.7775095816891336e-05,
+      "loss": 2.0782,
+      "step": 500
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "eval_loss": 2.0508856773376465,
+      "eval_runtime": 48.9079,
+      "eval_samples_per_second": 20.447,
+      "eval_steps_per_second": 10.223,
+      "step": 500
+    },
+    {
+      "epoch": 0.4888888888888889,
+      "grad_norm": 15.9375,
+      "learning_rate": 4.690766700109659e-05,
+      "loss": 2.115,
+      "step": 550
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 13.9375,
+      "learning_rate": 4.590848289820442e-05,
+      "loss": 2.0314,
+      "step": 600
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "eval_loss": 2.0262327194213867,
+      "eval_runtime": 48.768,
+      "eval_samples_per_second": 20.505,
+      "eval_steps_per_second": 10.253,
+      "step": 600
+    },
+    {
+      "epoch": 0.5777777777777777,
+      "grad_norm": 14.5,
+      "learning_rate": 4.4783552718978e-05,
+      "loss": 2.0892,
+      "step": 650
+    },
+    {
+      "epoch": 0.6222222222222222,
+      "grad_norm": 14.0,
+      "learning_rate": 4.3539641925879495e-05,
+      "loss": 2.0352,
+      "step": 700
+    },
+    {
+      "epoch": 0.6222222222222222,
+      "eval_loss": 1.9995155334472656,
+      "eval_runtime": 48.8752,
+      "eval_samples_per_second": 20.46,
+      "eval_steps_per_second": 10.23,
+      "step": 700
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 13.25,
+      "learning_rate": 4.2184231544782596e-05,
+      "loss": 2.0117,
+      "step": 750
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "grad_norm": 13.25,
+      "learning_rate": 4.072547317320281e-05,
+      "loss": 1.9848,
+      "step": 800
+    },
+    {
+      "epoch": 0.7111111111111111,
+      "eval_loss": 1.9770301580429077,
+      "eval_runtime": 48.7445,
+      "eval_samples_per_second": 20.515,
+      "eval_steps_per_second": 10.258,
+      "step": 800
+    },
+    {
+      "epoch": 0.7555555555555555,
+      "grad_norm": 13.375,
+      "learning_rate": 3.9172139955630774e-05,
+      "loss": 2.0014,
+      "step": 850
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 12.75,
+      "learning_rate": 3.7533573820809006e-05,
+      "loss": 1.9938,
+      "step": 900
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.9461404085159302,
+      "eval_runtime": 48.8094,
+      "eval_samples_per_second": 20.488,
+      "eval_steps_per_second": 10.244,
+      "step": 900
+    },
+    {
+      "epoch": 0.8444444444444444,
+      "grad_norm": 13.8125,
+      "learning_rate": 3.5819629298273245e-05,
+      "loss": 1.9914,
+      "step": 950
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 13.6875,
+      "learning_rate": 3.4040614252052305e-05,
+      "loss": 1.9724,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "eval_loss": 1.9275351762771606,
+      "eval_runtime": 48.8023,
+      "eval_samples_per_second": 20.491,
+      "eval_steps_per_second": 10.245,
+      "step": 1000
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 13.25,
+      "learning_rate": 3.2207227887960935e-05,
+      "loss": 1.9607,
+      "step": 1050
+    },
+    {
+      "epoch": 0.9777777777777777,
+      "grad_norm": 15.375,
+      "learning_rate": 3.033049640731711e-05,
+      "loss": 1.9418,
+      "step": 1100
+    },
+    {
+      "epoch": 0.9777777777777777,
+      "eval_loss": 1.9146583080291748,
+      "eval_runtime": 48.7562,
+      "eval_samples_per_second": 20.51,
+      "eval_steps_per_second": 10.255,
+      "step": 1100
+    },
+    {
+      "epoch": 1.0222222222222221,
+      "grad_norm": 11.875,
+      "learning_rate": 2.8421706694069926e-05,
+      "loss": 1.8229,
+      "step": 1150
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "grad_norm": 13.625,
+      "learning_rate": 2.649233843415149e-05,
+      "loss": 1.6831,
+      "step": 1200
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "eval_loss": 1.9151355028152466,
+      "eval_runtime": 48.9802,
+      "eval_samples_per_second": 20.416,
+      "eval_steps_per_second": 10.208,
+      "step": 1200
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 12.625,
+      "learning_rate": 2.4553995075294933e-05,
+      "loss": 1.6801,
+      "step": 1250
+    },
+    {
+      "epoch": 1.1555555555555554,
+      "grad_norm": 14.5,
+      "learning_rate": 2.2618334042534464e-05,
+      "loss": 1.7079,
+      "step": 1300
+    },
+    {
+      "epoch": 1.1555555555555554,
+      "eval_loss": 1.9095146656036377,
+      "eval_runtime": 48.6949,
+      "eval_samples_per_second": 20.536,
+      "eval_steps_per_second": 10.268,
+      "step": 1300
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 11.75,
+      "learning_rate": 2.0696996629079526e-05,
+      "loss": 1.6667,
+      "step": 1350
+    },
+    {
+      "epoch": 1.2444444444444445,
+      "grad_norm": 13.375,
+      "learning_rate": 1.880153798420768e-05,
+      "loss": 1.6615,
+      "step": 1400
+    },
+    {
+      "epoch": 1.2444444444444445,
+      "eval_loss": 1.9029484987258911,
+      "eval_runtime": 48.6447,
+      "eval_samples_per_second": 20.557,
+      "eval_steps_per_second": 10.279,
+      "step": 1400
+    },
+    {
+      "epoch": 1.2888888888888888,
+      "grad_norm": 15.3125,
+      "learning_rate": 1.6943357619237226e-05,
+      "loss": 1.6417,
+      "step": 1450
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 12.75,
+      "learning_rate": 1.5133630849524793e-05,
+      "loss": 1.6729,
+      "step": 1500
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "eval_loss": 1.8957328796386719,
+      "eval_runtime": 48.7052,
+      "eval_samples_per_second": 20.532,
+      "eval_steps_per_second": 10.266,
+      "step": 1500
+    },
+    {
+      "epoch": 1.3777777777777778,
+      "grad_norm": 12.8125,
+      "learning_rate": 1.3383241584803884e-05,
+      "loss": 1.6703,
+      "step": 1550
+    },
+    {
+      "epoch": 1.4222222222222223,
+      "grad_norm": 12.3125,
+      "learning_rate": 1.170271687207106e-05,
+      "loss": 1.6666,
+      "step": 1600
+    },
+    {
+      "epoch": 1.4222222222222223,
+      "eval_loss": 1.89302659034729,
+      "eval_runtime": 48.6027,
+      "eval_samples_per_second": 20.575,
+      "eval_steps_per_second": 10.287,
+      "step": 1600
+    },
+    {
+      "epoch": 1.4666666666666668,
+      "grad_norm": 15.5,
+      "learning_rate": 1.010216358468665e-05,
+      "loss": 1.6447,
+      "step": 1650
+    },
+    {
+      "epoch": 1.511111111111111,
+      "grad_norm": 12.625,
+      "learning_rate": 8.591207638449154e-06,
+      "loss": 1.6755,
+      "step": 1700
+    },
+    {
+      "epoch": 1.511111111111111,
+      "eval_loss": 1.891126275062561,
+      "eval_runtime": 48.5903,
+      "eval_samples_per_second": 20.58,
+      "eval_steps_per_second": 10.29,
+      "step": 1700
+    },
+    {
+      "epoch": 1.5555555555555556,
+      "grad_norm": 14.0625,
+      "learning_rate": 7.178936100204994e-06,
+      "loss": 1.6474,
+      "step": 1750
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 12.6875,
+      "learning_rate": 5.873842537159274e-06,
+      "loss": 1.66,
+      "step": 1800
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 1.8891392946243286,
+      "eval_runtime": 48.6956,
+      "eval_samples_per_second": 20.536,
+      "eval_steps_per_second": 10.268,
+      "step": 1800
+    },
+    {
+      "epoch": 1.6444444444444444,
+      "grad_norm": 14.0625,
+      "learning_rate": 4.683775935563222e-06,
+      "loss": 1.682,
+      "step": 1850
+    },
+    {
+      "epoch": 1.6888888888888889,
+      "grad_norm": 14.6875,
+      "learning_rate": 3.6158934959873353e-06,
+      "loss": 1.6299,
+      "step": 1900
+    },
+    {
+      "epoch": 1.6888888888888889,
+      "eval_loss": 1.8877633810043335,
+      "eval_runtime": 48.685,
+      "eval_samples_per_second": 20.54,
+      "eval_steps_per_second": 10.27,
+      "step": 1900
+    },
+    {
+      "epoch": 1.7333333333333334,
+      "grad_norm": 11.875,
+      "learning_rate": 2.6766175890749786e-06,
+      "loss": 1.6601,
+      "step": 1950
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 13.625,
+      "learning_rate": 1.8715971306496745e-06,
+      "loss": 1.6286,
+      "step": 2000
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "eval_loss": 1.8876391649246216,
+      "eval_runtime": 48.4452,
+      "eval_samples_per_second": 20.642,
+      "eval_steps_per_second": 10.321,
+      "step": 2000
+    },
+    {
+      "epoch": 1.8222222222222222,
+      "grad_norm": 11.625,
+      "learning_rate": 1.2056736084706589e-06,
+      "loss": 1.6788,
+      "step": 2050
+    },
+    {
+      "epoch": 1.8666666666666667,
+      "grad_norm": 13.125,
+      "learning_rate": 6.828519649558191e-07,
+      "loss": 1.6811,
+      "step": 2100
+    },
+    {
+      "epoch": 1.8666666666666667,
+      "eval_loss": 1.8877239227294922,
+      "eval_runtime": 48.6643,
+      "eval_samples_per_second": 20.549,
+      "eval_steps_per_second": 10.274,
+      "step": 2100
+    },
+    {
+      "epoch": 1.911111111111111,
+      "grad_norm": 12.1875,
+      "learning_rate": 3.062765109867499e-07,
+      "loss": 1.6562,
+      "step": 2150
+    },
+    {
+      "epoch": 1.9555555555555557,
+      "grad_norm": 13.4375,
+      "learning_rate": 7.821201565316182e-08,
+      "loss": 1.6527,
+      "step": 2200
+    },
+    {
+      "epoch": 1.9555555555555557,
+      "eval_loss": 1.8878294229507446,
+      "eval_runtime": 48.65,
+      "eval_samples_per_second": 20.555,
+      "eval_steps_per_second": 10.277,
+      "step": 2200
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 13.75,
+      "learning_rate": 3.008566505646737e-11,
+      "loss": 1.6683,
+      "step": 2250
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 2250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2773813690368000.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-2250/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51ff9f61bcdaae5ac53531ca1cc31aab96bc0e3a0c0ccd88418c58ca3f44c82d
+size 5304

config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "_sliding_window_pattern": 6,
+  "architectures": [
+    "Gemma3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attn_logit_softcapping": null,
+  "bos_token_id": 2,
+  "cache_implementation": "hybrid",
+  "eos_token_id": 1,
+  "final_logit_softcapping": null,
+  "head_dim": 256,
+  "hidden_activation": "gelu_pytorch_tanh",
+  "hidden_size": 640,
+  "initializer_range": 0.02,
+  "intermediate_size": 2048,
+  "layer_types": [
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "sliding_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "model_type": "gemma3_text",
+  "num_attention_heads": 4,
+  "num_hidden_layers": 18,
+  "num_key_value_heads": 1,
+  "pad_token_id": 0,
+  "query_pre_attn_scalar": 256,
+  "rms_norm_eps": 1e-06,
+  "rope_local_base_freq": 10000.0,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 512,
+  "sliding_window_pattern": 6,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.52.4",
+  "use_bidirectional_attention": false,
+  "use_cache": true,
+  "vocab_size": 262144
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "cache_implementation": "hybrid",
+  "do_sample": true,
+  "eos_token_id": [
+    1,
+    106
+  ],
+  "top_k": 64,
+  "top_p": 0.95,
+  "transformers_version": "4.52.4"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7204dfb6f3a944a032ca5ed20d71c923a4fed2c3b11dfabc2c1ff9f2fabe8af8
+size 536223056

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "boi_token": "<start_of_image>",
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eoi_token": "<end_of_image>",
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<image_soft_token>",
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e570d6288ff0afcea981a80492eddfa3e2239a79de89e5074cbb74b548fa5e2b
+size 33384833