Upload folder using huggingface_hub

Browse files

Files changed (16) hide show

config.json +66 -0
generation_config.json +14 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +442 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
rng_state_2.pth +3 -0
rng_state_3.pth +3 -0
rng_state_4.pth +3 -0
rng_state_5.pth +3 -0
rng_state_6.pth +3 -0
rng_state_7.pth +3 -0
trainer_state.json +2834 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,66 @@

+{
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 32768,
+  "max_window_layers": 70,
+  "model_type": "qwen2",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.53.1",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.05,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.53.1"
+}

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3a933fc7e35615df5ab9e2966cf53475fccb8773812503163021846073d3270
+size 4957560304

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0d4b2e356c35872a3760bf971ad1a0ee89f3ec27d9fc515187e872c7af2754c
+size 1214366696

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,442 @@

+{
+  "metadata": {
+    "total_parameters": 3085938688,
+    "total_size": 6171877376
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.k_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.q_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.v_proj.bias": "model-00002-of-00002.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4e63fe992c6c928518dc9c9f832a8aa53118c3c86c06344552df3040e7f9d72
+size 12344133221

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8bfe1981024ef92f2da08a90c72c7c793d1cc9de1547abd2556c968be70232eb
+size 16389

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a35b845d476d830805793c3dcf8ac2daad87fec289bff3f7eda9e72fc374eda1
+size 16389

rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:03e9880996b01262a807d1ec3ebd91eee540e08130a14a45a4648731fd0d48a9
+size 16389

rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee25c237d6fe62ec76adcf7daf899d7ed32eab5d1a5b447b911f4451c9a1b258
+size 16389

rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a6b31133f29a8fc0cb538aa807d6a403bd51939336bfd425cd3d122d8c5595c
+size 16389

rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a26c55b5c7fa0522b1d27b2c00a7ea77ad010f19a1321991165c5c972b8fa97a
+size 16389

rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a1a3cf85626196804f25a8293e22dc561bba068a70fb123e04afe4896c33972
+size 16389

rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28f87c1ee5f5db346c7b913137cbccd196eaf8ec5a4cf9f192418a3069269b49
+size 16389

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2834 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.986294567484358,
+  "eval_steps": 500,
+  "global_step": 20000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.004965736418710895,
+      "grad_norm": 1.140625,
+      "learning_rate": 4.9918892971827726e-05,
+      "loss": 1.2895,
+      "step": 50
+    },
+    {
+      "epoch": 0.00993147283742179,
+      "grad_norm": 1.0859375,
+      "learning_rate": 4.9836130698182544e-05,
+      "loss": 1.0572,
+      "step": 100
+    },
+    {
+      "epoch": 0.014897209256132684,
+      "grad_norm": 1.0078125,
+      "learning_rate": 4.975336842453736e-05,
+      "loss": 1.0198,
+      "step": 150
+    },
+    {
+      "epoch": 0.01986294567484358,
+      "grad_norm": 1.0078125,
+      "learning_rate": 4.967060615089218e-05,
+      "loss": 1.0004,
+      "step": 200
+    },
+    {
+      "epoch": 0.024828682093554474,
+      "grad_norm": 1.0546875,
+      "learning_rate": 4.9587843877246996e-05,
+      "loss": 0.9881,
+      "step": 250
+    },
+    {
+      "epoch": 0.02979441851226537,
+      "grad_norm": 0.93359375,
+      "learning_rate": 4.9505081603601814e-05,
+      "loss": 0.977,
+      "step": 300
+    },
+    {
+      "epoch": 0.03476015493097626,
+      "grad_norm": 0.875,
+      "learning_rate": 4.942231932995664e-05,
+      "loss": 0.9686,
+      "step": 350
+    },
+    {
+      "epoch": 0.03972589134968716,
+      "grad_norm": 0.85546875,
+      "learning_rate": 4.9339557056311455e-05,
+      "loss": 0.9622,
+      "step": 400
+    },
+    {
+      "epoch": 0.04469162776839805,
+      "grad_norm": 0.890625,
+      "learning_rate": 4.925679478266627e-05,
+      "loss": 0.9588,
+      "step": 450
+    },
+    {
+      "epoch": 0.04965736418710895,
+      "grad_norm": 0.89453125,
+      "learning_rate": 4.917403250902109e-05,
+      "loss": 0.9526,
+      "step": 500
+    },
+    {
+      "epoch": 0.054623100605819846,
+      "grad_norm": 0.86328125,
+      "learning_rate": 4.909127023537591e-05,
+      "loss": 0.9471,
+      "step": 550
+    },
+    {
+      "epoch": 0.05958883702453074,
+      "grad_norm": 0.88671875,
+      "learning_rate": 4.9008507961730725e-05,
+      "loss": 0.9441,
+      "step": 600
+    },
+    {
+      "epoch": 0.06455457344324163,
+      "grad_norm": 0.87109375,
+      "learning_rate": 4.892574568808554e-05,
+      "loss": 0.9408,
+      "step": 650
+    },
+    {
+      "epoch": 0.06952030986195253,
+      "grad_norm": 0.8125,
+      "learning_rate": 4.8842983414440366e-05,
+      "loss": 0.9375,
+      "step": 700
+    },
+    {
+      "epoch": 0.07448604628066342,
+      "grad_norm": 0.796875,
+      "learning_rate": 4.8760221140795184e-05,
+      "loss": 0.9368,
+      "step": 750
+    },
+    {
+      "epoch": 0.07945178269937432,
+      "grad_norm": 1.015625,
+      "learning_rate": 4.867745886715e-05,
+      "loss": 0.9335,
+      "step": 800
+    },
+    {
+      "epoch": 0.08441751911808522,
+      "grad_norm": 0.8046875,
+      "learning_rate": 4.859469659350482e-05,
+      "loss": 0.935,
+      "step": 850
+    },
+    {
+      "epoch": 0.0893832555367961,
+      "grad_norm": 0.93359375,
+      "learning_rate": 4.8511934319859636e-05,
+      "loss": 0.9273,
+      "step": 900
+    },
+    {
+      "epoch": 0.094348991955507,
+      "grad_norm": 0.83984375,
+      "learning_rate": 4.8429172046214454e-05,
+      "loss": 0.9275,
+      "step": 950
+    },
+    {
+      "epoch": 0.0993147283742179,
+      "grad_norm": 0.859375,
+      "learning_rate": 4.834640977256927e-05,
+      "loss": 0.9268,
+      "step": 1000
+    },
+    {
+      "epoch": 0.1042804647929288,
+      "grad_norm": 0.8125,
+      "learning_rate": 4.826364749892409e-05,
+      "loss": 0.9264,
+      "step": 1050
+    },
+    {
+      "epoch": 0.10924620121163969,
+      "grad_norm": 0.80859375,
+      "learning_rate": 4.818088522527891e-05,
+      "loss": 0.9232,
+      "step": 1100
+    },
+    {
+      "epoch": 0.11421193763035058,
+      "grad_norm": 0.8828125,
+      "learning_rate": 4.809812295163373e-05,
+      "loss": 0.9188,
+      "step": 1150
+    },
+    {
+      "epoch": 0.11917767404906147,
+      "grad_norm": 0.859375,
+      "learning_rate": 4.801536067798855e-05,
+      "loss": 0.9197,
+      "step": 1200
+    },
+    {
+      "epoch": 0.12414341046777237,
+      "grad_norm": 0.91015625,
+      "learning_rate": 4.7932598404343365e-05,
+      "loss": 0.919,
+      "step": 1250
+    },
+    {
+      "epoch": 0.12910914688648326,
+      "grad_norm": 0.85546875,
+      "learning_rate": 4.784983613069818e-05,
+      "loss": 0.9211,
+      "step": 1300
+    },
+    {
+      "epoch": 0.13407488330519415,
+      "grad_norm": 0.77734375,
+      "learning_rate": 4.7767073857053e-05,
+      "loss": 0.9153,
+      "step": 1350
+    },
+    {
+      "epoch": 0.13904061972390505,
+      "grad_norm": 0.828125,
+      "learning_rate": 4.768431158340782e-05,
+      "loss": 0.911,
+      "step": 1400
+    },
+    {
+      "epoch": 0.14400635614261595,
+      "grad_norm": 0.80078125,
+      "learning_rate": 4.760154930976264e-05,
+      "loss": 0.9112,
+      "step": 1450
+    },
+    {
+      "epoch": 0.14897209256132685,
+      "grad_norm": 0.7890625,
+      "learning_rate": 4.751878703611746e-05,
+      "loss": 0.9069,
+      "step": 1500
+    },
+    {
+      "epoch": 0.15393782898003774,
+      "grad_norm": 0.7734375,
+      "learning_rate": 4.7436024762472276e-05,
+      "loss": 0.9061,
+      "step": 1550
+    },
+    {
+      "epoch": 0.15890356539874864,
+      "grad_norm": 0.8046875,
+      "learning_rate": 4.7353262488827094e-05,
+      "loss": 0.909,
+      "step": 1600
+    },
+    {
+      "epoch": 0.16386930181745954,
+      "grad_norm": 0.8125,
+      "learning_rate": 4.727050021518191e-05,
+      "loss": 0.9065,
+      "step": 1650
+    },
+    {
+      "epoch": 0.16883503823617044,
+      "grad_norm": 0.7890625,
+      "learning_rate": 4.718773794153673e-05,
+      "loss": 0.9103,
+      "step": 1700
+    },
+    {
+      "epoch": 0.1738007746548813,
+      "grad_norm": 0.8125,
+      "learning_rate": 4.7104975667891546e-05,
+      "loss": 0.9018,
+      "step": 1750
+    },
+    {
+      "epoch": 0.1787665110735922,
+      "grad_norm": 0.76953125,
+      "learning_rate": 4.702221339424637e-05,
+      "loss": 0.901,
+      "step": 1800
+    },
+    {
+      "epoch": 0.1837322474923031,
+      "grad_norm": 0.81640625,
+      "learning_rate": 4.693945112060119e-05,
+      "loss": 0.9015,
+      "step": 1850
+    },
+    {
+      "epoch": 0.188697983911014,
+      "grad_norm": 0.8046875,
+      "learning_rate": 4.6856688846956005e-05,
+      "loss": 0.903,
+      "step": 1900
+    },
+    {
+      "epoch": 0.1936637203297249,
+      "grad_norm": 0.8359375,
+      "learning_rate": 4.677392657331082e-05,
+      "loss": 0.9023,
+      "step": 1950
+    },
+    {
+      "epoch": 0.1986294567484358,
+      "grad_norm": 0.9453125,
+      "learning_rate": 4.669116429966564e-05,
+      "loss": 0.8992,
+      "step": 2000
+    },
+    {
+      "epoch": 0.2035951931671467,
+      "grad_norm": 0.80859375,
+      "learning_rate": 4.660840202602046e-05,
+      "loss": 0.9002,
+      "step": 2050
+    },
+    {
+      "epoch": 0.2085609295858576,
+      "grad_norm": 0.83203125,
+      "learning_rate": 4.6525639752375274e-05,
+      "loss": 0.8992,
+      "step": 2100
+    },
+    {
+      "epoch": 0.2135266660045685,
+      "grad_norm": 0.77734375,
+      "learning_rate": 4.64428774787301e-05,
+      "loss": 0.8982,
+      "step": 2150
+    },
+    {
+      "epoch": 0.21849240242327939,
+      "grad_norm": 0.80859375,
+      "learning_rate": 4.6360115205084916e-05,
+      "loss": 0.9018,
+      "step": 2200
+    },
+    {
+      "epoch": 0.22345813884199026,
+      "grad_norm": 0.890625,
+      "learning_rate": 4.6277352931439734e-05,
+      "loss": 0.8944,
+      "step": 2250
+    },
+    {
+      "epoch": 0.22842387526070115,
+      "grad_norm": 0.78515625,
+      "learning_rate": 4.619459065779455e-05,
+      "loss": 0.898,
+      "step": 2300
+    },
+    {
+      "epoch": 0.23338961167941205,
+      "grad_norm": 0.8671875,
+      "learning_rate": 4.611182838414937e-05,
+      "loss": 0.8938,
+      "step": 2350
+    },
+    {
+      "epoch": 0.23835534809812295,
+      "grad_norm": 0.76171875,
+      "learning_rate": 4.6029066110504186e-05,
+      "loss": 0.896,
+      "step": 2400
+    },
+    {
+      "epoch": 0.24332108451683385,
+      "grad_norm": 0.78125,
+      "learning_rate": 4.5946303836859e-05,
+      "loss": 0.8924,
+      "step": 2450
+    },
+    {
+      "epoch": 0.24828682093554474,
+      "grad_norm": 0.765625,
+      "learning_rate": 4.586354156321383e-05,
+      "loss": 0.8906,
+      "step": 2500
+    },
+    {
+      "epoch": 0.2532525573542556,
+      "grad_norm": 0.81640625,
+      "learning_rate": 4.5780779289568645e-05,
+      "loss": 0.8932,
+      "step": 2550
+    },
+    {
+      "epoch": 0.2582182937729665,
+      "grad_norm": 0.84765625,
+      "learning_rate": 4.569801701592346e-05,
+      "loss": 0.8941,
+      "step": 2600
+    },
+    {
+      "epoch": 0.2631840301916774,
+      "grad_norm": 0.7890625,
+      "learning_rate": 4.561525474227828e-05,
+      "loss": 0.8934,
+      "step": 2650
+    },
+    {
+      "epoch": 0.2681497666103883,
+      "grad_norm": 0.80078125,
+      "learning_rate": 4.55324924686331e-05,
+      "loss": 0.8909,
+      "step": 2700
+    },
+    {
+      "epoch": 0.2731155030290992,
+      "grad_norm": 0.796875,
+      "learning_rate": 4.5449730194987914e-05,
+      "loss": 0.8871,
+      "step": 2750
+    },
+    {
+      "epoch": 0.2780812394478101,
+      "grad_norm": 0.78125,
+      "learning_rate": 4.536696792134273e-05,
+      "loss": 0.8916,
+      "step": 2800
+    },
+    {
+      "epoch": 0.283046975866521,
+      "grad_norm": 0.796875,
+      "learning_rate": 4.5284205647697556e-05,
+      "loss": 0.8892,
+      "step": 2850
+    },
+    {
+      "epoch": 0.2880127122852319,
+      "grad_norm": 0.75,
+      "learning_rate": 4.5201443374052373e-05,
+      "loss": 0.8894,
+      "step": 2900
+    },
+    {
+      "epoch": 0.2929784487039428,
+      "grad_norm": 0.83984375,
+      "learning_rate": 4.51186811004072e-05,
+      "loss": 0.8884,
+      "step": 2950
+    },
+    {
+      "epoch": 0.2979441851226537,
+      "grad_norm": 0.77734375,
+      "learning_rate": 4.5035918826762015e-05,
+      "loss": 0.8855,
+      "step": 3000
+    },
+    {
+      "epoch": 0.3029099215413646,
+      "grad_norm": 0.78515625,
+      "learning_rate": 4.495315655311683e-05,
+      "loss": 0.8874,
+      "step": 3050
+    },
+    {
+      "epoch": 0.3078756579600755,
+      "grad_norm": 0.79296875,
+      "learning_rate": 4.487039427947165e-05,
+      "loss": 0.8881,
+      "step": 3100
+    },
+    {
+      "epoch": 0.3128413943787864,
+      "grad_norm": 0.80078125,
+      "learning_rate": 4.478763200582647e-05,
+      "loss": 0.8832,
+      "step": 3150
+    },
+    {
+      "epoch": 0.3178071307974973,
+      "grad_norm": 0.765625,
+      "learning_rate": 4.4704869732181285e-05,
+      "loss": 0.8865,
+      "step": 3200
+    },
+    {
+      "epoch": 0.3227728672162082,
+      "grad_norm": 0.75390625,
+      "learning_rate": 4.46221074585361e-05,
+      "loss": 0.8879,
+      "step": 3250
+    },
+    {
+      "epoch": 0.3277386036349191,
+      "grad_norm": 0.76953125,
+      "learning_rate": 4.4539345184890926e-05,
+      "loss": 0.8857,
+      "step": 3300
+    },
+    {
+      "epoch": 0.33270434005363,
+      "grad_norm": 0.79296875,
+      "learning_rate": 4.4456582911245744e-05,
+      "loss": 0.8849,
+      "step": 3350
+    },
+    {
+      "epoch": 0.3376700764723409,
+      "grad_norm": 0.765625,
+      "learning_rate": 4.437382063760056e-05,
+      "loss": 0.8824,
+      "step": 3400
+    },
+    {
+      "epoch": 0.3426358128910517,
+      "grad_norm": 0.78125,
+      "learning_rate": 4.429105836395538e-05,
+      "loss": 0.8813,
+      "step": 3450
+    },
+    {
+      "epoch": 0.3476015493097626,
+      "grad_norm": 0.8046875,
+      "learning_rate": 4.4208296090310196e-05,
+      "loss": 0.885,
+      "step": 3500
+    },
+    {
+      "epoch": 0.3525672857284735,
+      "grad_norm": 0.765625,
+      "learning_rate": 4.4125533816665013e-05,
+      "loss": 0.8812,
+      "step": 3550
+    },
+    {
+      "epoch": 0.3575330221471844,
+      "grad_norm": 0.81640625,
+      "learning_rate": 4.404277154301983e-05,
+      "loss": 0.8826,
+      "step": 3600
+    },
+    {
+      "epoch": 0.3624987585658953,
+      "grad_norm": 0.76953125,
+      "learning_rate": 4.3960009269374655e-05,
+      "loss": 0.8788,
+      "step": 3650
+    },
+    {
+      "epoch": 0.3674644949846062,
+      "grad_norm": 0.7578125,
+      "learning_rate": 4.387724699572947e-05,
+      "loss": 0.883,
+      "step": 3700
+    },
+    {
+      "epoch": 0.3724302314033171,
+      "grad_norm": 0.73046875,
+      "learning_rate": 4.379448472208429e-05,
+      "loss": 0.8804,
+      "step": 3750
+    },
+    {
+      "epoch": 0.377395967822028,
+      "grad_norm": 0.74609375,
+      "learning_rate": 4.371172244843911e-05,
+      "loss": 0.8826,
+      "step": 3800
+    },
+    {
+      "epoch": 0.3823617042407389,
+      "grad_norm": 0.7734375,
+      "learning_rate": 4.3628960174793925e-05,
+      "loss": 0.8795,
+      "step": 3850
+    },
+    {
+      "epoch": 0.3873274406594498,
+      "grad_norm": 0.75,
+      "learning_rate": 4.354619790114874e-05,
+      "loss": 0.8791,
+      "step": 3900
+    },
+    {
+      "epoch": 0.3922931770781607,
+      "grad_norm": 0.82421875,
+      "learning_rate": 4.346343562750356e-05,
+      "loss": 0.8775,
+      "step": 3950
+    },
+    {
+      "epoch": 0.3972589134968716,
+      "grad_norm": 0.7578125,
+      "learning_rate": 4.3380673353858384e-05,
+      "loss": 0.8797,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4022246499155825,
+      "grad_norm": 0.78515625,
+      "learning_rate": 4.32979110802132e-05,
+      "loss": 0.8796,
+      "step": 4050
+    },
+    {
+      "epoch": 0.4071903863342934,
+      "grad_norm": 0.76953125,
+      "learning_rate": 4.321514880656802e-05,
+      "loss": 0.8779,
+      "step": 4100
+    },
+    {
+      "epoch": 0.4121561227530043,
+      "grad_norm": 0.7421875,
+      "learning_rate": 4.3132386532922836e-05,
+      "loss": 0.8787,
+      "step": 4150
+    },
+    {
+      "epoch": 0.4171218591717152,
+      "grad_norm": 0.765625,
+      "learning_rate": 4.3049624259277653e-05,
+      "loss": 0.8785,
+      "step": 4200
+    },
+    {
+      "epoch": 0.4220875955904261,
+      "grad_norm": 0.76171875,
+      "learning_rate": 4.296686198563247e-05,
+      "loss": 0.8784,
+      "step": 4250
+    },
+    {
+      "epoch": 0.427053332009137,
+      "grad_norm": 0.765625,
+      "learning_rate": 4.288409971198729e-05,
+      "loss": 0.8763,
+      "step": 4300
+    },
+    {
+      "epoch": 0.4320190684278479,
+      "grad_norm": 0.79296875,
+      "learning_rate": 4.280133743834211e-05,
+      "loss": 0.8749,
+      "step": 4350
+    },
+    {
+      "epoch": 0.43698480484655877,
+      "grad_norm": 0.78125,
+      "learning_rate": 4.271857516469693e-05,
+      "loss": 0.8772,
+      "step": 4400
+    },
+    {
+      "epoch": 0.4419505412652696,
+      "grad_norm": 0.765625,
+      "learning_rate": 4.263581289105175e-05,
+      "loss": 0.8757,
+      "step": 4450
+    },
+    {
+      "epoch": 0.4469162776839805,
+      "grad_norm": 0.765625,
+      "learning_rate": 4.2553050617406565e-05,
+      "loss": 0.8764,
+      "step": 4500
+    },
+    {
+      "epoch": 0.4518820141026914,
+      "grad_norm": 0.76953125,
+      "learning_rate": 4.247028834376138e-05,
+      "loss": 0.8744,
+      "step": 4550
+    },
+    {
+      "epoch": 0.4568477505214023,
+      "grad_norm": 0.765625,
+      "learning_rate": 4.23875260701162e-05,
+      "loss": 0.8753,
+      "step": 4600
+    },
+    {
+      "epoch": 0.4618134869401132,
+      "grad_norm": 0.78515625,
+      "learning_rate": 4.230476379647102e-05,
+      "loss": 0.8743,
+      "step": 4650
+    },
+    {
+      "epoch": 0.4667792233588241,
+      "grad_norm": 0.73046875,
+      "learning_rate": 4.222200152282584e-05,
+      "loss": 0.8713,
+      "step": 4700
+    },
+    {
+      "epoch": 0.471744959777535,
+      "grad_norm": 0.8046875,
+      "learning_rate": 4.213923924918066e-05,
+      "loss": 0.8719,
+      "step": 4750
+    },
+    {
+      "epoch": 0.4767106961962459,
+      "grad_norm": 0.78515625,
+      "learning_rate": 4.2056476975535476e-05,
+      "loss": 0.8714,
+      "step": 4800
+    },
+    {
+      "epoch": 0.4816764326149568,
+      "grad_norm": 0.7578125,
+      "learning_rate": 4.1973714701890293e-05,
+      "loss": 0.8718,
+      "step": 4850
+    },
+    {
+      "epoch": 0.4866421690336677,
+      "grad_norm": 0.79296875,
+      "learning_rate": 4.189095242824511e-05,
+      "loss": 0.8708,
+      "step": 4900
+    },
+    {
+      "epoch": 0.4916079054523786,
+      "grad_norm": 0.78125,
+      "learning_rate": 4.180819015459993e-05,
+      "loss": 0.8741,
+      "step": 4950
+    },
+    {
+      "epoch": 0.4965736418710895,
+      "grad_norm": 0.7578125,
+      "learning_rate": 4.1725427880954746e-05,
+      "loss": 0.873,
+      "step": 5000
+    },
+    {
+      "epoch": 0.5015393782898003,
+      "grad_norm": 0.765625,
+      "learning_rate": 4.164266560730957e-05,
+      "loss": 0.8732,
+      "step": 5050
+    },
+    {
+      "epoch": 0.5065051147085112,
+      "grad_norm": 0.7734375,
+      "learning_rate": 4.155990333366439e-05,
+      "loss": 0.872,
+      "step": 5100
+    },
+    {
+      "epoch": 0.5114708511272221,
+      "grad_norm": 0.74609375,
+      "learning_rate": 4.1477141060019205e-05,
+      "loss": 0.8711,
+      "step": 5150
+    },
+    {
+      "epoch": 0.516436587545933,
+      "grad_norm": 0.77734375,
+      "learning_rate": 4.139437878637402e-05,
+      "loss": 0.8707,
+      "step": 5200
+    },
+    {
+      "epoch": 0.5214023239646439,
+      "grad_norm": 0.78125,
+      "learning_rate": 4.131161651272884e-05,
+      "loss": 0.8691,
+      "step": 5250
+    },
+    {
+      "epoch": 0.5263680603833548,
+      "grad_norm": 0.73828125,
+      "learning_rate": 4.122885423908366e-05,
+      "loss": 0.8679,
+      "step": 5300
+    },
+    {
+      "epoch": 0.5313337968020657,
+      "grad_norm": 0.78515625,
+      "learning_rate": 4.1146091965438474e-05,
+      "loss": 0.8686,
+      "step": 5350
+    },
+    {
+      "epoch": 0.5362995332207766,
+      "grad_norm": 0.7578125,
+      "learning_rate": 4.10633296917933e-05,
+      "loss": 0.8683,
+      "step": 5400
+    },
+    {
+      "epoch": 0.5412652696394875,
+      "grad_norm": 0.74609375,
+      "learning_rate": 4.0980567418148116e-05,
+      "loss": 0.8693,
+      "step": 5450
+    },
+    {
+      "epoch": 0.5462310060581984,
+      "grad_norm": 0.73828125,
+      "learning_rate": 4.0897805144502933e-05,
+      "loss": 0.8699,
+      "step": 5500
+    },
+    {
+      "epoch": 0.5511967424769093,
+      "grad_norm": 0.7734375,
+      "learning_rate": 4.081504287085775e-05,
+      "loss": 0.8671,
+      "step": 5550
+    },
+    {
+      "epoch": 0.5561624788956202,
+      "grad_norm": 0.734375,
+      "learning_rate": 4.073228059721257e-05,
+      "loss": 0.8681,
+      "step": 5600
+    },
+    {
+      "epoch": 0.5611282153143311,
+      "grad_norm": 0.76171875,
+      "learning_rate": 4.0649518323567386e-05,
+      "loss": 0.8703,
+      "step": 5650
+    },
+    {
+      "epoch": 0.566093951733042,
+      "grad_norm": 0.7421875,
+      "learning_rate": 4.05667560499222e-05,
+      "loss": 0.8675,
+      "step": 5700
+    },
+    {
+      "epoch": 0.5710596881517529,
+      "grad_norm": 0.78125,
+      "learning_rate": 4.048399377627702e-05,
+      "loss": 0.8697,
+      "step": 5750
+    },
+    {
+      "epoch": 0.5760254245704638,
+      "grad_norm": 0.75,
+      "learning_rate": 4.0401231502631845e-05,
+      "loss": 0.8685,
+      "step": 5800
+    },
+    {
+      "epoch": 0.5809911609891747,
+      "grad_norm": 0.76953125,
+      "learning_rate": 4.031846922898666e-05,
+      "loss": 0.8683,
+      "step": 5850
+    },
+    {
+      "epoch": 0.5859568974078856,
+      "grad_norm": 0.75,
+      "learning_rate": 4.023570695534148e-05,
+      "loss": 0.8649,
+      "step": 5900
+    },
+    {
+      "epoch": 0.5909226338265965,
+      "grad_norm": 0.76953125,
+      "learning_rate": 4.01529446816963e-05,
+      "loss": 0.8662,
+      "step": 5950
+    },
+    {
+      "epoch": 0.5958883702453074,
+      "grad_norm": 0.77734375,
+      "learning_rate": 4.0070182408051114e-05,
+      "loss": 0.8667,
+      "step": 6000
+    },
+    {
+      "epoch": 0.6008541066640183,
+      "grad_norm": 0.80859375,
+      "learning_rate": 3.998742013440593e-05,
+      "loss": 0.8682,
+      "step": 6050
+    },
+    {
+      "epoch": 0.6058198430827292,
+      "grad_norm": 0.734375,
+      "learning_rate": 3.990465786076075e-05,
+      "loss": 0.8682,
+      "step": 6100
+    },
+    {
+      "epoch": 0.6107855795014401,
+      "grad_norm": 0.73828125,
+      "learning_rate": 3.9821895587115573e-05,
+      "loss": 0.8684,
+      "step": 6150
+    },
+    {
+      "epoch": 0.615751315920151,
+      "grad_norm": 0.73828125,
+      "learning_rate": 3.973913331347039e-05,
+      "loss": 0.8662,
+      "step": 6200
+    },
+    {
+      "epoch": 0.6207170523388619,
+      "grad_norm": 0.78515625,
+      "learning_rate": 3.965637103982521e-05,
+      "loss": 0.8673,
+      "step": 6250
+    },
+    {
+      "epoch": 0.6256827887575728,
+      "grad_norm": 0.76953125,
+      "learning_rate": 3.9573608766180026e-05,
+      "loss": 0.8665,
+      "step": 6300
+    },
+    {
+      "epoch": 0.6306485251762837,
+      "grad_norm": 0.7578125,
+      "learning_rate": 3.949084649253484e-05,
+      "loss": 0.864,
+      "step": 6350
+    },
+    {
+      "epoch": 0.6356142615949946,
+      "grad_norm": 0.7890625,
+      "learning_rate": 3.940808421888966e-05,
+      "loss": 0.8645,
+      "step": 6400
+    },
+    {
+      "epoch": 0.6405799980137055,
+      "grad_norm": 0.8046875,
+      "learning_rate": 3.932532194524448e-05,
+      "loss": 0.8633,
+      "step": 6450
+    },
+    {
+      "epoch": 0.6455457344324164,
+      "grad_norm": 0.7890625,
+      "learning_rate": 3.92425596715993e-05,
+      "loss": 0.8676,
+      "step": 6500
+    },
+    {
+      "epoch": 0.6505114708511273,
+      "grad_norm": 0.77734375,
+      "learning_rate": 3.915979739795412e-05,
+      "loss": 0.866,
+      "step": 6550
+    },
+    {
+      "epoch": 0.6554772072698382,
+      "grad_norm": 0.78515625,
+      "learning_rate": 3.907703512430894e-05,
+      "loss": 0.8642,
+      "step": 6600
+    },
+    {
+      "epoch": 0.6604429436885491,
+      "grad_norm": 0.78125,
+      "learning_rate": 3.8994272850663754e-05,
+      "loss": 0.864,
+      "step": 6650
+    },
+    {
+      "epoch": 0.66540868010726,
+      "grad_norm": 0.78125,
+      "learning_rate": 3.891151057701857e-05,
+      "loss": 0.864,
+      "step": 6700
+    },
+    {
+      "epoch": 0.6703744165259709,
+      "grad_norm": 0.77734375,
+      "learning_rate": 3.882874830337339e-05,
+      "loss": 0.8617,
+      "step": 6750
+    },
+    {
+      "epoch": 0.6753401529446817,
+      "grad_norm": 0.80859375,
+      "learning_rate": 3.874598602972821e-05,
+      "loss": 0.8662,
+      "step": 6800
+    },
+    {
+      "epoch": 0.6803058893633926,
+      "grad_norm": 0.765625,
+      "learning_rate": 3.866322375608303e-05,
+      "loss": 0.8586,
+      "step": 6850
+    },
+    {
+      "epoch": 0.6852716257821034,
+      "grad_norm": 0.796875,
+      "learning_rate": 3.858046148243785e-05,
+      "loss": 0.8642,
+      "step": 6900
+    },
+    {
+      "epoch": 0.6902373622008143,
+      "grad_norm": 0.76953125,
+      "learning_rate": 3.8497699208792666e-05,
+      "loss": 0.8621,
+      "step": 6950
+    },
+    {
+      "epoch": 0.6952030986195252,
+      "grad_norm": 0.72265625,
+      "learning_rate": 3.841493693514748e-05,
+      "loss": 0.8614,
+      "step": 7000
+    },
+    {
+      "epoch": 0.7001688350382361,
+      "grad_norm": 0.7421875,
+      "learning_rate": 3.83321746615023e-05,
+      "loss": 0.8615,
+      "step": 7050
+    },
+    {
+      "epoch": 0.705134571456947,
+      "grad_norm": 0.74609375,
+      "learning_rate": 3.824941238785712e-05,
+      "loss": 0.8623,
+      "step": 7100
+    },
+    {
+      "epoch": 0.7101003078756579,
+      "grad_norm": 0.73828125,
+      "learning_rate": 3.8166650114211935e-05,
+      "loss": 0.8617,
+      "step": 7150
+    },
+    {
+      "epoch": 0.7150660442943688,
+      "grad_norm": 0.7421875,
+      "learning_rate": 3.808388784056676e-05,
+      "loss": 0.8616,
+      "step": 7200
+    },
+    {
+      "epoch": 0.7200317807130797,
+      "grad_norm": 0.75,
+      "learning_rate": 3.800112556692158e-05,
+      "loss": 0.8625,
+      "step": 7250
+    },
+    {
+      "epoch": 0.7249975171317906,
+      "grad_norm": 0.76171875,
+      "learning_rate": 3.7918363293276394e-05,
+      "loss": 0.8638,
+      "step": 7300
+    },
+    {
+      "epoch": 0.7299632535505015,
+      "grad_norm": 1.0234375,
+      "learning_rate": 3.783560101963121e-05,
+      "loss": 0.8616,
+      "step": 7350
+    },
+    {
+      "epoch": 0.7349289899692124,
+      "grad_norm": 0.78515625,
+      "learning_rate": 3.775283874598603e-05,
+      "loss": 0.8607,
+      "step": 7400
+    },
+    {
+      "epoch": 0.7398947263879233,
+      "grad_norm": 0.7578125,
+      "learning_rate": 3.767007647234085e-05,
+      "loss": 0.8628,
+      "step": 7450
+    },
+    {
+      "epoch": 0.7448604628066342,
+      "grad_norm": 0.77734375,
+      "learning_rate": 3.7587314198695664e-05,
+      "loss": 0.8593,
+      "step": 7500
+    },
+    {
+      "epoch": 0.7498261992253451,
+      "grad_norm": 0.79296875,
+      "learning_rate": 3.750455192505049e-05,
+      "loss": 0.8632,
+      "step": 7550
+    },
+    {
+      "epoch": 0.754791935644056,
+      "grad_norm": 0.78515625,
+      "learning_rate": 3.7421789651405306e-05,
+      "loss": 0.8605,
+      "step": 7600
+    },
+    {
+      "epoch": 0.7597576720627669,
+      "grad_norm": 0.77734375,
+      "learning_rate": 3.733902737776012e-05,
+      "loss": 0.8599,
+      "step": 7650
+    },
+    {
+      "epoch": 0.7647234084814778,
+      "grad_norm": 0.77734375,
+      "learning_rate": 3.725626510411494e-05,
+      "loss": 0.8586,
+      "step": 7700
+    },
+    {
+      "epoch": 0.7696891449001887,
+      "grad_norm": 0.75390625,
+      "learning_rate": 3.717350283046976e-05,
+      "loss": 0.8595,
+      "step": 7750
+    },
+    {
+      "epoch": 0.7746548813188996,
+      "grad_norm": 0.734375,
+      "learning_rate": 3.7090740556824575e-05,
+      "loss": 0.8588,
+      "step": 7800
+    },
+    {
+      "epoch": 0.7796206177376105,
+      "grad_norm": 0.76171875,
+      "learning_rate": 3.700797828317939e-05,
+      "loss": 0.8605,
+      "step": 7850
+    },
+    {
+      "epoch": 0.7845863541563214,
+      "grad_norm": 0.796875,
+      "learning_rate": 3.692521600953422e-05,
+      "loss": 0.8607,
+      "step": 7900
+    },
+    {
+      "epoch": 0.7895520905750323,
+      "grad_norm": 0.78515625,
+      "learning_rate": 3.6842453735889034e-05,
+      "loss": 0.8589,
+      "step": 7950
+    },
+    {
+      "epoch": 0.7945178269937432,
+      "grad_norm": 0.76953125,
+      "learning_rate": 3.675969146224385e-05,
+      "loss": 0.8588,
+      "step": 8000
+    },
+    {
+      "epoch": 0.7994835634124541,
+      "grad_norm": 0.765625,
+      "learning_rate": 3.667692918859867e-05,
+      "loss": 0.8583,
+      "step": 8050
+    },
+    {
+      "epoch": 0.804449299831165,
+      "grad_norm": 0.74609375,
+      "learning_rate": 3.659416691495349e-05,
+      "loss": 0.8592,
+      "step": 8100
+    },
+    {
+      "epoch": 0.8094150362498759,
+      "grad_norm": 0.86328125,
+      "learning_rate": 3.6511404641308304e-05,
+      "loss": 0.8588,
+      "step": 8150
+    },
+    {
+      "epoch": 0.8143807726685868,
+      "grad_norm": 0.80078125,
+      "learning_rate": 3.642864236766312e-05,
+      "loss": 0.8602,
+      "step": 8200
+    },
+    {
+      "epoch": 0.8193465090872977,
+      "grad_norm": 0.76171875,
+      "learning_rate": 3.634588009401794e-05,
+      "loss": 0.8615,
+      "step": 8250
+    },
+    {
+      "epoch": 0.8243122455060086,
+      "grad_norm": 0.75,
+      "learning_rate": 3.626311782037276e-05,
+      "loss": 0.8577,
+      "step": 8300
+    },
+    {
+      "epoch": 0.8292779819247195,
+      "grad_norm": 0.765625,
+      "learning_rate": 3.618035554672758e-05,
+      "loss": 0.8591,
+      "step": 8350
+    },
+    {
+      "epoch": 0.8342437183434304,
+      "grad_norm": 0.7734375,
+      "learning_rate": 3.60975932730824e-05,
+      "loss": 0.8605,
+      "step": 8400
+    },
+    {
+      "epoch": 0.8392094547621413,
+      "grad_norm": 0.765625,
+      "learning_rate": 3.6014830999437215e-05,
+      "loss": 0.8578,
+      "step": 8450
+    },
+    {
+      "epoch": 0.8441751911808522,
+      "grad_norm": 0.79296875,
+      "learning_rate": 3.593206872579203e-05,
+      "loss": 0.8585,
+      "step": 8500
+    },
+    {
+      "epoch": 0.8491409275995631,
+      "grad_norm": 0.7734375,
+      "learning_rate": 3.584930645214685e-05,
+      "loss": 0.8571,
+      "step": 8550
+    },
+    {
+      "epoch": 0.854106664018274,
+      "grad_norm": 0.765625,
+      "learning_rate": 3.576654417850167e-05,
+      "loss": 0.8581,
+      "step": 8600
+    },
+    {
+      "epoch": 0.8590724004369849,
+      "grad_norm": 0.80078125,
+      "learning_rate": 3.568378190485649e-05,
+      "loss": 0.8569,
+      "step": 8650
+    },
+    {
+      "epoch": 0.8640381368556957,
+      "grad_norm": 0.75390625,
+      "learning_rate": 3.5601019631211316e-05,
+      "loss": 0.8559,
+      "step": 8700
+    },
+    {
+      "epoch": 0.8690038732744066,
+      "grad_norm": 0.73046875,
+      "learning_rate": 3.5518257357566133e-05,
+      "loss": 0.8578,
+      "step": 8750
+    },
+    {
+      "epoch": 0.8739696096931175,
+      "grad_norm": 0.76171875,
+      "learning_rate": 3.543549508392095e-05,
+      "loss": 0.8589,
+      "step": 8800
+    },
+    {
+      "epoch": 0.8789353461118283,
+      "grad_norm": 0.79296875,
+      "learning_rate": 3.535273281027577e-05,
+      "loss": 0.8571,
+      "step": 8850
+    },
+    {
+      "epoch": 0.8839010825305392,
+      "grad_norm": 0.74609375,
+      "learning_rate": 3.5269970536630586e-05,
+      "loss": 0.8581,
+      "step": 8900
+    },
+    {
+      "epoch": 0.8888668189492501,
+      "grad_norm": 0.76171875,
+      "learning_rate": 3.51872082629854e-05,
+      "loss": 0.8566,
+      "step": 8950
+    },
+    {
+      "epoch": 0.893832555367961,
+      "grad_norm": 0.7578125,
+      "learning_rate": 3.510444598934022e-05,
+      "loss": 0.8558,
+      "step": 9000
+    },
+    {
+      "epoch": 0.8987982917866719,
+      "grad_norm": 0.734375,
+      "learning_rate": 3.5021683715695045e-05,
+      "loss": 0.8536,
+      "step": 9050
+    },
+    {
+      "epoch": 0.9037640282053828,
+      "grad_norm": 0.73046875,
+      "learning_rate": 3.493892144204986e-05,
+      "loss": 0.8566,
+      "step": 9100
+    },
+    {
+      "epoch": 0.9087297646240937,
+      "grad_norm": 0.796875,
+      "learning_rate": 3.485615916840468e-05,
+      "loss": 0.8575,
+      "step": 9150
+    },
+    {
+      "epoch": 0.9136955010428046,
+      "grad_norm": 0.74609375,
+      "learning_rate": 3.47733968947595e-05,
+      "loss": 0.8567,
+      "step": 9200
+    },
+    {
+      "epoch": 0.9186612374615155,
+      "grad_norm": 0.7734375,
+      "learning_rate": 3.4690634621114314e-05,
+      "loss": 0.8535,
+      "step": 9250
+    },
+    {
+      "epoch": 0.9236269738802264,
+      "grad_norm": 0.765625,
+      "learning_rate": 3.460787234746913e-05,
+      "loss": 0.8578,
+      "step": 9300
+    },
+    {
+      "epoch": 0.9285927102989373,
+      "grad_norm": 0.7734375,
+      "learning_rate": 3.452511007382395e-05,
+      "loss": 0.8565,
+      "step": 9350
+    },
+    {
+      "epoch": 0.9335584467176482,
+      "grad_norm": 0.76953125,
+      "learning_rate": 3.4442347800178773e-05,
+      "loss": 0.8551,
+      "step": 9400
+    },
+    {
+      "epoch": 0.9385241831363591,
+      "grad_norm": 0.7734375,
+      "learning_rate": 3.435958552653359e-05,
+      "loss": 0.8552,
+      "step": 9450
+    },
+    {
+      "epoch": 0.94348991955507,
+      "grad_norm": 0.7421875,
+      "learning_rate": 3.427682325288841e-05,
+      "loss": 0.8536,
+      "step": 9500
+    },
+    {
+      "epoch": 0.9484556559737809,
+      "grad_norm": 0.78125,
+      "learning_rate": 3.4194060979243226e-05,
+      "loss": 0.8558,
+      "step": 9550
+    },
+    {
+      "epoch": 0.9534213923924918,
+      "grad_norm": 0.7734375,
+      "learning_rate": 3.411129870559804e-05,
+      "loss": 0.8562,
+      "step": 9600
+    },
+    {
+      "epoch": 0.9583871288112027,
+      "grad_norm": 0.7421875,
+      "learning_rate": 3.402853643195286e-05,
+      "loss": 0.8558,
+      "step": 9650
+    },
+    {
+      "epoch": 0.9633528652299136,
+      "grad_norm": 0.74609375,
+      "learning_rate": 3.394577415830768e-05,
+      "loss": 0.8556,
+      "step": 9700
+    },
+    {
+      "epoch": 0.9683186016486245,
+      "grad_norm": 0.75,
+      "learning_rate": 3.38630118846625e-05,
+      "loss": 0.8559,
+      "step": 9750
+    },
+    {
+      "epoch": 0.9732843380673354,
+      "grad_norm": 0.83203125,
+      "learning_rate": 3.378024961101732e-05,
+      "loss": 0.8535,
+      "step": 9800
+    },
+    {
+      "epoch": 0.9782500744860463,
+      "grad_norm": 0.7734375,
+      "learning_rate": 3.369748733737214e-05,
+      "loss": 0.8551,
+      "step": 9850
+    },
+    {
+      "epoch": 0.9832158109047572,
+      "grad_norm": 0.79296875,
+      "learning_rate": 3.3614725063726954e-05,
+      "loss": 0.8606,
+      "step": 9900
+    },
+    {
+      "epoch": 0.9881815473234681,
+      "grad_norm": 0.75,
+      "learning_rate": 3.353196279008177e-05,
+      "loss": 0.8544,
+      "step": 9950
+    },
+    {
+      "epoch": 0.993147283742179,
+      "grad_norm": 0.828125,
+      "learning_rate": 3.344920051643659e-05,
+      "loss": 0.8527,
+      "step": 10000
+    },
+    {
+      "epoch": 0.9981130201608899,
+      "grad_norm": 0.765625,
+      "learning_rate": 3.3366438242791407e-05,
+      "loss": 0.8521,
+      "step": 10050
+    },
+    {
+      "epoch": 1.0030787565796007,
+      "grad_norm": 0.77734375,
+      "learning_rate": 3.328367596914623e-05,
+      "loss": 0.8398,
+      "step": 10100
+    },
+    {
+      "epoch": 1.0080444929983117,
+      "grad_norm": 0.80078125,
+      "learning_rate": 3.320091369550105e-05,
+      "loss": 0.8317,
+      "step": 10150
+    },
+    {
+      "epoch": 1.0130102294170225,
+      "grad_norm": 0.8125,
+      "learning_rate": 3.3118151421855866e-05,
+      "loss": 0.8283,
+      "step": 10200
+    },
+    {
+      "epoch": 1.0179759658357335,
+      "grad_norm": 0.796875,
+      "learning_rate": 3.303538914821068e-05,
+      "loss": 0.8334,
+      "step": 10250
+    },
+    {
+      "epoch": 1.0229417022544443,
+      "grad_norm": 0.76953125,
+      "learning_rate": 3.29526268745655e-05,
+      "loss": 0.83,
+      "step": 10300
+    },
+    {
+      "epoch": 1.0279074386731553,
+      "grad_norm": 0.78125,
+      "learning_rate": 3.286986460092032e-05,
+      "loss": 0.8272,
+      "step": 10350
+    },
+    {
+      "epoch": 1.032873175091866,
+      "grad_norm": 0.76171875,
+      "learning_rate": 3.2787102327275135e-05,
+      "loss": 0.8327,
+      "step": 10400
+    },
+    {
+      "epoch": 1.037838911510577,
+      "grad_norm": 0.76953125,
+      "learning_rate": 3.270434005362995e-05,
+      "loss": 0.8302,
+      "step": 10450
+    },
+    {
+      "epoch": 1.0428046479292878,
+      "grad_norm": 0.78515625,
+      "learning_rate": 3.262157777998478e-05,
+      "loss": 0.833,
+      "step": 10500
+    },
+    {
+      "epoch": 1.0477703843479989,
+      "grad_norm": 0.80859375,
+      "learning_rate": 3.2538815506339594e-05,
+      "loss": 0.832,
+      "step": 10550
+    },
+    {
+      "epoch": 1.0527361207667096,
+      "grad_norm": 0.80078125,
+      "learning_rate": 3.245605323269441e-05,
+      "loss": 0.8311,
+      "step": 10600
+    },
+    {
+      "epoch": 1.0577018571854206,
+      "grad_norm": 0.80078125,
+      "learning_rate": 3.237329095904923e-05,
+      "loss": 0.8295,
+      "step": 10650
+    },
+    {
+      "epoch": 1.0626675936041314,
+      "grad_norm": 0.80859375,
+      "learning_rate": 3.2290528685404047e-05,
+      "loss": 0.8309,
+      "step": 10700
+    },
+    {
+      "epoch": 1.0676333300228424,
+      "grad_norm": 0.76953125,
+      "learning_rate": 3.2207766411758864e-05,
+      "loss": 0.8322,
+      "step": 10750
+    },
+    {
+      "epoch": 1.0725990664415532,
+      "grad_norm": 0.765625,
+      "learning_rate": 3.212500413811368e-05,
+      "loss": 0.8318,
+      "step": 10800
+    },
+    {
+      "epoch": 1.0775648028602642,
+      "grad_norm": 0.77734375,
+      "learning_rate": 3.2042241864468506e-05,
+      "loss": 0.8316,
+      "step": 10850
+    },
+    {
+      "epoch": 1.082530539278975,
+      "grad_norm": 0.78125,
+      "learning_rate": 3.195947959082332e-05,
+      "loss": 0.8294,
+      "step": 10900
+    },
+    {
+      "epoch": 1.087496275697686,
+      "grad_norm": 0.76171875,
+      "learning_rate": 3.187671731717814e-05,
+      "loss": 0.8282,
+      "step": 10950
+    },
+    {
+      "epoch": 1.0924620121163968,
+      "grad_norm": 0.7578125,
+      "learning_rate": 3.179395504353296e-05,
+      "loss": 0.8287,
+      "step": 11000
+    },
+    {
+      "epoch": 1.0974277485351078,
+      "grad_norm": 0.81640625,
+      "learning_rate": 3.1711192769887775e-05,
+      "loss": 0.8303,
+      "step": 11050
+    },
+    {
+      "epoch": 1.1023934849538186,
+      "grad_norm": 0.7890625,
+      "learning_rate": 3.162843049624259e-05,
+      "loss": 0.8299,
+      "step": 11100
+    },
+    {
+      "epoch": 1.1073592213725296,
+      "grad_norm": 0.80078125,
+      "learning_rate": 3.154566822259741e-05,
+      "loss": 0.8301,
+      "step": 11150
+    },
+    {
+      "epoch": 1.1123249577912404,
+      "grad_norm": 0.796875,
+      "learning_rate": 3.1462905948952234e-05,
+      "loss": 0.8283,
+      "step": 11200
+    },
+    {
+      "epoch": 1.1172906942099514,
+      "grad_norm": 0.80078125,
+      "learning_rate": 3.138014367530705e-05,
+      "loss": 0.8315,
+      "step": 11250
+    },
+    {
+      "epoch": 1.1222564306286622,
+      "grad_norm": 0.80078125,
+      "learning_rate": 3.129738140166187e-05,
+      "loss": 0.8307,
+      "step": 11300
+    },
+    {
+      "epoch": 1.1272221670473732,
+      "grad_norm": 0.78125,
+      "learning_rate": 3.1214619128016687e-05,
+      "loss": 0.8327,
+      "step": 11350
+    },
+    {
+      "epoch": 1.132187903466084,
+      "grad_norm": 0.81640625,
+      "learning_rate": 3.1131856854371504e-05,
+      "loss": 0.8296,
+      "step": 11400
+    },
+    {
+      "epoch": 1.137153639884795,
+      "grad_norm": 0.7890625,
+      "learning_rate": 3.104909458072632e-05,
+      "loss": 0.8294,
+      "step": 11450
+    },
+    {
+      "epoch": 1.1421193763035058,
+      "grad_norm": 0.7734375,
+      "learning_rate": 3.096633230708114e-05,
+      "loss": 0.8296,
+      "step": 11500
+    },
+    {
+      "epoch": 1.1470851127222166,
+      "grad_norm": 0.765625,
+      "learning_rate": 3.088357003343596e-05,
+      "loss": 0.8295,
+      "step": 11550
+    },
+    {
+      "epoch": 1.1520508491409276,
+      "grad_norm": 0.80078125,
+      "learning_rate": 3.080080775979078e-05,
+      "loss": 0.8307,
+      "step": 11600
+    },
+    {
+      "epoch": 1.1570165855596386,
+      "grad_norm": 0.80078125,
+      "learning_rate": 3.07180454861456e-05,
+      "loss": 0.8302,
+      "step": 11650
+    },
+    {
+      "epoch": 1.1619823219783494,
+      "grad_norm": 0.80078125,
+      "learning_rate": 3.0635283212500415e-05,
+      "loss": 0.8286,
+      "step": 11700
+    },
+    {
+      "epoch": 1.1669480583970602,
+      "grad_norm": 0.80859375,
+      "learning_rate": 3.055252093885523e-05,
+      "loss": 0.8302,
+      "step": 11750
+    },
+    {
+      "epoch": 1.1719137948157712,
+      "grad_norm": 0.8046875,
+      "learning_rate": 3.0469758665210054e-05,
+      "loss": 0.8332,
+      "step": 11800
+    },
+    {
+      "epoch": 1.1768795312344822,
+      "grad_norm": 0.79296875,
+      "learning_rate": 3.038699639156487e-05,
+      "loss": 0.8308,
+      "step": 11850
+    },
+    {
+      "epoch": 1.181845267653193,
+      "grad_norm": 0.8046875,
+      "learning_rate": 3.030423411791969e-05,
+      "loss": 0.83,
+      "step": 11900
+    },
+    {
+      "epoch": 1.1868110040719038,
+      "grad_norm": 0.77734375,
+      "learning_rate": 3.0221471844274506e-05,
+      "loss": 0.8326,
+      "step": 11950
+    },
+    {
+      "epoch": 1.1917767404906148,
+      "grad_norm": 0.79296875,
+      "learning_rate": 3.0138709570629327e-05,
+      "loss": 0.8298,
+      "step": 12000
+    },
+    {
+      "epoch": 1.1967424769093256,
+      "grad_norm": 0.796875,
+      "learning_rate": 3.0055947296984144e-05,
+      "loss": 0.8312,
+      "step": 12050
+    },
+    {
+      "epoch": 1.2017082133280366,
+      "grad_norm": 0.79296875,
+      "learning_rate": 2.997318502333896e-05,
+      "loss": 0.8306,
+      "step": 12100
+    },
+    {
+      "epoch": 1.2066739497467474,
+      "grad_norm": 0.796875,
+      "learning_rate": 2.9890422749693782e-05,
+      "loss": 0.8289,
+      "step": 12150
+    },
+    {
+      "epoch": 1.2116396861654584,
+      "grad_norm": 0.796875,
+      "learning_rate": 2.98076604760486e-05,
+      "loss": 0.8305,
+      "step": 12200
+    },
+    {
+      "epoch": 1.2166054225841691,
+      "grad_norm": 0.79296875,
+      "learning_rate": 2.9724898202403417e-05,
+      "loss": 0.8274,
+      "step": 12250
+    },
+    {
+      "epoch": 1.2215711590028802,
+      "grad_norm": 0.77734375,
+      "learning_rate": 2.9642135928758234e-05,
+      "loss": 0.8294,
+      "step": 12300
+    },
+    {
+      "epoch": 1.226536895421591,
+      "grad_norm": 1.046875,
+      "learning_rate": 2.9559373655113055e-05,
+      "loss": 0.8316,
+      "step": 12350
+    },
+    {
+      "epoch": 1.231502631840302,
+      "grad_norm": 0.78515625,
+      "learning_rate": 2.9476611381467873e-05,
+      "loss": 0.831,
+      "step": 12400
+    },
+    {
+      "epoch": 1.2364683682590127,
+      "grad_norm": 0.8359375,
+      "learning_rate": 2.939384910782269e-05,
+      "loss": 0.8281,
+      "step": 12450
+    },
+    {
+      "epoch": 1.2414341046777237,
+      "grad_norm": 0.77734375,
+      "learning_rate": 2.9311086834177508e-05,
+      "loss": 0.8306,
+      "step": 12500
+    },
+    {
+      "epoch": 1.2463998410964345,
+      "grad_norm": 0.7890625,
+      "learning_rate": 2.922832456053233e-05,
+      "loss": 0.8293,
+      "step": 12550
+    },
+    {
+      "epoch": 1.2513655775151455,
+      "grad_norm": 0.81640625,
+      "learning_rate": 2.9145562286887146e-05,
+      "loss": 0.8281,
+      "step": 12600
+    },
+    {
+      "epoch": 1.2563313139338563,
+      "grad_norm": 0.8125,
+      "learning_rate": 2.9062800013241963e-05,
+      "loss": 0.8296,
+      "step": 12650
+    },
+    {
+      "epoch": 1.2612970503525673,
+      "grad_norm": 0.77734375,
+      "learning_rate": 2.8980037739596784e-05,
+      "loss": 0.8288,
+      "step": 12700
+    },
+    {
+      "epoch": 1.2662627867712781,
+      "grad_norm": 0.77734375,
+      "learning_rate": 2.88972754659516e-05,
+      "loss": 0.8297,
+      "step": 12750
+    },
+    {
+      "epoch": 1.2712285231899891,
+      "grad_norm": 0.79296875,
+      "learning_rate": 2.881451319230642e-05,
+      "loss": 0.831,
+      "step": 12800
+    },
+    {
+      "epoch": 1.2761942596087,
+      "grad_norm": 0.80078125,
+      "learning_rate": 2.8731750918661236e-05,
+      "loss": 0.8286,
+      "step": 12850
+    },
+    {
+      "epoch": 1.281159996027411,
+      "grad_norm": 0.796875,
+      "learning_rate": 2.8648988645016057e-05,
+      "loss": 0.8283,
+      "step": 12900
+    },
+    {
+      "epoch": 1.2861257324461217,
+      "grad_norm": 0.78515625,
+      "learning_rate": 2.8566226371370874e-05,
+      "loss": 0.8295,
+      "step": 12950
+    },
+    {
+      "epoch": 1.2910914688648327,
+      "grad_norm": 0.78125,
+      "learning_rate": 2.8483464097725692e-05,
+      "loss": 0.8284,
+      "step": 13000
+    },
+    {
+      "epoch": 1.2960572052835435,
+      "grad_norm": 0.8046875,
+      "learning_rate": 2.8400701824080513e-05,
+      "loss": 0.829,
+      "step": 13050
+    },
+    {
+      "epoch": 1.3010229417022545,
+      "grad_norm": 0.796875,
+      "learning_rate": 2.831793955043533e-05,
+      "loss": 0.8301,
+      "step": 13100
+    },
+    {
+      "epoch": 1.3059886781209653,
+      "grad_norm": 0.81640625,
+      "learning_rate": 2.8235177276790148e-05,
+      "loss": 0.8287,
+      "step": 13150
+    },
+    {
+      "epoch": 1.3109544145396763,
+      "grad_norm": 0.79296875,
+      "learning_rate": 2.8152415003144965e-05,
+      "loss": 0.8307,
+      "step": 13200
+    },
+    {
+      "epoch": 1.315920150958387,
+      "grad_norm": 0.81640625,
+      "learning_rate": 2.8069652729499786e-05,
+      "loss": 0.8298,
+      "step": 13250
+    },
+    {
+      "epoch": 1.3208858873770981,
+      "grad_norm": 0.79296875,
+      "learning_rate": 2.7986890455854603e-05,
+      "loss": 0.8289,
+      "step": 13300
+    },
+    {
+      "epoch": 1.325851623795809,
+      "grad_norm": 0.80859375,
+      "learning_rate": 2.790412818220942e-05,
+      "loss": 0.8297,
+      "step": 13350
+    },
+    {
+      "epoch": 1.3308173602145197,
+      "grad_norm": 0.78125,
+      "learning_rate": 2.782136590856424e-05,
+      "loss": 0.8308,
+      "step": 13400
+    },
+    {
+      "epoch": 1.3357830966332307,
+      "grad_norm": 0.79296875,
+      "learning_rate": 2.773860363491906e-05,
+      "loss": 0.8291,
+      "step": 13450
+    },
+    {
+      "epoch": 1.3407488330519417,
+      "grad_norm": 0.8046875,
+      "learning_rate": 2.7655841361273876e-05,
+      "loss": 0.8262,
+      "step": 13500
+    },
+    {
+      "epoch": 1.3457145694706525,
+      "grad_norm": 0.8203125,
+      "learning_rate": 2.7573079087628694e-05,
+      "loss": 0.8272,
+      "step": 13550
+    },
+    {
+      "epoch": 1.3506803058893633,
+      "grad_norm": 0.78125,
+      "learning_rate": 2.7490316813983514e-05,
+      "loss": 0.8305,
+      "step": 13600
+    },
+    {
+      "epoch": 1.3556460423080743,
+      "grad_norm": 0.8125,
+      "learning_rate": 2.7407554540338332e-05,
+      "loss": 0.8295,
+      "step": 13650
+    },
+    {
+      "epoch": 1.3606117787267853,
+      "grad_norm": 0.7890625,
+      "learning_rate": 2.732479226669315e-05,
+      "loss": 0.8263,
+      "step": 13700
+    },
+    {
+      "epoch": 1.365577515145496,
+      "grad_norm": 0.80078125,
+      "learning_rate": 2.7242029993047967e-05,
+      "loss": 0.8303,
+      "step": 13750
+    },
+    {
+      "epoch": 1.3705432515642069,
+      "grad_norm": 0.78125,
+      "learning_rate": 2.7159267719402788e-05,
+      "loss": 0.8275,
+      "step": 13800
+    },
+    {
+      "epoch": 1.3755089879829179,
+      "grad_norm": 0.80078125,
+      "learning_rate": 2.7076505445757605e-05,
+      "loss": 0.8288,
+      "step": 13850
+    },
+    {
+      "epoch": 1.3804747244016289,
+      "grad_norm": 0.8046875,
+      "learning_rate": 2.6993743172112422e-05,
+      "loss": 0.8272,
+      "step": 13900
+    },
+    {
+      "epoch": 1.3854404608203397,
+      "grad_norm": 0.796875,
+      "learning_rate": 2.6910980898467243e-05,
+      "loss": 0.8287,
+      "step": 13950
+    },
+    {
+      "epoch": 1.3904061972390505,
+      "grad_norm": 0.77734375,
+      "learning_rate": 2.682821862482206e-05,
+      "loss": 0.8289,
+      "step": 14000
+    },
+    {
+      "epoch": 1.3953719336577615,
+      "grad_norm": 0.8125,
+      "learning_rate": 2.6745456351176878e-05,
+      "loss": 0.8307,
+      "step": 14050
+    },
+    {
+      "epoch": 1.4003376700764725,
+      "grad_norm": 0.8203125,
+      "learning_rate": 2.6662694077531695e-05,
+      "loss": 0.8259,
+      "step": 14100
+    },
+    {
+      "epoch": 1.4053034064951833,
+      "grad_norm": 0.79296875,
+      "learning_rate": 2.6579931803886516e-05,
+      "loss": 0.8265,
+      "step": 14150
+    },
+    {
+      "epoch": 1.410269142913894,
+      "grad_norm": 0.80859375,
+      "learning_rate": 2.6497169530241334e-05,
+      "loss": 0.8292,
+      "step": 14200
+    },
+    {
+      "epoch": 1.415234879332605,
+      "grad_norm": 0.78125,
+      "learning_rate": 2.641440725659615e-05,
+      "loss": 0.8332,
+      "step": 14250
+    },
+    {
+      "epoch": 1.4202006157513158,
+      "grad_norm": 0.7890625,
+      "learning_rate": 2.6331644982950972e-05,
+      "loss": 0.829,
+      "step": 14300
+    },
+    {
+      "epoch": 1.4251663521700269,
+      "grad_norm": 0.7890625,
+      "learning_rate": 2.624888270930579e-05,
+      "loss": 0.8282,
+      "step": 14350
+    },
+    {
+      "epoch": 1.4301320885887376,
+      "grad_norm": 0.80859375,
+      "learning_rate": 2.6166120435660607e-05,
+      "loss": 0.8274,
+      "step": 14400
+    },
+    {
+      "epoch": 1.4350978250074486,
+      "grad_norm": 0.78125,
+      "learning_rate": 2.6083358162015424e-05,
+      "loss": 0.8296,
+      "step": 14450
+    },
+    {
+      "epoch": 1.4400635614261594,
+      "grad_norm": 0.7734375,
+      "learning_rate": 2.6000595888370245e-05,
+      "loss": 0.8304,
+      "step": 14500
+    },
+    {
+      "epoch": 1.4450292978448704,
+      "grad_norm": 0.81640625,
+      "learning_rate": 2.5917833614725062e-05,
+      "loss": 0.8298,
+      "step": 14550
+    },
+    {
+      "epoch": 1.4499950342635812,
+      "grad_norm": 0.76953125,
+      "learning_rate": 2.5835071341079887e-05,
+      "loss": 0.8271,
+      "step": 14600
+    },
+    {
+      "epoch": 1.4549607706822922,
+      "grad_norm": 0.7890625,
+      "learning_rate": 2.5752309067434704e-05,
+      "loss": 0.8255,
+      "step": 14650
+    },
+    {
+      "epoch": 1.459926507101003,
+      "grad_norm": 0.78125,
+      "learning_rate": 2.566954679378952e-05,
+      "loss": 0.8259,
+      "step": 14700
+    },
+    {
+      "epoch": 1.464892243519714,
+      "grad_norm": 0.76171875,
+      "learning_rate": 2.5586784520144342e-05,
+      "loss": 0.8287,
+      "step": 14750
+    },
+    {
+      "epoch": 1.4698579799384248,
+      "grad_norm": 0.796875,
+      "learning_rate": 2.550402224649916e-05,
+      "loss": 0.8268,
+      "step": 14800
+    },
+    {
+      "epoch": 1.4748237163571358,
+      "grad_norm": 0.7890625,
+      "learning_rate": 2.5421259972853977e-05,
+      "loss": 0.8304,
+      "step": 14850
+    },
+    {
+      "epoch": 1.4797894527758466,
+      "grad_norm": 0.80859375,
+      "learning_rate": 2.5338497699208798e-05,
+      "loss": 0.8265,
+      "step": 14900
+    },
+    {
+      "epoch": 1.4847551891945576,
+      "grad_norm": 0.80078125,
+      "learning_rate": 2.5255735425563615e-05,
+      "loss": 0.8272,
+      "step": 14950
+    },
+    {
+      "epoch": 1.4897209256132684,
+      "grad_norm": 0.796875,
+      "learning_rate": 2.5172973151918433e-05,
+      "loss": 0.8264,
+      "step": 15000
+    },
+    {
+      "epoch": 1.4946866620319794,
+      "grad_norm": 0.81640625,
+      "learning_rate": 2.509021087827325e-05,
+      "loss": 0.8296,
+      "step": 15050
+    },
+    {
+      "epoch": 1.4996523984506902,
+      "grad_norm": 0.8046875,
+      "learning_rate": 2.500744860462807e-05,
+      "loss": 0.8302,
+      "step": 15100
+    },
+    {
+      "epoch": 1.5046181348694012,
+      "grad_norm": 0.78125,
+      "learning_rate": 2.4924686330982885e-05,
+      "loss": 0.8237,
+      "step": 15150
+    },
+    {
+      "epoch": 1.509583871288112,
+      "grad_norm": 0.80859375,
+      "learning_rate": 2.4841924057337702e-05,
+      "loss": 0.825,
+      "step": 15200
+    },
+    {
+      "epoch": 1.5145496077068228,
+      "grad_norm": 0.8125,
+      "learning_rate": 2.4759161783692523e-05,
+      "loss": 0.8244,
+      "step": 15250
+    },
+    {
+      "epoch": 1.5195153441255338,
+      "grad_norm": 0.8203125,
+      "learning_rate": 2.467639951004734e-05,
+      "loss": 0.8267,
+      "step": 15300
+    },
+    {
+      "epoch": 1.5244810805442448,
+      "grad_norm": 0.81640625,
+      "learning_rate": 2.4593637236402158e-05,
+      "loss": 0.8273,
+      "step": 15350
+    },
+    {
+      "epoch": 1.5294468169629556,
+      "grad_norm": 0.80078125,
+      "learning_rate": 2.451087496275698e-05,
+      "loss": 0.83,
+      "step": 15400
+    },
+    {
+      "epoch": 1.5344125533816664,
+      "grad_norm": 0.8125,
+      "learning_rate": 2.4428112689111796e-05,
+      "loss": 0.8268,
+      "step": 15450
+    },
+    {
+      "epoch": 1.5393782898003774,
+      "grad_norm": 0.80859375,
+      "learning_rate": 2.4345350415466614e-05,
+      "loss": 0.8254,
+      "step": 15500
+    },
+    {
+      "epoch": 1.5443440262190884,
+      "grad_norm": 0.80859375,
+      "learning_rate": 2.426258814182143e-05,
+      "loss": 0.8261,
+      "step": 15550
+    },
+    {
+      "epoch": 1.5493097626377992,
+      "grad_norm": 0.796875,
+      "learning_rate": 2.4179825868176252e-05,
+      "loss": 0.8261,
+      "step": 15600
+    },
+    {
+      "epoch": 1.55427549905651,
+      "grad_norm": 0.82421875,
+      "learning_rate": 2.409706359453107e-05,
+      "loss": 0.8293,
+      "step": 15650
+    },
+    {
+      "epoch": 1.559241235475221,
+      "grad_norm": 0.765625,
+      "learning_rate": 2.4014301320885887e-05,
+      "loss": 0.8301,
+      "step": 15700
+    },
+    {
+      "epoch": 1.564206971893932,
+      "grad_norm": 0.8203125,
+      "learning_rate": 2.3931539047240707e-05,
+      "loss": 0.8262,
+      "step": 15750
+    },
+    {
+      "epoch": 1.5691727083126428,
+      "grad_norm": 0.79296875,
+      "learning_rate": 2.3848776773595525e-05,
+      "loss": 0.8281,
+      "step": 15800
+    },
+    {
+      "epoch": 1.5741384447313536,
+      "grad_norm": 0.8046875,
+      "learning_rate": 2.3766014499950342e-05,
+      "loss": 0.8277,
+      "step": 15850
+    },
+    {
+      "epoch": 1.5791041811500646,
+      "grad_norm": 0.7734375,
+      "learning_rate": 2.368325222630516e-05,
+      "loss": 0.8257,
+      "step": 15900
+    },
+    {
+      "epoch": 1.5840699175687756,
+      "grad_norm": 0.8125,
+      "learning_rate": 2.360048995265998e-05,
+      "loss": 0.8291,
+      "step": 15950
+    },
+    {
+      "epoch": 1.5890356539874864,
+      "grad_norm": 0.796875,
+      "learning_rate": 2.3517727679014798e-05,
+      "loss": 0.8289,
+      "step": 16000
+    },
+    {
+      "epoch": 1.5940013904061971,
+      "grad_norm": 0.80078125,
+      "learning_rate": 2.343496540536962e-05,
+      "loss": 0.8269,
+      "step": 16050
+    },
+    {
+      "epoch": 1.5989671268249082,
+      "grad_norm": 0.80078125,
+      "learning_rate": 2.3352203131724436e-05,
+      "loss": 0.8258,
+      "step": 16100
+    },
+    {
+      "epoch": 1.6039328632436192,
+      "grad_norm": 0.80078125,
+      "learning_rate": 2.3269440858079257e-05,
+      "loss": 0.8272,
+      "step": 16150
+    },
+    {
+      "epoch": 1.60889859966233,
+      "grad_norm": 0.82421875,
+      "learning_rate": 2.3186678584434074e-05,
+      "loss": 0.8262,
+      "step": 16200
+    },
+    {
+      "epoch": 1.6138643360810407,
+      "grad_norm": 0.8046875,
+      "learning_rate": 2.3103916310788892e-05,
+      "loss": 0.8271,
+      "step": 16250
+    },
+    {
+      "epoch": 1.6188300724997517,
+      "grad_norm": 0.8046875,
+      "learning_rate": 2.302115403714371e-05,
+      "loss": 0.8258,
+      "step": 16300
+    },
+    {
+      "epoch": 1.6237958089184628,
+      "grad_norm": 0.7890625,
+      "learning_rate": 2.293839176349853e-05,
+      "loss": 0.8266,
+      "step": 16350
+    },
+    {
+      "epoch": 1.6287615453371735,
+      "grad_norm": 0.8046875,
+      "learning_rate": 2.2855629489853347e-05,
+      "loss": 0.8252,
+      "step": 16400
+    },
+    {
+      "epoch": 1.6337272817558843,
+      "grad_norm": 0.78515625,
+      "learning_rate": 2.2772867216208165e-05,
+      "loss": 0.8269,
+      "step": 16450
+    },
+    {
+      "epoch": 1.6386930181745953,
+      "grad_norm": 0.79296875,
+      "learning_rate": 2.2690104942562986e-05,
+      "loss": 0.8265,
+      "step": 16500
+    },
+    {
+      "epoch": 1.6436587545933063,
+      "grad_norm": 0.81640625,
+      "learning_rate": 2.2607342668917803e-05,
+      "loss": 0.8253,
+      "step": 16550
+    },
+    {
+      "epoch": 1.6486244910120171,
+      "grad_norm": 0.80078125,
+      "learning_rate": 2.252458039527262e-05,
+      "loss": 0.8302,
+      "step": 16600
+    },
+    {
+      "epoch": 1.653590227430728,
+      "grad_norm": 0.78515625,
+      "learning_rate": 2.2441818121627438e-05,
+      "loss": 0.8286,
+      "step": 16650
+    },
+    {
+      "epoch": 1.6585559638494387,
+      "grad_norm": 0.80859375,
+      "learning_rate": 2.235905584798226e-05,
+      "loss": 0.8285,
+      "step": 16700
+    },
+    {
+      "epoch": 1.6635217002681497,
+      "grad_norm": 0.80078125,
+      "learning_rate": 2.2276293574337076e-05,
+      "loss": 0.8253,
+      "step": 16750
+    },
+    {
+      "epoch": 1.6684874366868607,
+      "grad_norm": 0.828125,
+      "learning_rate": 2.2193531300691894e-05,
+      "loss": 0.8283,
+      "step": 16800
+    },
+    {
+      "epoch": 1.6734531731055715,
+      "grad_norm": 0.8125,
+      "learning_rate": 2.2110769027046714e-05,
+      "loss": 0.8291,
+      "step": 16850
+    },
+    {
+      "epoch": 1.6784189095242823,
+      "grad_norm": 0.7890625,
+      "learning_rate": 2.2028006753401532e-05,
+      "loss": 0.8257,
+      "step": 16900
+    },
+    {
+      "epoch": 1.6833846459429933,
+      "grad_norm": 0.7890625,
+      "learning_rate": 2.194524447975635e-05,
+      "loss": 0.8256,
+      "step": 16950
+    },
+    {
+      "epoch": 1.6883503823617043,
+      "grad_norm": 0.80078125,
+      "learning_rate": 2.1862482206111167e-05,
+      "loss": 0.826,
+      "step": 17000
+    },
+    {
+      "epoch": 1.693316118780415,
+      "grad_norm": 0.80859375,
+      "learning_rate": 2.1779719932465987e-05,
+      "loss": 0.8237,
+      "step": 17050
+    },
+    {
+      "epoch": 1.698281855199126,
+      "grad_norm": 0.78125,
+      "learning_rate": 2.1696957658820805e-05,
+      "loss": 0.826,
+      "step": 17100
+    },
+    {
+      "epoch": 1.703247591617837,
+      "grad_norm": 0.82421875,
+      "learning_rate": 2.1614195385175622e-05,
+      "loss": 0.8275,
+      "step": 17150
+    },
+    {
+      "epoch": 1.708213328036548,
+      "grad_norm": 0.8359375,
+      "learning_rate": 2.153143311153044e-05,
+      "loss": 0.8238,
+      "step": 17200
+    },
+    {
+      "epoch": 1.7131790644552587,
+      "grad_norm": 0.8359375,
+      "learning_rate": 2.144867083788526e-05,
+      "loss": 0.826,
+      "step": 17250
+    },
+    {
+      "epoch": 1.7181448008739695,
+      "grad_norm": 0.8203125,
+      "learning_rate": 2.1365908564240078e-05,
+      "loss": 0.8261,
+      "step": 17300
+    },
+    {
+      "epoch": 1.7231105372926805,
+      "grad_norm": 0.796875,
+      "learning_rate": 2.1283146290594895e-05,
+      "loss": 0.8245,
+      "step": 17350
+    },
+    {
+      "epoch": 1.7280762737113915,
+      "grad_norm": 0.82421875,
+      "learning_rate": 2.1200384016949716e-05,
+      "loss": 0.8273,
+      "step": 17400
+    },
+    {
+      "epoch": 1.7330420101301023,
+      "grad_norm": 0.7890625,
+      "learning_rate": 2.1117621743304534e-05,
+      "loss": 0.8249,
+      "step": 17450
+    },
+    {
+      "epoch": 1.738007746548813,
+      "grad_norm": 0.80078125,
+      "learning_rate": 2.103485946965935e-05,
+      "loss": 0.826,
+      "step": 17500
+    },
+    {
+      "epoch": 1.742973482967524,
+      "grad_norm": 0.78515625,
+      "learning_rate": 2.095209719601417e-05,
+      "loss": 0.8259,
+      "step": 17550
+    },
+    {
+      "epoch": 1.747939219386235,
+      "grad_norm": 0.78515625,
+      "learning_rate": 2.086933492236899e-05,
+      "loss": 0.827,
+      "step": 17600
+    },
+    {
+      "epoch": 1.7529049558049459,
+      "grad_norm": 0.8046875,
+      "learning_rate": 2.0786572648723807e-05,
+      "loss": 0.8239,
+      "step": 17650
+    },
+    {
+      "epoch": 1.7578706922236567,
+      "grad_norm": 0.78515625,
+      "learning_rate": 2.0703810375078624e-05,
+      "loss": 0.8262,
+      "step": 17700
+    },
+    {
+      "epoch": 1.7628364286423677,
+      "grad_norm": 0.82421875,
+      "learning_rate": 2.0621048101433445e-05,
+      "loss": 0.8259,
+      "step": 17750
+    },
+    {
+      "epoch": 1.7678021650610787,
+      "grad_norm": 0.78515625,
+      "learning_rate": 2.0538285827788262e-05,
+      "loss": 0.8258,
+      "step": 17800
+    },
+    {
+      "epoch": 1.7727679014797895,
+      "grad_norm": 0.81640625,
+      "learning_rate": 2.045552355414308e-05,
+      "loss": 0.8264,
+      "step": 17850
+    },
+    {
+      "epoch": 1.7777336378985003,
+      "grad_norm": 0.83984375,
+      "learning_rate": 2.0372761280497897e-05,
+      "loss": 0.8247,
+      "step": 17900
+    },
+    {
+      "epoch": 1.7826993743172113,
+      "grad_norm": 0.8046875,
+      "learning_rate": 2.0289999006852718e-05,
+      "loss": 0.8259,
+      "step": 17950
+    },
+    {
+      "epoch": 1.7876651107359223,
+      "grad_norm": 0.8203125,
+      "learning_rate": 2.0207236733207535e-05,
+      "loss": 0.8243,
+      "step": 18000
+    },
+    {
+      "epoch": 1.792630847154633,
+      "grad_norm": 0.8125,
+      "learning_rate": 2.0124474459562353e-05,
+      "loss": 0.8273,
+      "step": 18050
+    },
+    {
+      "epoch": 1.7975965835733438,
+      "grad_norm": 0.81640625,
+      "learning_rate": 2.0041712185917174e-05,
+      "loss": 0.8233,
+      "step": 18100
+    },
+    {
+      "epoch": 1.8025623199920549,
+      "grad_norm": 0.8203125,
+      "learning_rate": 1.995894991227199e-05,
+      "loss": 0.8281,
+      "step": 18150
+    },
+    {
+      "epoch": 1.8075280564107659,
+      "grad_norm": 0.828125,
+      "learning_rate": 1.987618763862681e-05,
+      "loss": 0.8263,
+      "step": 18200
+    },
+    {
+      "epoch": 1.8124937928294766,
+      "grad_norm": 0.82421875,
+      "learning_rate": 1.9793425364981626e-05,
+      "loss": 0.8282,
+      "step": 18250
+    },
+    {
+      "epoch": 1.8174595292481874,
+      "grad_norm": 0.8046875,
+      "learning_rate": 1.9710663091336447e-05,
+      "loss": 0.8268,
+      "step": 18300
+    },
+    {
+      "epoch": 1.8224252656668984,
+      "grad_norm": 0.7890625,
+      "learning_rate": 1.9627900817691264e-05,
+      "loss": 0.8239,
+      "step": 18350
+    },
+    {
+      "epoch": 1.8273910020856095,
+      "grad_norm": 0.80078125,
+      "learning_rate": 1.954513854404608e-05,
+      "loss": 0.827,
+      "step": 18400
+    },
+    {
+      "epoch": 1.8323567385043202,
+      "grad_norm": 0.78515625,
+      "learning_rate": 1.94623762704009e-05,
+      "loss": 0.8244,
+      "step": 18450
+    },
+    {
+      "epoch": 1.837322474923031,
+      "grad_norm": 0.81640625,
+      "learning_rate": 1.937961399675572e-05,
+      "loss": 0.8271,
+      "step": 18500
+    },
+    {
+      "epoch": 1.842288211341742,
+      "grad_norm": 0.8203125,
+      "learning_rate": 1.9296851723110537e-05,
+      "loss": 0.8258,
+      "step": 18550
+    },
+    {
+      "epoch": 1.847253947760453,
+      "grad_norm": 0.8125,
+      "learning_rate": 1.9214089449465355e-05,
+      "loss": 0.8235,
+      "step": 18600
+    },
+    {
+      "epoch": 1.8522196841791638,
+      "grad_norm": 0.81640625,
+      "learning_rate": 1.9131327175820175e-05,
+      "loss": 0.8298,
+      "step": 18650
+    },
+    {
+      "epoch": 1.8571854205978746,
+      "grad_norm": 0.8125,
+      "learning_rate": 1.9048564902174993e-05,
+      "loss": 0.8227,
+      "step": 18700
+    },
+    {
+      "epoch": 1.8621511570165854,
+      "grad_norm": 0.81640625,
+      "learning_rate": 1.896580262852981e-05,
+      "loss": 0.823,
+      "step": 18750
+    },
+    {
+      "epoch": 1.8671168934352964,
+      "grad_norm": 0.77734375,
+      "learning_rate": 1.8883040354884628e-05,
+      "loss": 0.8258,
+      "step": 18800
+    },
+    {
+      "epoch": 1.8720826298540074,
+      "grad_norm": 0.84375,
+      "learning_rate": 1.880027808123945e-05,
+      "loss": 0.8245,
+      "step": 18850
+    },
+    {
+      "epoch": 1.8770483662727182,
+      "grad_norm": 0.8125,
+      "learning_rate": 1.8717515807594266e-05,
+      "loss": 0.8258,
+      "step": 18900
+    },
+    {
+      "epoch": 1.882014102691429,
+      "grad_norm": 0.7890625,
+      "learning_rate": 1.8634753533949083e-05,
+      "loss": 0.8272,
+      "step": 18950
+    },
+    {
+      "epoch": 1.88697983911014,
+      "grad_norm": 0.828125,
+      "learning_rate": 1.8551991260303904e-05,
+      "loss": 0.8259,
+      "step": 19000
+    },
+    {
+      "epoch": 1.891945575528851,
+      "grad_norm": 0.8125,
+      "learning_rate": 1.8469228986658725e-05,
+      "loss": 0.8273,
+      "step": 19050
+    },
+    {
+      "epoch": 1.8969113119475618,
+      "grad_norm": 0.80859375,
+      "learning_rate": 1.8386466713013542e-05,
+      "loss": 0.8268,
+      "step": 19100
+    },
+    {
+      "epoch": 1.9018770483662726,
+      "grad_norm": 0.8515625,
+      "learning_rate": 1.830370443936836e-05,
+      "loss": 0.8238,
+      "step": 19150
+    },
+    {
+      "epoch": 1.9068427847849836,
+      "grad_norm": 0.8515625,
+      "learning_rate": 1.822094216572318e-05,
+      "loss": 0.8208,
+      "step": 19200
+    },
+    {
+      "epoch": 1.9118085212036946,
+      "grad_norm": 0.79296875,
+      "learning_rate": 1.8138179892077998e-05,
+      "loss": 0.827,
+      "step": 19250
+    },
+    {
+      "epoch": 1.9167742576224054,
+      "grad_norm": 0.8125,
+      "learning_rate": 1.8055417618432815e-05,
+      "loss": 0.8229,
+      "step": 19300
+    },
+    {
+      "epoch": 1.9217399940411162,
+      "grad_norm": 0.78515625,
+      "learning_rate": 1.7972655344787633e-05,
+      "loss": 0.8251,
+      "step": 19350
+    },
+    {
+      "epoch": 1.9267057304598272,
+      "grad_norm": 0.80078125,
+      "learning_rate": 1.7889893071142454e-05,
+      "loss": 0.8266,
+      "step": 19400
+    },
+    {
+      "epoch": 1.9316714668785382,
+      "grad_norm": 0.80078125,
+      "learning_rate": 1.780713079749727e-05,
+      "loss": 0.8248,
+      "step": 19450
+    },
+    {
+      "epoch": 1.936637203297249,
+      "grad_norm": 0.78515625,
+      "learning_rate": 1.772436852385209e-05,
+      "loss": 0.8225,
+      "step": 19500
+    },
+    {
+      "epoch": 1.9416029397159598,
+      "grad_norm": 0.796875,
+      "learning_rate": 1.7641606250206906e-05,
+      "loss": 0.8242,
+      "step": 19550
+    },
+    {
+      "epoch": 1.9465686761346708,
+      "grad_norm": 0.8046875,
+      "learning_rate": 1.7558843976561727e-05,
+      "loss": 0.8247,
+      "step": 19600
+    },
+    {
+      "epoch": 1.9515344125533818,
+      "grad_norm": 0.80078125,
+      "learning_rate": 1.7476081702916544e-05,
+      "loss": 0.824,
+      "step": 19650
+    },
+    {
+      "epoch": 1.9565001489720926,
+      "grad_norm": 0.8046875,
+      "learning_rate": 1.739331942927136e-05,
+      "loss": 0.8249,
+      "step": 19700
+    },
+    {
+      "epoch": 1.9614658853908034,
+      "grad_norm": 0.80078125,
+      "learning_rate": 1.7310557155626182e-05,
+      "loss": 0.8258,
+      "step": 19750
+    },
+    {
+      "epoch": 1.9664316218095144,
+      "grad_norm": 0.7734375,
+      "learning_rate": 1.7227794881981e-05,
+      "loss": 0.8267,
+      "step": 19800
+    },
+    {
+      "epoch": 1.9713973582282254,
+      "grad_norm": 0.79296875,
+      "learning_rate": 1.7145032608335817e-05,
+      "loss": 0.8257,
+      "step": 19850
+    },
+    {
+      "epoch": 1.9763630946469362,
+      "grad_norm": 0.8203125,
+      "learning_rate": 1.7062270334690635e-05,
+      "loss": 0.8259,
+      "step": 19900
+    },
+    {
+      "epoch": 1.981328831065647,
+      "grad_norm": 0.796875,
+      "learning_rate": 1.6979508061045455e-05,
+      "loss": 0.823,
+      "step": 19950
+    },
+    {
+      "epoch": 1.986294567484358,
+      "grad_norm": 0.828125,
+      "learning_rate": 1.6896745787400273e-05,
+      "loss": 0.8236,
+      "step": 20000
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 30207,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 10000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.0812269791868355e+19,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c8ba693cfa8766cf24b84dc4ce14db5b64a400d1d6d60284338106708582878
+size 5777