Training in progress, step 325800

Browse files

Files changed (8) hide show

adapter_model.safetensors +1 -1
last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +3 -346
last-checkpoint/training_args.bin +1 -1

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c868a77233ef8b4ffccf85da2925d507b66fc046e34d4b9fc2f6e440b88a6e39
 size 778096664

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5a877bc1ced1c90857fb89b0d39b0f5b375a46377a51f59e1855144d87589c3
 size 778096664

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
-    "q_proj",
-    "gate_proj",
     "k_proj",
     "o_proj",
     "v_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
+    "q_proj",
     "o_proj",
+    "down_proj",
     "v_proj",
+    "gate_proj",
+    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c868a77233ef8b4ffccf85da2925d507b66fc046e34d4b9fc2f6e440b88a6e39
 size 778096664

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b2960647651f74a021854aa83d2f1e44e7edf833c93d30f3f0898a3b62998f8
 size 778096664

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4c385aaaa6fe54c1f3155d2d1568d637b549fc2e0574e8e48d3469802a32964
 size 396582274

 version https://git-lfs.github.com/spec/v1
+oid sha256:1edc103979e14bdcf4aecb105646466ee2930c03c3298174482e60391794d7b7
 size 396582274

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3571f55c7fa54aa6d4a15b56b980812efeacc7637bba147c6a1430e2b591b85
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f617a484c0b6df4d5c6eea4305a692f5553b5d1313d4e6a74ecee2702d9ed2da
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca27a8a440d342b66d03ff4f15a2f748adf85ff99e3b3c24a325f044d3abf679
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d177f6580f087efd416cbcb9dd0a3c522d49c6ad1fc91a3bc8e0586cfb577f5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9057955895321632,
   "eval_steps": 500,
-  "global_step": 325600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11060,349 +11060,6 @@
       "learning_rate": 1.432751373441014e-05,
       "loss": 1.715,
       "step": 315800
-    },
-    {
-      "epoch": 0.8790890856638931,
-      "grad_norm": 2.656094551086426,
-      "learning_rate": 1.4321506470902243e-05,
-      "loss": 1.6757,
-      "step": 316000
-    },
-    {
-      "epoch": 0.8796454711611487,
-      "grad_norm": 2.0576250553131104,
-      "learning_rate": 1.4315498198000568e-05,
-      "loss": 1.695,
-      "step": 316200
-    },
-    {
-      "epoch": 0.8802018566584043,
-      "grad_norm": 1.9753005504608154,
-      "learning_rate": 1.4309488920294356e-05,
-      "loss": 1.7,
-      "step": 316400
-    },
-    {
-      "epoch": 0.88075824215566,
-      "grad_norm": 1.6092278957366943,
-      "learning_rate": 1.430347864237362e-05,
-      "loss": 1.6588,
-      "step": 316600
-    },
-    {
-      "epoch": 0.8813146276529156,
-      "grad_norm": 1.910270094871521,
-      "learning_rate": 1.4297467368829136e-05,
-      "loss": 1.6998,
-      "step": 316800
-    },
-    {
-      "epoch": 0.8818710131501712,
-      "grad_norm": 3.1925556659698486,
-      "learning_rate": 1.4291455104252431e-05,
-      "loss": 1.6877,
-      "step": 317000
-    },
-    {
-      "epoch": 0.8824273986474268,
-      "grad_norm": 2.2833807468414307,
-      "learning_rate": 1.4285441853235804e-05,
-      "loss": 1.6788,
-      "step": 317200
-    },
-    {
-      "epoch": 0.8829837841446825,
-      "grad_norm": 2.9970617294311523,
-      "learning_rate": 1.4279427620372295e-05,
-      "loss": 1.6621,
-      "step": 317400
-    },
-    {
-      "epoch": 0.8835401696419382,
-      "grad_norm": 3.0393621921539307,
-      "learning_rate": 1.4273412410255701e-05,
-      "loss": 1.69,
-      "step": 317600
-    },
-    {
-      "epoch": 0.8840965551391937,
-      "grad_norm": 1.8881953954696655,
-      "learning_rate": 1.4267396227480556e-05,
-      "loss": 1.6958,
-      "step": 317800
-    },
-    {
-      "epoch": 0.8846529406364494,
-      "grad_norm": 2.3096697330474854,
-      "learning_rate": 1.4261379076642155e-05,
-      "loss": 1.6904,
-      "step": 318000
-    },
-    {
-      "epoch": 0.885209326133705,
-      "grad_norm": 2.055274486541748,
-      "learning_rate": 1.4255360962336515e-05,
-      "loss": 1.6806,
-      "step": 318200
-    },
-    {
-      "epoch": 0.8857657116309606,
-      "grad_norm": 2.894618511199951,
-      "learning_rate": 1.4249341889160393e-05,
-      "loss": 1.691,
-      "step": 318400
-    },
-    {
-      "epoch": 0.8863220971282163,
-      "grad_norm": 2.6434152126312256,
-      "learning_rate": 1.4243321861711285e-05,
-      "loss": 1.707,
-      "step": 318600
-    },
-    {
-      "epoch": 0.8868784826254719,
-      "grad_norm": 1.936525821685791,
-      "learning_rate": 1.423730088458741e-05,
-      "loss": 1.7093,
-      "step": 318800
-    },
-    {
-      "epoch": 0.8874348681227275,
-      "grad_norm": 1.9834107160568237,
-      "learning_rate": 1.4231278962387715e-05,
-      "loss": 1.713,
-      "step": 319000
-    },
-    {
-      "epoch": 0.8879912536199831,
-      "grad_norm": 2.6799023151397705,
-      "learning_rate": 1.4225256099711869e-05,
-      "loss": 1.6735,
-      "step": 319200
-    },
-    {
-      "epoch": 0.8885476391172388,
-      "grad_norm": 2.4906699657440186,
-      "learning_rate": 1.4219232301160252e-05,
-      "loss": 1.6612,
-      "step": 319400
-    },
-    {
-      "epoch": 0.8891040246144944,
-      "grad_norm": 3.0069377422332764,
-      "learning_rate": 1.4213207571333971e-05,
-      "loss": 1.6597,
-      "step": 319600
-    },
-    {
-      "epoch": 0.88966041011175,
-      "grad_norm": 2.4262261390686035,
-      "learning_rate": 1.4207181914834838e-05,
-      "loss": 1.6934,
-      "step": 319800
-    },
-    {
-      "epoch": 0.8902167956090057,
-      "grad_norm": 1.9308116436004639,
-      "learning_rate": 1.420115533626537e-05,
-      "loss": 1.7004,
-      "step": 320000
-    },
-    {
-      "epoch": 0.8907731811062612,
-      "grad_norm": 2.419318199157715,
-      "learning_rate": 1.4195127840228795e-05,
-      "loss": 1.6635,
-      "step": 320200
-    },
-    {
-      "epoch": 0.8913295666035169,
-      "grad_norm": 2.2832937240600586,
-      "learning_rate": 1.4189099431329036e-05,
-      "loss": 1.6958,
-      "step": 320400
-    },
-    {
-      "epoch": 0.8918859521007726,
-      "grad_norm": 2.273939609527588,
-      "learning_rate": 1.4183070114170717e-05,
-      "loss": 1.6445,
-      "step": 320600
-    },
-    {
-      "epoch": 0.8924423375980282,
-      "grad_norm": 2.2276997566223145,
-      "learning_rate": 1.4177039893359151e-05,
-      "loss": 1.6742,
-      "step": 320800
-    },
-    {
-      "epoch": 0.8929987230952838,
-      "grad_norm": 2.669675350189209,
-      "learning_rate": 1.4171008773500346e-05,
-      "loss": 1.7064,
-      "step": 321000
-    },
-    {
-      "epoch": 0.8935551085925394,
-      "grad_norm": 1.8450345993041992,
-      "learning_rate": 1.4164976759200998e-05,
-      "loss": 1.6997,
-      "step": 321200
-    },
-    {
-      "epoch": 0.8941114940897951,
-      "grad_norm": 2.5424864292144775,
-      "learning_rate": 1.4158943855068478e-05,
-      "loss": 1.6985,
-      "step": 321400
-    },
-    {
-      "epoch": 0.8946678795870506,
-      "grad_norm": 2.899928569793701,
-      "learning_rate": 1.415291006571085e-05,
-      "loss": 1.688,
-      "step": 321600
-    },
-    {
-      "epoch": 0.8952242650843063,
-      "grad_norm": 2.4306631088256836,
-      "learning_rate": 1.4146875395736839e-05,
-      "loss": 1.7061,
-      "step": 321800
-    },
-    {
-      "epoch": 0.895780650581562,
-      "grad_norm": 3.6513545513153076,
-      "learning_rate": 1.4140839849755852e-05,
-      "loss": 1.7021,
-      "step": 322000
-    },
-    {
-      "epoch": 0.8963370360788175,
-      "grad_norm": 2.4351377487182617,
-      "learning_rate": 1.4134803432377963e-05,
-      "loss": 1.6831,
-      "step": 322200
-    },
-    {
-      "epoch": 0.8968934215760732,
-      "grad_norm": 2.7318243980407715,
-      "learning_rate": 1.4128766148213911e-05,
-      "loss": 1.7039,
-      "step": 322400
-    },
-    {
-      "epoch": 0.8974498070733288,
-      "grad_norm": 2.675609827041626,
-      "learning_rate": 1.4122728001875102e-05,
-      "loss": 1.6713,
-      "step": 322600
-    },
-    {
-      "epoch": 0.8980061925705844,
-      "grad_norm": 2.1647613048553467,
-      "learning_rate": 1.4116688997973589e-05,
-      "loss": 1.678,
-      "step": 322800
-    },
-    {
-      "epoch": 0.8985625780678401,
-      "grad_norm": 2.230194330215454,
-      "learning_rate": 1.411064914112209e-05,
-      "loss": 1.6854,
-      "step": 323000
-    },
-    {
-      "epoch": 0.8991189635650957,
-      "grad_norm": 2.459803819656372,
-      "learning_rate": 1.4104608435933977e-05,
-      "loss": 1.6688,
-      "step": 323200
-    },
-    {
-      "epoch": 0.8996753490623514,
-      "grad_norm": 2.098407030105591,
-      "learning_rate": 1.4098566887023254e-05,
-      "loss": 1.6779,
-      "step": 323400
-    },
-    {
-      "epoch": 0.9002317345596069,
-      "grad_norm": 2.0758612155914307,
-      "learning_rate": 1.4092524499004592e-05,
-      "loss": 1.6629,
-      "step": 323600
-    },
-    {
-      "epoch": 0.9007881200568626,
-      "grad_norm": 4.269808769226074,
-      "learning_rate": 1.4086481276493285e-05,
-      "loss": 1.6618,
-      "step": 323800
-    },
-    {
-      "epoch": 0.9013445055541183,
-      "grad_norm": 2.4955685138702393,
-      "learning_rate": 1.4080437224105268e-05,
-      "loss": 1.6878,
-      "step": 324000
-    },
-    {
-      "epoch": 0.9019008910513738,
-      "grad_norm": 1.8088123798370361,
-      "learning_rate": 1.4074392346457116e-05,
-      "loss": 1.6641,
-      "step": 324200
-    },
-    {
-      "epoch": 0.9024572765486295,
-      "grad_norm": 4.655933380126953,
-      "learning_rate": 1.4068346648166026e-05,
-      "loss": 1.6958,
-      "step": 324400
-    },
-    {
-      "epoch": 0.9030136620458851,
-      "grad_norm": 2.517047643661499,
-      "learning_rate": 1.4062300133849833e-05,
-      "loss": 1.6641,
-      "step": 324600
-    },
-    {
-      "epoch": 0.9035700475431407,
-      "grad_norm": 2.3092081546783447,
-      "learning_rate": 1.4056252808126984e-05,
-      "loss": 1.7042,
-      "step": 324800
-    },
-    {
-      "epoch": 0.9041264330403964,
-      "grad_norm": 1.8197965621948242,
-      "learning_rate": 1.4050204675616556e-05,
-      "loss": 1.6906,
-      "step": 325000
-    },
-    {
-      "epoch": 0.904682818537652,
-      "grad_norm": 2.1050660610198975,
-      "learning_rate": 1.4044155740938232e-05,
-      "loss": 1.667,
-      "step": 325200
-    },
-    {
-      "epoch": 0.9052392040349077,
-      "grad_norm": 2.001034736633301,
-      "learning_rate": 1.4038106008712313e-05,
-      "loss": 1.6856,
-      "step": 325400
-    },
-    {
-      "epoch": 0.9057955895321632,
-      "grad_norm": 3.069322109222412,
-      "learning_rate": 1.403205548355971e-05,
-      "loss": 1.6637,
-      "step": 325600
     }
   ],
   "logging_steps": 200,
@@ -11422,7 +11079,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.949085056264888e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8785327001666374,
   "eval_steps": 500,
+  "global_step": 315800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.432751373441014e-05,
       "loss": 1.715,
       "step": 315800
     }
   ],
   "logging_steps": 200,
       "attributes": {}
     }
   },
+  "total_flos": 6.739425054956544e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd16de5adef1a3d8e5dda5ca857dfcae914dc1f4288fd4d554e06a2ef4a21584
 size 6840

 version https://git-lfs.github.com/spec/v1
+oid sha256:73f1bca4a88b95f7d26d58c9cb2c2e4f7a79a6873effa8be0378f7f0ebfb8ceb
 size 6840