Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

checkpoint-200/adapter_config.json +3 -3
checkpoint-200/adapter_model.safetensors +1 -1
checkpoint-200/optimizer.pt +1 -1
checkpoint-200/trainer_state.json +12 -12
checkpoint-200/training_args.bin +1 -1

checkpoint-200/adapter_config.json CHANGED Viewed

@@ -23,12 +23,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "up_proj",
     "k_proj",
-    "down_proj",
     "v_proj",
     "q_proj",
     "gate_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
+    "up_proj",
     "v_proj",
+    "o_proj",
     "q_proj",
+    "down_proj",
     "gate_proj"
   ],
   "task_type": "CAUSAL_LM",

checkpoint-200/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70b4107e558676fcca146e15ed362f16d45dc16bc2930ef5418c8b0ef5bb4b4b
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:7974e943995ae8faec3b42c0941d07ef51c97aee451ba8cd7cca7d4d1fe1f141
 size 45118424

checkpoint-200/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be981b5cf0bfcf1cc8ea91d86a2e12ca376e8584d449003744e156a1bbb496b7
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:35925ff0b6418c98c15d507316875bbd1b1e686d2dfcdd85612ef6cb572cb8a7
 size 23159290

checkpoint-200/trainer_state.json CHANGED Viewed

@@ -10,70 +10,70 @@
   "log_history": [
     {
       "epoch": 0.021333333333333333,
-      "grad_norm": 0.47001057863235474,
       "learning_rate": 0.00019678111587982831,
-      "loss": 1.2773,
       "step": 20
     },
     {
       "epoch": 0.042666666666666665,
-      "grad_norm": 0.3469043970108032,
       "learning_rate": 0.0001924892703862661,
       "loss": 0.8918,
       "step": 40
     },
     {
       "epoch": 0.064,
-      "grad_norm": 0.4485608637332916,
       "learning_rate": 0.00018819742489270387,
       "loss": 0.8588,
       "step": 60
     },
     {
       "epoch": 0.08533333333333333,
-      "grad_norm": 0.4924505054950714,
       "learning_rate": 0.00018390557939914164,
       "loss": 0.7577,
       "step": 80
     },
     {
       "epoch": 0.10666666666666667,
-      "grad_norm": 0.3011874854564667,
       "learning_rate": 0.00017961373390557942,
       "loss": 0.7796,
       "step": 100
     },
     {
       "epoch": 0.128,
-      "grad_norm": 0.35178664326667786,
       "learning_rate": 0.00017532188841201717,
       "loss": 0.7647,
       "step": 120
     },
     {
       "epoch": 0.14933333333333335,
-      "grad_norm": 0.29895663261413574,
       "learning_rate": 0.00017103004291845494,
-      "loss": 0.6741,
       "step": 140
     },
     {
       "epoch": 0.17066666666666666,
-      "grad_norm": 0.265635222196579,
       "learning_rate": 0.00016673819742489272,
       "loss": 0.7586,
       "step": 160
     },
     {
       "epoch": 0.192,
-      "grad_norm": 0.29633283615112305,
       "learning_rate": 0.0001624463519313305,
       "loss": 0.7364,
       "step": 180
     },
     {
       "epoch": 0.21333333333333335,
-      "grad_norm": 0.3618737757205963,
       "learning_rate": 0.00015815450643776824,
       "loss": 0.7943,
       "step": 200

   "log_history": [
     {
       "epoch": 0.021333333333333333,
+      "grad_norm": 0.4694526791572571,
       "learning_rate": 0.00019678111587982831,
+      "loss": 1.2772,
       "step": 20
     },
     {
       "epoch": 0.042666666666666665,
+      "grad_norm": 0.34691280126571655,
       "learning_rate": 0.0001924892703862661,
       "loss": 0.8918,
       "step": 40
     },
     {
       "epoch": 0.064,
+      "grad_norm": 0.44894590973854065,
       "learning_rate": 0.00018819742489270387,
       "loss": 0.8588,
       "step": 60
     },
     {
       "epoch": 0.08533333333333333,
+      "grad_norm": 0.4901750981807709,
       "learning_rate": 0.00018390557939914164,
       "loss": 0.7577,
       "step": 80
     },
     {
       "epoch": 0.10666666666666667,
+      "grad_norm": 0.3013491630554199,
       "learning_rate": 0.00017961373390557942,
       "loss": 0.7796,
       "step": 100
     },
     {
       "epoch": 0.128,
+      "grad_norm": 0.35143589973449707,
       "learning_rate": 0.00017532188841201717,
       "loss": 0.7647,
       "step": 120
     },
     {
       "epoch": 0.14933333333333335,
+      "grad_norm": 0.29885634779930115,
       "learning_rate": 0.00017103004291845494,
+      "loss": 0.674,
       "step": 140
     },
     {
       "epoch": 0.17066666666666666,
+      "grad_norm": 0.26554301381111145,
       "learning_rate": 0.00016673819742489272,
       "loss": 0.7586,
       "step": 160
     },
     {
       "epoch": 0.192,
+      "grad_norm": 0.2963835895061493,
       "learning_rate": 0.0001624463519313305,
       "loss": 0.7364,
       "step": 180
     },
     {
       "epoch": 0.21333333333333335,
+      "grad_norm": 0.36166927218437195,
       "learning_rate": 0.00015815450643776824,
       "loss": 0.7943,
       "step": 200

checkpoint-200/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4651d06185709dd3d181207d567d0b3ed653efb01f01015cb44b8df4eebee657
 size 5560

 version https://git-lfs.github.com/spec/v1
+oid sha256:69617c1bea4a27e99b6c6729498e45489dcd01641dbfbfbf0cc0b118ad579975
 size 5560