Ehsanl
/

robbert-large-23-old-syn-filt_2ng_2e5

Safetensors

roberta

Model card Files Files and versions

xet

Community

Ehsanl commited on Sep 11

Commit

56b01d7

verified ·

1 Parent(s): b9094ae

Checkpoint 2032

Browse files

Files changed (3) hide show

config.json +1 -1
model.safetensors +2 -2
trainer_state.json +359 -2

config.json CHANGED Viewed

@@ -7,7 +7,7 @@
   "bos_token_id": 0,
   "classifier_dropout": null,
   "cls_token_id": 0,
-  "dtype": "bfloat16",
   "eos_token_id": 1,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,

   "bos_token_id": 0,
   "classifier_dropout": null,
   "cls_token_id": 0,
+  "dtype": "float32",
   "eos_token_id": 1,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16a91e00f07692e4bc2d08429911bc4fda978b089a21c0e77a8ccf1e257412a5
-size 688600

 version https://git-lfs.github.com/spec/v1
+oid sha256:d962f5f2ab34269a713b2159215c844a6d7e6bb9da5a159e26d3a164845de2c2
+size 1420398464

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4955839057899902,
   "eval_steps": 500,
-  "global_step": 1524,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1072,6 +1072,363 @@
       "learning_rate": 2e-05,
       "loss": 1.8683,
       "step": 1520
     }
   ],
   "logging_steps": 10,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9941118743866535,
   "eval_steps": 500,
+  "global_step": 2032,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2e-05,
       "loss": 1.8683,
       "step": 1520
+    },
+    {
+      "epoch": 1.5014720314033365,
+      "grad_norm": 24.893234252929688,
+      "learning_rate": 2e-05,
+      "loss": 2.7447,
+      "step": 1530
+    },
+    {
+      "epoch": 1.5112855740922473,
+      "grad_norm": 20.632429122924805,
+      "learning_rate": 2e-05,
+      "loss": 2.0633,
+      "step": 1540
+    },
+    {
+      "epoch": 1.521099116781158,
+      "grad_norm": 11.803605079650879,
+      "learning_rate": 2e-05,
+      "loss": 1.4992,
+      "step": 1550
+    },
+    {
+      "epoch": 1.5309126594700686,
+      "grad_norm": 11.409942626953125,
+      "learning_rate": 2e-05,
+      "loss": 1.9619,
+      "step": 1560
+    },
+    {
+      "epoch": 1.5407262021589794,
+      "grad_norm": 19.285724639892578,
+      "learning_rate": 2e-05,
+      "loss": 2.4316,
+      "step": 1570
+    },
+    {
+      "epoch": 1.5505397448478901,
+      "grad_norm": 3.482271909713745,
+      "learning_rate": 2e-05,
+      "loss": 1.8275,
+      "step": 1580
+    },
+    {
+      "epoch": 1.5603532875368007,
+      "grad_norm": 8.602056503295898,
+      "learning_rate": 2e-05,
+      "loss": 1.8139,
+      "step": 1590
+    },
+    {
+      "epoch": 1.5701668302257115,
+      "grad_norm": 6.880626201629639,
+      "learning_rate": 2e-05,
+      "loss": 1.162,
+      "step": 1600
+    },
+    {
+      "epoch": 1.5799803729146222,
+      "grad_norm": 10.55600643157959,
+      "learning_rate": 2e-05,
+      "loss": 1.8477,
+      "step": 1610
+    },
+    {
+      "epoch": 1.5897939156035328,
+      "grad_norm": 5.864988327026367,
+      "learning_rate": 2e-05,
+      "loss": 1.0593,
+      "step": 1620
+    },
+    {
+      "epoch": 1.5996074582924436,
+      "grad_norm": 11.867835998535156,
+      "learning_rate": 2e-05,
+      "loss": 1.8334,
+      "step": 1630
+    },
+    {
+      "epoch": 1.6094210009813543,
+      "grad_norm": 8.558449745178223,
+      "learning_rate": 2e-05,
+      "loss": 1.7685,
+      "step": 1640
+    },
+    {
+      "epoch": 1.6192345436702649,
+      "grad_norm": 7.745001792907715,
+      "learning_rate": 2e-05,
+      "loss": 1.1716,
+      "step": 1650
+    },
+    {
+      "epoch": 1.6290480863591756,
+      "grad_norm": 25.266897201538086,
+      "learning_rate": 2e-05,
+      "loss": 1.1115,
+      "step": 1660
+    },
+    {
+      "epoch": 1.6388616290480864,
+      "grad_norm": 2.910959243774414,
+      "learning_rate": 2e-05,
+      "loss": 1.5551,
+      "step": 1670
+    },
+    {
+      "epoch": 1.648675171736997,
+      "grad_norm": 3.1996586322784424,
+      "learning_rate": 2e-05,
+      "loss": 2.0908,
+      "step": 1680
+    },
+    {
+      "epoch": 1.6584887144259077,
+      "grad_norm": 7.940663814544678,
+      "learning_rate": 2e-05,
+      "loss": 2.1272,
+      "step": 1690
+    },
+    {
+      "epoch": 1.6683022571148185,
+      "grad_norm": 10.518881797790527,
+      "learning_rate": 2e-05,
+      "loss": 2.2504,
+      "step": 1700
+    },
+    {
+      "epoch": 1.678115799803729,
+      "grad_norm": 13.522726058959961,
+      "learning_rate": 2e-05,
+      "loss": 3.0516,
+      "step": 1710
+    },
+    {
+      "epoch": 1.6879293424926398,
+      "grad_norm": 72.19231414794922,
+      "learning_rate": 2e-05,
+      "loss": 1.6259,
+      "step": 1720
+    },
+    {
+      "epoch": 1.6977428851815506,
+      "grad_norm": 16.836326599121094,
+      "learning_rate": 2e-05,
+      "loss": 1.5319,
+      "step": 1730
+    },
+    {
+      "epoch": 1.7075564278704611,
+      "grad_norm": 5.992958068847656,
+      "learning_rate": 2e-05,
+      "loss": 1.9591,
+      "step": 1740
+    },
+    {
+      "epoch": 1.717369970559372,
+      "grad_norm": 16.606359481811523,
+      "learning_rate": 2e-05,
+      "loss": 2.8002,
+      "step": 1750
+    },
+    {
+      "epoch": 1.7271835132482827,
+      "grad_norm": 13.355613708496094,
+      "learning_rate": 2e-05,
+      "loss": 1.202,
+      "step": 1760
+    },
+    {
+      "epoch": 1.7369970559371932,
+      "grad_norm": 22.692291259765625,
+      "learning_rate": 2e-05,
+      "loss": 1.5828,
+      "step": 1770
+    },
+    {
+      "epoch": 1.746810598626104,
+      "grad_norm": 4.382213592529297,
+      "learning_rate": 2e-05,
+      "loss": 1.3851,
+      "step": 1780
+    },
+    {
+      "epoch": 1.7566241413150148,
+      "grad_norm": 18.94695281982422,
+      "learning_rate": 2e-05,
+      "loss": 1.6604,
+      "step": 1790
+    },
+    {
+      "epoch": 1.7664376840039253,
+      "grad_norm": 4.105762958526611,
+      "learning_rate": 2e-05,
+      "loss": 2.3467,
+      "step": 1800
+    },
+    {
+      "epoch": 1.776251226692836,
+      "grad_norm": 17.720151901245117,
+      "learning_rate": 2e-05,
+      "loss": 1.0744,
+      "step": 1810
+    },
+    {
+      "epoch": 1.7860647693817469,
+      "grad_norm": 23.243711471557617,
+      "learning_rate": 2e-05,
+      "loss": 1.5227,
+      "step": 1820
+    },
+    {
+      "epoch": 1.7958783120706574,
+      "grad_norm": 9.93882942199707,
+      "learning_rate": 2e-05,
+      "loss": 2.278,
+      "step": 1830
+    },
+    {
+      "epoch": 1.8056918547595682,
+      "grad_norm": 47.31532287597656,
+      "learning_rate": 2e-05,
+      "loss": 2.4806,
+      "step": 1840
+    },
+    {
+      "epoch": 1.815505397448479,
+      "grad_norm": 18.85761260986328,
+      "learning_rate": 2e-05,
+      "loss": 1.2861,
+      "step": 1850
+    },
+    {
+      "epoch": 1.8253189401373895,
+      "grad_norm": 12.545721054077148,
+      "learning_rate": 2e-05,
+      "loss": 1.8076,
+      "step": 1860
+    },
+    {
+      "epoch": 1.8351324828263003,
+      "grad_norm": 3.5376434326171875,
+      "learning_rate": 2e-05,
+      "loss": 1.8752,
+      "step": 1870
+    },
+    {
+      "epoch": 1.844946025515211,
+      "grad_norm": 7.608773708343506,
+      "learning_rate": 2e-05,
+      "loss": 1.2668,
+      "step": 1880
+    },
+    {
+      "epoch": 1.8547595682041216,
+      "grad_norm": 15.594606399536133,
+      "learning_rate": 2e-05,
+      "loss": 2.4341,
+      "step": 1890
+    },
+    {
+      "epoch": 1.8645731108930323,
+      "grad_norm": 10.585665702819824,
+      "learning_rate": 2e-05,
+      "loss": 1.6737,
+      "step": 1900
+    },
+    {
+      "epoch": 1.8743866535819431,
+      "grad_norm": 3.565300703048706,
+      "learning_rate": 2e-05,
+      "loss": 1.1942,
+      "step": 1910
+    },
+    {
+      "epoch": 1.8842001962708537,
+      "grad_norm": 3.813704490661621,
+      "learning_rate": 2e-05,
+      "loss": 1.5228,
+      "step": 1920
+    },
+    {
+      "epoch": 1.8940137389597644,
+      "grad_norm": 11.792035102844238,
+      "learning_rate": 2e-05,
+      "loss": 1.3769,
+      "step": 1930
+    },
+    {
+      "epoch": 1.9038272816486752,
+      "grad_norm": 6.388332366943359,
+      "learning_rate": 2e-05,
+      "loss": 2.39,
+      "step": 1940
+    },
+    {
+      "epoch": 1.9136408243375858,
+      "grad_norm": 6.338537216186523,
+      "learning_rate": 2e-05,
+      "loss": 1.3043,
+      "step": 1950
+    },
+    {
+      "epoch": 1.9234543670264965,
+      "grad_norm": 6.711911201477051,
+      "learning_rate": 2e-05,
+      "loss": 1.2017,
+      "step": 1960
+    },
+    {
+      "epoch": 1.9332679097154073,
+      "grad_norm": 8.049627304077148,
+      "learning_rate": 2e-05,
+      "loss": 0.9924,
+      "step": 1970
+    },
+    {
+      "epoch": 1.9430814524043178,
+      "grad_norm": 15.855047225952148,
+      "learning_rate": 2e-05,
+      "loss": 1.5458,
+      "step": 1980
+    },
+    {
+      "epoch": 1.9528949950932286,
+      "grad_norm": 27.410795211791992,
+      "learning_rate": 2e-05,
+      "loss": 1.5845,
+      "step": 1990
+    },
+    {
+      "epoch": 1.9627085377821394,
+      "grad_norm": 10.094039916992188,
+      "learning_rate": 2e-05,
+      "loss": 2.6201,
+      "step": 2000
+    },
+    {
+      "epoch": 1.97252208047105,
+      "grad_norm": 7.608443260192871,
+      "learning_rate": 2e-05,
+      "loss": 2.2552,
+      "step": 2010
+    },
+    {
+      "epoch": 1.9823356231599607,
+      "grad_norm": 6.73370885848999,
+      "learning_rate": 2e-05,
+      "loss": 1.299,
+      "step": 2020
+    },
+    {
+      "epoch": 1.9921491658488715,
+      "grad_norm": 13.77723217010498,
+      "learning_rate": 2e-05,
+      "loss": 1.3727,
+      "step": 2030
     }
   ],
   "logging_steps": 10,