thkim0305
/

feddat_baselines

Model card Files Files and versions Community

thkim0305 commited on 6 days ago

Commit

a241385

verified ·

1 Parent(s): 08c4bfe

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round10.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round12.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round15.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round17.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round2.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round20.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round5.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round7.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_trainer_state.json +392 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round10.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round12.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round15.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round17.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round2.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round20.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round5.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round7.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_trainer_state.json +392 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round10.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round12.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round15.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round17.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round2.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round20.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round5.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round7.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_trainer_state.json +392 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round10.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round12.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round15.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round17.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round2.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round20.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round5.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round7.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_trainer_state.json +392 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round10.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round12.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round15.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round17.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round2.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round20.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round5.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round7.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_trainer_state.json +392 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/5_client_model_round10.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/5_client_model_round12.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/5_client_model_round15.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/5_client_model_round17.pth +3 -0
client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/5_client_model_round2.pth +3 -0

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round10.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:601088f397eeb3909ce8e91cfb116fca6b84fc18d36265a3741a8a6c06aa0205
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round12.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:972fef381446dc54bb81002f849cea881ea6b4efd9f7415f7c2c1373b9b5bd66
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round15.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6bf60673445bdd44111c8e6ab141a0477e485f5bd2e6214db12f6a1de7ac3366
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round17.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da479f80097fdef6726424fff54e48c3d5a490f482fdb9070c5d237a52e37e8c
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2a41fb606f45f68ffb68b8c0c9c8f10c507bf08713651dd8823b5a65e17b4f6
+size 184220842

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round20.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b79245c1084550d87dc88caeb54be1fb2882af094eafe31cfc3c2fc3d8ef9cb
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:669c5d9f2adedf284327718bb5ef779557cb3689d3eb72257288b6ab968d6d4f
+size 184220842

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_client_model_round7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b04fa35c89561db794f4a8fcdf7083eef3e4aef17ee8943e20c2188189708ca6
+size 184220842

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/0_trainer_state.json ADDED Viewed

	@@ -0,0 +1,392 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "grad_norm": 1.3103408813476562,
+      "learning_rate": 2e-05,
+      "loss": 0.0898,
+      "step": 2
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 3.532261371612549,
+      "learning_rate": 2e-05,
+      "loss": 0.535,
+      "step": 4
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 3.486604928970337,
+      "learning_rate": 2e-05,
+      "loss": 0.4653,
+      "step": 6
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 6.665052890777588,
+      "learning_rate": 2e-05,
+      "loss": 0.5876,
+      "step": 8
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 2.4172110557556152,
+      "learning_rate": 2e-05,
+      "loss": 0.5611,
+      "step": 10
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.8320339918136597,
+      "learning_rate": 2e-05,
+      "loss": 0.088,
+      "step": 12
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 4.306198596954346,
+      "learning_rate": 2e-05,
+      "loss": 0.498,
+      "step": 14
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 2.505366802215576,
+      "learning_rate": 2e-05,
+      "loss": 0.2767,
+      "step": 16
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 4.672132968902588,
+      "learning_rate": 2e-05,
+      "loss": 0.3158,
+      "step": 18
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 3.8136868476867676,
+      "learning_rate": 2e-05,
+      "loss": 0.8975,
+      "step": 20
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 0.8911241888999939,
+      "learning_rate": 2e-05,
+      "loss": 0.1162,
+      "step": 22
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 6.382510185241699,
+      "learning_rate": 2e-05,
+      "loss": 0.6136,
+      "step": 24
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 5.372596740722656,
+      "learning_rate": 2e-05,
+      "loss": 0.363,
+      "step": 26
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 4.140794277191162,
+      "learning_rate": 2e-05,
+      "loss": 0.4008,
+      "step": 28
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 8.768181800842285,
+      "learning_rate": 2e-05,
+      "loss": 0.9195,
+      "step": 30
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 3.8078761100769043,
+      "learning_rate": 2e-05,
+      "loss": 0.3291,
+      "step": 32
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 6.264554023742676,
+      "learning_rate": 2e-05,
+      "loss": 0.767,
+      "step": 34
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 11.220328330993652,
+      "learning_rate": 2e-05,
+      "loss": 1.473,
+      "step": 36
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 3.9702634811401367,
+      "learning_rate": 2e-05,
+      "loss": 0.3766,
+      "step": 38
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 2.120680332183838,
+      "learning_rate": 2e-05,
+      "loss": 0.3277,
+      "step": 40
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 6.803924560546875,
+      "learning_rate": 2e-05,
+      "loss": 1.4957,
+      "step": 42
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 2.5803332328796387,
+      "learning_rate": 2e-05,
+      "loss": 0.1319,
+      "step": 44
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 9.29668140411377,
+      "learning_rate": 2e-05,
+      "loss": 1.9043,
+      "step": 46
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 3.864070415496826,
+      "learning_rate": 2e-05,
+      "loss": 0.515,
+      "step": 48
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.14567677676677704,
+      "learning_rate": 2e-05,
+      "loss": 0.3086,
+      "step": 50
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 2.552821159362793,
+      "learning_rate": 2e-05,
+      "loss": 0.693,
+      "step": 52
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 7.949587345123291,
+      "learning_rate": 2e-05,
+      "loss": 0.5568,
+      "step": 54
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 1.4345118999481201,
+      "learning_rate": 2e-05,
+      "loss": 0.617,
+      "step": 56
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 4.910844802856445,
+      "learning_rate": 2e-05,
+      "loss": 1.1581,
+      "step": 58
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.9731581211090088,
+      "learning_rate": 2e-05,
+      "loss": 0.3823,
+      "step": 60
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 10.148768424987793,
+      "learning_rate": 2e-05,
+      "loss": 1.3181,
+      "step": 62
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 4.756891250610352,
+      "learning_rate": 2e-05,
+      "loss": 0.446,
+      "step": 64
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 2.3829259872436523,
+      "learning_rate": 2e-05,
+      "loss": 0.1589,
+      "step": 66
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 2.3166489601135254,
+      "learning_rate": 2e-05,
+      "loss": 0.8197,
+      "step": 68
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 1.1867741346359253,
+      "learning_rate": 2e-05,
+      "loss": 1.0674,
+      "step": 70
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 11.073589324951172,
+      "learning_rate": 2e-05,
+      "loss": 2.0834,
+      "step": 72
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 2.9917004108428955,
+      "learning_rate": 2e-05,
+      "loss": 0.7352,
+      "step": 74
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.03345826640725136,
+      "learning_rate": 2e-05,
+      "loss": 0.1388,
+      "step": 76
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 1.6753065586090088,
+      "learning_rate": 2e-05,
+      "loss": 0.1295,
+      "step": 78
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.0468225479125977,
+      "learning_rate": 2e-05,
+      "loss": 0.2035,
+      "step": 80
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.6748114228248596,
+      "learning_rate": 2e-05,
+      "loss": 0.074,
+      "step": 82
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 2.4343173503875732,
+      "learning_rate": 2e-05,
+      "loss": 0.1473,
+      "step": 84
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.3457399904727936,
+      "learning_rate": 2e-05,
+      "loss": 0.0603,
+      "step": 86
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.3236846923828125,
+      "learning_rate": 2e-05,
+      "loss": 0.3552,
+      "step": 88
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.8542829751968384,
+      "learning_rate": 2e-05,
+      "loss": 0.0992,
+      "step": 90
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.0302435159683228,
+      "learning_rate": 2e-05,
+      "loss": 1.1318,
+      "step": 92
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 6.573387622833252,
+      "learning_rate": 2e-05,
+      "loss": 1.1148,
+      "step": 94
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 7.864552974700928,
+      "learning_rate": 2e-05,
+      "loss": 0.3684,
+      "step": 96
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 0.19719119369983673,
+      "learning_rate": 2e-05,
+      "loss": 0.301,
+      "step": 98
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.3533047139644623,
+      "learning_rate": 2e-05,
+      "loss": 0.0359,
+      "step": 100
+    },
+    {
+      "epoch": 1.0,
+      "step": 100,
+      "total_flos": 2053446886752256.0,
+      "train_loss": 0.5710413241386414,
+      "train_runtime": 100.1311,
+      "train_samples_per_second": 3.995,
+      "train_steps_per_second": 0.999
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2053446886752256.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round10.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:515801884b96a34fbe54560143329ce06d512f7bc9f748e41058588403e77c22
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round12.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4bbc94f43e777c70d6db0593944717c276f0797216f959f3afc34de5433ab17d
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round15.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f33db7dfc952f99bdfd6f5ca79752d67f0bd782aedc6f71bc47157491890465b
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round17.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:152bd53476880a0673ea49289cc36843973ad9b0b0f54cf45bf1fae800f555c6
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c61bb6099a0787cce3325f6a28e587efc290398fb146f4d2404e4e1037d5e73a
+size 184220842

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round20.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c86fea7f6a5f529d490af7ffa0540adb01ce00513d4cf95cdbb2fd4bcfc187f
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c0440ab6c1705f26b96e4fb57a69009a2be64bf2be9750ec3be57311aafa7860
+size 184220842

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_client_model_round7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98ba3961e9695875a3f1f66ffaf6fe5b528a8f0031ab86107cf824c6c890770f
+size 184220842

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/1_trainer_state.json ADDED Viewed

	@@ -0,0 +1,392 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "grad_norm": 4.053181171417236,
+      "learning_rate": 2e-05,
+      "loss": 0.3885,
+      "step": 2
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.0796952024102211,
+      "learning_rate": 2e-05,
+      "loss": 0.0052,
+      "step": 4
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 3.2136785984039307,
+      "learning_rate": 2e-05,
+      "loss": 0.2577,
+      "step": 6
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.09704623371362686,
+      "learning_rate": 2e-05,
+      "loss": 0.0057,
+      "step": 8
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.2581525146961212,
+      "learning_rate": 2e-05,
+      "loss": 0.0124,
+      "step": 10
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.7397000789642334,
+      "learning_rate": 2e-05,
+      "loss": 0.0302,
+      "step": 12
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 1.1551579236984253,
+      "learning_rate": 2e-05,
+      "loss": 0.0662,
+      "step": 14
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 3.3530216217041016,
+      "learning_rate": 2e-05,
+      "loss": 0.4311,
+      "step": 16
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 0.0396430566906929,
+      "learning_rate": 2e-05,
+      "loss": 0.0086,
+      "step": 18
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.048732295632362366,
+      "learning_rate": 2e-05,
+      "loss": 0.0033,
+      "step": 20
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.054931640625,
+      "learning_rate": 2e-05,
+      "loss": 0.0521,
+      "step": 22
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.3746412992477417,
+      "learning_rate": 2e-05,
+      "loss": 0.0877,
+      "step": 24
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 3.6224493980407715,
+      "learning_rate": 2e-05,
+      "loss": 0.3346,
+      "step": 26
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 0.21258927881717682,
+      "learning_rate": 2e-05,
+      "loss": 0.0154,
+      "step": 28
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.0053559038788080215,
+      "learning_rate": 2e-05,
+      "loss": 0.5832,
+      "step": 30
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 2.0714592933654785,
+      "learning_rate": 2e-05,
+      "loss": 0.1197,
+      "step": 32
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 0.034640390425920486,
+      "learning_rate": 2e-05,
+      "loss": 0.0017,
+      "step": 34
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.035930756479501724,
+      "learning_rate": 2e-05,
+      "loss": 0.0035,
+      "step": 36
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 3.9088540077209473,
+      "learning_rate": 2e-05,
+      "loss": 0.1674,
+      "step": 38
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.10309179872274399,
+      "learning_rate": 2e-05,
+      "loss": 0.0052,
+      "step": 40
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 0.11337645351886749,
+      "learning_rate": 2e-05,
+      "loss": 0.0074,
+      "step": 42
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 0.006353128235787153,
+      "learning_rate": 2e-05,
+      "loss": 0.006,
+      "step": 44
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 0.11211053282022476,
+      "learning_rate": 2e-05,
+      "loss": 0.0061,
+      "step": 46
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.7047258615493774,
+      "learning_rate": 2e-05,
+      "loss": 0.0202,
+      "step": 48
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.10752872377634048,
+      "learning_rate": 2e-05,
+      "loss": 0.0068,
+      "step": 50
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 11.707930564880371,
+      "learning_rate": 2e-05,
+      "loss": 1.1686,
+      "step": 52
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 1.2754460573196411,
+      "learning_rate": 2e-05,
+      "loss": 0.0411,
+      "step": 54
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.32534557580947876,
+      "learning_rate": 2e-05,
+      "loss": 0.0346,
+      "step": 56
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 0.7839933633804321,
+      "learning_rate": 2e-05,
+      "loss": 0.169,
+      "step": 58
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.016284512355923653,
+      "learning_rate": 2e-05,
+      "loss": 0.0085,
+      "step": 60
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.01285564061254263,
+      "learning_rate": 2e-05,
+      "loss": 0.0037,
+      "step": 62
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.017023563385009766,
+      "learning_rate": 2e-05,
+      "loss": 0.0031,
+      "step": 64
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.5894005298614502,
+      "learning_rate": 2e-05,
+      "loss": 0.0344,
+      "step": 66
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 2.5769262313842773,
+      "learning_rate": 2e-05,
+      "loss": 0.2399,
+      "step": 68
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.11012467741966248,
+      "learning_rate": 2e-05,
+      "loss": 0.0076,
+      "step": 70
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.2998049855232239,
+      "learning_rate": 2e-05,
+      "loss": 0.0185,
+      "step": 72
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.9940203428268433,
+      "learning_rate": 2e-05,
+      "loss": 0.0655,
+      "step": 74
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.38424286246299744,
+      "learning_rate": 2e-05,
+      "loss": 0.0414,
+      "step": 76
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.009840243496000767,
+      "learning_rate": 2e-05,
+      "loss": 0.0233,
+      "step": 78
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.0006893413374200463,
+      "learning_rate": 2e-05,
+      "loss": 0.401,
+      "step": 80
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.08065320551395416,
+      "learning_rate": 2e-05,
+      "loss": 0.0393,
+      "step": 82
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 1.3744912147521973,
+      "learning_rate": 2e-05,
+      "loss": 0.0766,
+      "step": 84
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.011814103461802006,
+      "learning_rate": 2e-05,
+      "loss": 0.0015,
+      "step": 86
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.8807648420333862,
+      "learning_rate": 2e-05,
+      "loss": 0.0752,
+      "step": 88
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.019948307424783707,
+      "learning_rate": 2e-05,
+      "loss": 0.0012,
+      "step": 90
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.02643703483045101,
+      "learning_rate": 2e-05,
+      "loss": 0.0024,
+      "step": 92
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 0.035402942448854446,
+      "learning_rate": 2e-05,
+      "loss": 0.0249,
+      "step": 94
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.0117949815467,
+      "learning_rate": 2e-05,
+      "loss": 0.0014,
+      "step": 96
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 0.026442598551511765,
+      "learning_rate": 2e-05,
+      "loss": 0.0019,
+      "step": 98
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 8.142333030700684,
+      "learning_rate": 2e-05,
+      "loss": 0.2835,
+      "step": 100
+    },
+    {
+      "epoch": 1.0,
+      "step": 100,
+      "total_flos": 2069576665792512.0,
+      "train_loss": 0.10788208454847335,
+      "train_runtime": 99.8712,
+      "train_samples_per_second": 4.005,
+      "train_steps_per_second": 1.001
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2069576665792512.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round10.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f78b25bab6835f62f9822e5b6287e857a1b5ec83852ec2504feee15bba61bae
+size 395787774

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round12.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0899b6fad8fcee471b664ea79e2ee9761b6fd2ee15b275fc97bc89a39f366260
+size 395787774

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round15.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09828ae718f740f9789b0aad26812e31e7bfbaa7d1345bbe0d6f2133273618ae
+size 395787774

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round17.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58e699f47be1f086e80f5927ab87c970e415fc2249dacbe477de24b2d4b4f290
+size 395787774

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98076d1a485dee413d0a3058c25ae735c0c60b05929dabc07edc8b07230a699d
+size 395786922

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round20.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ecc202d5d7a13afe84562def5972aa2b53b55494013e0c796ee940e04ac06411
+size 395787774

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8e35590c3355bd5576bfdc1cdf900c8965358057209a964522dbc96cc45bdfd
+size 395786922

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_client_model_round7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e88943196a7a63864f254c5584ef10c4ebe5eb4a197c6fe2c426104db1c90fa
+size 395786922

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/2_trainer_state.json ADDED Viewed

	@@ -0,0 +1,392 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "grad_norm": 6.272475242614746,
+      "learning_rate": 2e-05,
+      "loss": 1.4564,
+      "step": 2
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 1.9333751201629639,
+      "learning_rate": 2e-05,
+      "loss": 0.2648,
+      "step": 4
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 8.752674102783203,
+      "learning_rate": 2e-05,
+      "loss": 1.0459,
+      "step": 6
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 6.856117248535156,
+      "learning_rate": 2e-05,
+      "loss": 1.074,
+      "step": 8
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.8297804594039917,
+      "learning_rate": 2e-05,
+      "loss": 0.2858,
+      "step": 10
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.140818476676941,
+      "learning_rate": 2e-05,
+      "loss": 1.3342,
+      "step": 12
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 1.5394253730773926,
+      "learning_rate": 2e-05,
+      "loss": 0.5499,
+      "step": 14
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.8623746633529663,
+      "learning_rate": 2e-05,
+      "loss": 0.5739,
+      "step": 16
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 1.4835646152496338,
+      "learning_rate": 2e-05,
+      "loss": 0.5788,
+      "step": 18
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 5.786844253540039,
+      "learning_rate": 2e-05,
+      "loss": 1.1156,
+      "step": 20
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.184555172920227,
+      "learning_rate": 2e-05,
+      "loss": 0.393,
+      "step": 22
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 2.456709146499634,
+      "learning_rate": 2e-05,
+      "loss": 0.5986,
+      "step": 24
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 2.970411539077759,
+      "learning_rate": 2e-05,
+      "loss": 0.9743,
+      "step": 26
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 3.235511064529419,
+      "learning_rate": 2e-05,
+      "loss": 0.5695,
+      "step": 28
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.388797640800476,
+      "learning_rate": 2e-05,
+      "loss": 0.3121,
+      "step": 30
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.7918416857719421,
+      "learning_rate": 2e-05,
+      "loss": 0.4166,
+      "step": 32
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 5.021376132965088,
+      "learning_rate": 2e-05,
+      "loss": 1.0664,
+      "step": 34
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 2.587064266204834,
+      "learning_rate": 2e-05,
+      "loss": 0.4099,
+      "step": 36
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 2.4496819972991943,
+      "learning_rate": 2e-05,
+      "loss": 0.7411,
+      "step": 38
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.2078651487827301,
+      "learning_rate": 2e-05,
+      "loss": 0.0655,
+      "step": 40
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 4.392916202545166,
+      "learning_rate": 2e-05,
+      "loss": 0.6521,
+      "step": 42
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.40581476688385,
+      "learning_rate": 2e-05,
+      "loss": 0.6168,
+      "step": 44
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 3.039031744003296,
+      "learning_rate": 2e-05,
+      "loss": 0.9925,
+      "step": 46
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.7090831995010376,
+      "learning_rate": 2e-05,
+      "loss": 0.1715,
+      "step": 48
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.347177267074585,
+      "learning_rate": 2e-05,
+      "loss": 0.2748,
+      "step": 50
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.3329389095306396,
+      "learning_rate": 2e-05,
+      "loss": 0.1272,
+      "step": 52
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 0.08257925510406494,
+      "learning_rate": 2e-05,
+      "loss": 0.2341,
+      "step": 54
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 4.227807998657227,
+      "learning_rate": 2e-05,
+      "loss": 0.6303,
+      "step": 56
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 4.126163959503174,
+      "learning_rate": 2e-05,
+      "loss": 1.1953,
+      "step": 58
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 4.300910472869873,
+      "learning_rate": 2e-05,
+      "loss": 0.3218,
+      "step": 60
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.9219881296157837,
+      "learning_rate": 2e-05,
+      "loss": 0.1746,
+      "step": 62
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 2.9596614837646484,
+      "learning_rate": 2e-05,
+      "loss": 0.4584,
+      "step": 64
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 3.6123971939086914,
+      "learning_rate": 2e-05,
+      "loss": 1.208,
+      "step": 66
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.38876235485076904,
+      "learning_rate": 2e-05,
+      "loss": 0.2364,
+      "step": 68
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 0.2788524329662323,
+      "learning_rate": 2e-05,
+      "loss": 1.1004,
+      "step": 70
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.8127436637878418,
+      "learning_rate": 2e-05,
+      "loss": 0.4335,
+      "step": 72
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 1.1976258754730225,
+      "learning_rate": 2e-05,
+      "loss": 0.3541,
+      "step": 74
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 2.5443003177642822,
+      "learning_rate": 2e-05,
+      "loss": 0.5296,
+      "step": 76
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 7.851327419281006,
+      "learning_rate": 2e-05,
+      "loss": 0.6387,
+      "step": 78
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.6018063426017761,
+      "learning_rate": 2e-05,
+      "loss": 0.2443,
+      "step": 80
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.8378749489784241,
+      "learning_rate": 2e-05,
+      "loss": 0.3417,
+      "step": 82
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 1.4673182964324951,
+      "learning_rate": 2e-05,
+      "loss": 0.1931,
+      "step": 84
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 2.720952033996582,
+      "learning_rate": 2e-05,
+      "loss": 0.4961,
+      "step": 86
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.9158133268356323,
+      "learning_rate": 2e-05,
+      "loss": 0.3774,
+      "step": 88
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 3.9416582584381104,
+      "learning_rate": 2e-05,
+      "loss": 0.3777,
+      "step": 90
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 4.797536849975586,
+      "learning_rate": 2e-05,
+      "loss": 2.2166,
+      "step": 92
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 0.18337757885456085,
+      "learning_rate": 2e-05,
+      "loss": 0.0285,
+      "step": 94
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 2.1316816806793213,
+      "learning_rate": 2e-05,
+      "loss": 0.2311,
+      "step": 96
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 2.1029789447784424,
+      "learning_rate": 2e-05,
+      "loss": 0.2891,
+      "step": 98
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 5.11422061920166,
+      "learning_rate": 2e-05,
+      "loss": 0.8276,
+      "step": 100
+    },
+    {
+      "epoch": 1.0,
+      "step": 100,
+      "total_flos": 4915713315700736.0,
+      "train_loss": 0.5959944343566894,
+      "train_runtime": 164.7489,
+      "train_samples_per_second": 2.428,
+      "train_steps_per_second": 0.607
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4915713315700736.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round10.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b90a5dd0fd661e09a67c5ff5ce2e4e6b7f27bce3cc8819b4a12d07ed2e923d0
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round12.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5707c613f0ab26a54511a0e422c567178a4e9646a71cb5ea16ca021a852528f
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round15.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:128ef94d7638cf3e09c9ad1624721e707d92df02f600fe7d15049c93dfba2d44
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round17.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8cd25ea69cc102dc88a95c6e544b5ccb62a87a364e695ecc06a48c0d829d2107
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8fcd31d481950ba1813d170fae25768537f117f828c5e6493d281d312ec2ff0
+size 184220842

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round20.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:982149de6ff717c45e71c05f899d16246f64df8b457c4d0255e66955582870d6
+size 184221358

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:856d2908d444479fef018729000b9d0427d423ef37e51aaf9c7879b8975afedd
+size 184220842

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_client_model_round7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91202957aa3e8f9c37e874e055083b17873ffbbb16fb5e7ed3f6eb86c0a00099
+size 184220842

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/3_trainer_state.json ADDED Viewed

	@@ -0,0 +1,392 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "grad_norm": 1.8781095743179321,
+      "learning_rate": 2e-05,
+      "loss": 0.7201,
+      "step": 2
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 4.64780330657959,
+      "learning_rate": 2e-05,
+      "loss": 0.7212,
+      "step": 4
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 4.34021520614624,
+      "learning_rate": 2e-05,
+      "loss": 1.1729,
+      "step": 6
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 3.4610328674316406,
+      "learning_rate": 2e-05,
+      "loss": 0.5734,
+      "step": 8
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 6.560781478881836,
+      "learning_rate": 2e-05,
+      "loss": 1.0993,
+      "step": 10
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 4.692245960235596,
+      "learning_rate": 2e-05,
+      "loss": 0.8895,
+      "step": 12
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 3.2022180557250977,
+      "learning_rate": 2e-05,
+      "loss": 0.6035,
+      "step": 14
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 9.959211349487305,
+      "learning_rate": 2e-05,
+      "loss": 0.4861,
+      "step": 16
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 4.851236343383789,
+      "learning_rate": 2e-05,
+      "loss": 1.23,
+      "step": 18
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 2.00787353515625,
+      "learning_rate": 2e-05,
+      "loss": 0.8202,
+      "step": 20
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 7.79062557220459,
+      "learning_rate": 2e-05,
+      "loss": 1.9206,
+      "step": 22
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 2.094217538833618,
+      "learning_rate": 2e-05,
+      "loss": 0.26,
+      "step": 24
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 7.391254901885986,
+      "learning_rate": 2e-05,
+      "loss": 0.8843,
+      "step": 26
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 5.2949700355529785,
+      "learning_rate": 2e-05,
+      "loss": 0.4376,
+      "step": 28
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 3.2532601356506348,
+      "learning_rate": 2e-05,
+      "loss": 0.5991,
+      "step": 30
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.2858636379241943,
+      "learning_rate": 2e-05,
+      "loss": 0.5054,
+      "step": 32
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 4.041250705718994,
+      "learning_rate": 2e-05,
+      "loss": 0.9352,
+      "step": 34
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 3.889521598815918,
+      "learning_rate": 2e-05,
+      "loss": 0.5882,
+      "step": 36
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 9.420170783996582,
+      "learning_rate": 2e-05,
+      "loss": 1.4432,
+      "step": 38
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 16.8153133392334,
+      "learning_rate": 2e-05,
+      "loss": 1.3346,
+      "step": 40
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 7.50994873046875,
+      "learning_rate": 2e-05,
+      "loss": 1.0825,
+      "step": 42
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 8.1231107711792,
+      "learning_rate": 2e-05,
+      "loss": 1.4161,
+      "step": 44
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 8.429718017578125,
+      "learning_rate": 2e-05,
+      "loss": 0.49,
+      "step": 46
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 3.6227402687072754,
+      "learning_rate": 2e-05,
+      "loss": 0.9992,
+      "step": 48
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 5.889152526855469,
+      "learning_rate": 2e-05,
+      "loss": 1.4035,
+      "step": 50
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 4.411243915557861,
+      "learning_rate": 2e-05,
+      "loss": 0.8505,
+      "step": 52
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 7.3300628662109375,
+      "learning_rate": 2e-05,
+      "loss": 1.5046,
+      "step": 54
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 10.950540542602539,
+      "learning_rate": 2e-05,
+      "loss": 2.0556,
+      "step": 56
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 6.158329963684082,
+      "learning_rate": 2e-05,
+      "loss": 1.1124,
+      "step": 58
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 3.026836395263672,
+      "learning_rate": 2e-05,
+      "loss": 0.6212,
+      "step": 60
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 7.47479248046875,
+      "learning_rate": 2e-05,
+      "loss": 1.7262,
+      "step": 62
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 4.971011161804199,
+      "learning_rate": 2e-05,
+      "loss": 1.1455,
+      "step": 64
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 3.6353936195373535,
+      "learning_rate": 2e-05,
+      "loss": 0.9557,
+      "step": 66
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.9492896199226379,
+      "learning_rate": 2e-05,
+      "loss": 0.741,
+      "step": 68
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 14.06840705871582,
+      "learning_rate": 2e-05,
+      "loss": 1.9984,
+      "step": 70
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 2.856049060821533,
+      "learning_rate": 2e-05,
+      "loss": 0.5109,
+      "step": 72
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 2.644953966140747,
+      "learning_rate": 2e-05,
+      "loss": 1.8948,
+      "step": 74
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 4.469645977020264,
+      "learning_rate": 2e-05,
+      "loss": 1.3262,
+      "step": 76
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 2.310840368270874,
+      "learning_rate": 2e-05,
+      "loss": 1.0936,
+      "step": 78
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.9231162071228027,
+      "learning_rate": 2e-05,
+      "loss": 0.9224,
+      "step": 80
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 7.485569477081299,
+      "learning_rate": 2e-05,
+      "loss": 1.5591,
+      "step": 82
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 3.495986223220825,
+      "learning_rate": 2e-05,
+      "loss": 0.3848,
+      "step": 84
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 8.537229537963867,
+      "learning_rate": 2e-05,
+      "loss": 1.1093,
+      "step": 86
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 7.835823059082031,
+      "learning_rate": 2e-05,
+      "loss": 1.5268,
+      "step": 88
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 7.483861446380615,
+      "learning_rate": 2e-05,
+      "loss": 1.4335,
+      "step": 90
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 6.753383636474609,
+      "learning_rate": 2e-05,
+      "loss": 1.2968,
+      "step": 92
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 5.714827537536621,
+      "learning_rate": 2e-05,
+      "loss": 1.7101,
+      "step": 94
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 2.2157304286956787,
+      "learning_rate": 2e-05,
+      "loss": 0.8783,
+      "step": 96
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 5.616714954376221,
+      "learning_rate": 2e-05,
+      "loss": 1.445,
+      "step": 98
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 7.787622451782227,
+      "learning_rate": 2e-05,
+      "loss": 1.4313,
+      "step": 100
+    },
+    {
+      "epoch": 1.0,
+      "step": 100,
+      "total_flos": 2098644891205632.0,
+      "train_loss": 1.0769911789894104,
+      "train_runtime": 99.8148,
+      "train_samples_per_second": 4.007,
+      "train_steps_per_second": 1.002
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2098644891205632.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round10.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bc04153b001e017d209e57e4f7e110ceffdcf8233d0d3c3af57e0f2fe48da24a
+size 395787774

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round12.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d713770573d500be237293e72b94a1cc8dddbc8d4c7665b4020e3ff56dacf989
+size 395787774

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round15.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d91972bff7e58989a0015e2c3ec3b73758bc6aa261e4de87fcbb0af0d536f409
+size 395787774

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round17.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:add14524942e24d06b6fa87becf4438589ced02a70a0bb53df810aa4ac3da857
+size 395787774

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bf1edf6d867ba7dd0fece4032f4c607a03cd3e354e59a4e213e6d2131f6f799
+size 395786922

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round20.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:87c2b00b249d1803956e5e975f2f439efc91691d91b31331ad305f184953e805
+size 395787774

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f39d888f201ae7da27f5342683ce24f06ab6863474eaa5a4ee43ffacd50993b2
+size 395786922

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_client_model_round7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c616640cd02faeca67fb9ad8c43c9ff3378582a127b880526740e422052d27b
+size 395786922

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/4_trainer_state.json ADDED Viewed

	@@ -0,0 +1,392 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "grad_norm": 3.8667259216308594,
+      "learning_rate": 2e-05,
+      "loss": 1.0569,
+      "step": 2
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 1.0802192687988281,
+      "learning_rate": 2e-05,
+      "loss": 0.4849,
+      "step": 4
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 1.5820523500442505,
+      "learning_rate": 2e-05,
+      "loss": 0.8122,
+      "step": 6
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 3.165304183959961,
+      "learning_rate": 2e-05,
+      "loss": 0.4609,
+      "step": 8
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 2.1040215492248535,
+      "learning_rate": 2e-05,
+      "loss": 1.3716,
+      "step": 10
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 2.737826347351074,
+      "learning_rate": 2e-05,
+      "loss": 1.1401,
+      "step": 12
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.948131263256073,
+      "learning_rate": 2e-05,
+      "loss": 0.632,
+      "step": 14
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 2.155320405960083,
+      "learning_rate": 2e-05,
+      "loss": 1.0287,
+      "step": 16
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 1.2282243967056274,
+      "learning_rate": 2e-05,
+      "loss": 0.5867,
+      "step": 18
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 2.5964159965515137,
+      "learning_rate": 2e-05,
+      "loss": 0.6555,
+      "step": 20
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.4527921676635742,
+      "learning_rate": 2e-05,
+      "loss": 0.9789,
+      "step": 22
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.5666605234146118,
+      "learning_rate": 2e-05,
+      "loss": 0.5485,
+      "step": 24
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 3.837740182876587,
+      "learning_rate": 2e-05,
+      "loss": 0.8414,
+      "step": 26
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.679490566253662,
+      "learning_rate": 2e-05,
+      "loss": 0.6234,
+      "step": 28
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 2.4019229412078857,
+      "learning_rate": 2e-05,
+      "loss": 0.6795,
+      "step": 30
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 3.0277788639068604,
+      "learning_rate": 2e-05,
+      "loss": 0.6551,
+      "step": 32
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 3.1049275398254395,
+      "learning_rate": 2e-05,
+      "loss": 1.3996,
+      "step": 34
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 2.1981680393218994,
+      "learning_rate": 2e-05,
+      "loss": 0.6906,
+      "step": 36
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 0.4658830463886261,
+      "learning_rate": 2e-05,
+      "loss": 0.1708,
+      "step": 38
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.9990465044975281,
+      "learning_rate": 2e-05,
+      "loss": 0.2357,
+      "step": 40
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.218131184577942,
+      "learning_rate": 2e-05,
+      "loss": 0.604,
+      "step": 42
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 0.8305265307426453,
+      "learning_rate": 2e-05,
+      "loss": 0.263,
+      "step": 44
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 4.220275402069092,
+      "learning_rate": 2e-05,
+      "loss": 0.9145,
+      "step": 46
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 3.2627382278442383,
+      "learning_rate": 2e-05,
+      "loss": 0.2621,
+      "step": 48
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 7.637389183044434,
+      "learning_rate": 2e-05,
+      "loss": 0.6855,
+      "step": 50
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 2.2909798622131348,
+      "learning_rate": 2e-05,
+      "loss": 0.4636,
+      "step": 52
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 1.6831642389297485,
+      "learning_rate": 2e-05,
+      "loss": 0.3304,
+      "step": 54
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 3.669160842895508,
+      "learning_rate": 2e-05,
+      "loss": 0.3234,
+      "step": 56
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 9.243528366088867,
+      "learning_rate": 2e-05,
+      "loss": 0.9173,
+      "step": 58
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 7.592850685119629,
+      "learning_rate": 2e-05,
+      "loss": 1.0405,
+      "step": 60
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 4.612028121948242,
+      "learning_rate": 2e-05,
+      "loss": 0.9296,
+      "step": 62
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.7067667245864868,
+      "learning_rate": 2e-05,
+      "loss": 0.4996,
+      "step": 64
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 2.345529079437256,
+      "learning_rate": 2e-05,
+      "loss": 1.2364,
+      "step": 66
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 4.779994487762451,
+      "learning_rate": 2e-05,
+      "loss": 0.9,
+      "step": 68
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 3.520698070526123,
+      "learning_rate": 2e-05,
+      "loss": 1.274,
+      "step": 70
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.043005108833313,
+      "learning_rate": 2e-05,
+      "loss": 0.1549,
+      "step": 72
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 4.629940509796143,
+      "learning_rate": 2e-05,
+      "loss": 1.5627,
+      "step": 74
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.3093677759170532,
+      "learning_rate": 2e-05,
+      "loss": 0.5079,
+      "step": 76
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.6198597550392151,
+      "learning_rate": 2e-05,
+      "loss": 0.9565,
+      "step": 78
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.102959156036377,
+      "learning_rate": 2e-05,
+      "loss": 0.4706,
+      "step": 80
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.7533611059188843,
+      "learning_rate": 2e-05,
+      "loss": 0.6437,
+      "step": 82
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 1.9639290571212769,
+      "learning_rate": 2e-05,
+      "loss": 0.6471,
+      "step": 84
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 2.027463912963867,
+      "learning_rate": 2e-05,
+      "loss": 0.4873,
+      "step": 86
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 2.5160040855407715,
+      "learning_rate": 2e-05,
+      "loss": 1.1644,
+      "step": 88
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.7003493905067444,
+      "learning_rate": 2e-05,
+      "loss": 0.2009,
+      "step": 90
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.787532925605774,
+      "learning_rate": 2e-05,
+      "loss": 0.6372,
+      "step": 92
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 3.888639211654663,
+      "learning_rate": 2e-05,
+      "loss": 1.2432,
+      "step": 94
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 2.0158474445343018,
+      "learning_rate": 2e-05,
+      "loss": 0.7993,
+      "step": 96
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 3.9803707599639893,
+      "learning_rate": 2e-05,
+      "loss": 1.2802,
+      "step": 98
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.657550573348999,
+      "learning_rate": 2e-05,
+      "loss": 0.7877,
+      "step": 100
+    },
+    {
+      "epoch": 1.0,
+      "step": 100,
+      "total_flos": 5692822418096128.0,
+      "train_loss": 0.7448138999938965,
+      "train_runtime": 164.7682,
+      "train_samples_per_second": 2.428,
+      "train_steps_per_second": 0.607
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5692822418096128.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/5_client_model_round10.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e10b6891ffb0d7ee2bbc7d4c5e22e7d3914155f461e036c14c64145d94b777bf
+size 395787774

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/5_client_model_round12.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7284e5b745babed407499e559af061cd69c87a12563b08b6075b15e2c942b8fc
+size 395787774

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/5_client_model_round15.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b84518474151c39c0ae7a01ab9e58001c8b59b1b4a6e02b12d1588ff9138cfd4
+size 395787774

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/5_client_model_round17.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba1d8705800a9de15220cdaab6edd725444a970ab5b0c3958e08f93f6b170d4d
+size 395787774

client_states_fedMultipqfullfreeze_sft_NOCONT_bs4_saveoptim_lr2e-5_5e-5_sc315_4tasks_5rounds_fixitr100_T0125_decay099_SEED2/5_client_model_round2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8924b694f6781834a72230a07694dc5273317d364888d728ebeb1bc0830255d
+size 395786922