[2025-05-09 01:07:40] Created output directory: train_results_ar/Qwen_Qwen2.5-7B_full_upsample1000
[2025-05-09 01:07:40] Chat mode disabled
[2025-05-09 01:07:40] Model size is over 3B (7 B). Using LoRA training.
[2025-05-09 01:07:40] Adjusted learning rate for LoRA: 2e-4
[2025-05-09 01:07:40] No QA format data will be used
[2025-05-09 01:07:40] =======================================
[2025-05-09 01:07:40] Starting training for model: Qwen/Qwen2.5-7B
[2025-05-09 01:07:40] =======================================
[2025-05-09 01:07:40] CUDA_VISIBLE_DEVICES: 0,1,2,3,4,5,6,7
[2025-05-09 01:07:40] WANDB_PROJECT: wikidyk-ar
[2025-05-09 01:07:40] DATA_PATH: data/wikidyk2022-2025_01082025_gpt-4o_evalv2_pages_formatted_combined_v2.json
[2025-05-09 01:07:40] Global Batch Size: 256
[2025-05-09 01:07:40] Data Size: -1
[2025-05-09 01:07:40] Executing command: torchrun --nproc_per_node "8" --master-port 29503 src/train.py     --model_name_or_path "Qwen/Qwen2.5-7B"     --data_path "data/wikidyk2022-2025_01082025_gpt-4o_evalv2_pages_formatted_combined_v2.json"     --output_dir "train_results_ar/Qwen_Qwen2.5-7B_full_upsample1000"     --num_upsample "1000"     --per_device_train_batch_size "32"     --gradient_accumulation_steps "1"     --learning_rate "2e-4"     --num_train_epochs "1"     --model_max_length "4096"     --report_to wandb --logging_steps 50 --save_strategy no     --bf16 True --use_flash_attention_2 True     --qa_data_ratio "-1"     --predict_mask "false"          --use_lora --lora_r 32 --lora_alpha 16          
[2025-05-09 01:07:40] Training started at 2025年 05月 09日 星期五 01:07:40 CST
W0509 01:07:41.339000 3290227 site-packages/torch/distributed/run.py:792] 
W0509 01:07:41.339000 3290227 site-packages/torch/distributed/run.py:792] *****************************************
W0509 01:07:41.339000 3290227 site-packages/torch/distributed/run.py:792] Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed. 
W0509 01:07:41.339000 3290227 site-packages/torch/distributed/run.py:792] *****************************************
WARNING:root:Output directory: train_results_ar/Qwen_Qwen2.5-7B_full_upsample1000
WARNING:root:Output directory: train_results_ar/Qwen_Qwen2.5-7B_full_upsample1000
WARNING:root:Output directory: train_results_ar/Qwen_Qwen2.5-7B_full_upsample1000
WARNING:root:Output directory: train_results_ar/Qwen_Qwen2.5-7B_full_upsample1000
WARNING:root:Output directory: train_results_ar/Qwen_Qwen2.5-7B_full_upsample1000
WARNING:root:Output directory: train_results_ar/Qwen_Qwen2.5-7B_full_upsample1000
WARNING:root:Output directory: train_results_ar/Qwen_Qwen2.5-7B_full_upsample1000
WARNING:root:Output directory: train_results_ar/Qwen_Qwen2.5-7B_full_upsample1000
The model was loaded with use_flash_attention_2=True, which is deprecated and may be removed in a future release. Please use `attn_implementation="flash_attention_2"` instead.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 4/4 [00:00<00:00, 135.08it/s]
The model was loaded with use_flash_attention_2=True, which is deprecated and may be removed in a future release. Please use `attn_implementation="flash_attention_2"` instead.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 4/4 [00:00<00:00, 128.77it/s]
The model was loaded with use_flash_attention_2=True, which is deprecated and may be removed in a future release. Please use `attn_implementation="flash_attention_2"` instead.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 4/4 [00:00<00:00, 135.62it/s]
The model was loaded with use_flash_attention_2=True, which is deprecated and may be removed in a future release. Please use `attn_implementation="flash_attention_2"` instead.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 4/4 [00:00<00:00, 133.58it/s]
The model was loaded with use_flash_attention_2=True, which is deprecated and may be removed in a future release. Please use `attn_implementation="flash_attention_2"` instead.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 4/4 [00:00<00:00, 133.31it/s]
The model was loaded with use_flash_attention_2=True, which is deprecated and may be removed in a future release. Please use `attn_implementation="flash_attention_2"` instead.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 4/4 [00:00<00:00, 134.53it/s]
trainable params: 10,092,544 || all params: 7,625,709,056 || trainable%: 0.1323
The model was loaded with use_flash_attention_2=True, which is deprecated and may be removed in a future release. Please use `attn_implementation="flash_attention_2"` instead.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
trainable params: 10,092,544 || all params: 7,625,709,056 || trainable%: 0.1323
Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]trainable params: 10,092,544 || all params: 7,625,709,056 || trainable%: 0.1323
Loading checkpoint shards: 100%|██████████| 4/4 [00:00<00:00, 133.69it/s]
trainable params: 10,092,544 || all params: 7,625,709,056 || trainable%: 0.1323
trainable params: 10,092,544 || all params: 7,625,709,056 || trainable%: 0.1323
trainable params: 10,092,544 || all params: 7,625,709,056 || trainable%: 0.1323
The model was loaded with use_flash_attention_2=True, which is deprecated and may be removed in a future release. Please use `attn_implementation="flash_attention_2"` instead.
You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]Loading checkpoint shards: 100%|██████████| 4/4 [00:00<00:00, 121.08it/s]
trainable params: 10,092,544 || all params: 7,625,709,056 || trainable%: 0.1323
trainable params: 10,092,544 || all params: 7,625,709,056 || trainable%: 0.1323
WARNING:root:Loading data...
WARNING:root:Loading data...
WARNING:root:Loading data...
WARNING:root:Loading data...
WARNING:root:Loading data...
WARNING:root:Loading data...
WARNING:root:Loading data...
WARNING:root:Loading data...
WARNING:root:Dataset initialized with all QA data:
WARNING:root:  - 0 QA examples
WARNING:root:  - 12290 fact examples with upsampling factor 1000
WARNING:root:  - Total examples: 12290000
WARNING:root:Dataset initialized with all QA data:
WARNING:root:  - 0 QA examples
WARNING:root:  - 12290 fact examples with upsampling factor 1000
WARNING:root:  - Total examples: 12290000
WARNING:root:Dataset initialized with all QA data:
WARNING:root:  - 0 QA examples
WARNING:root:  - 12290 fact examples with upsampling factor 1000
WARNING:root:  - Total examples: 12290000
WARNING:root:Dataset initialized with all QA data:
WARNING:root:  - 0 QA examples
WARNING:root:  - 12290 fact examples with upsampling factor 1000
WARNING:root:  - Total examples: 12290000
WARNING:root:Dataset initialized with all QA data:
WARNING:root:  - 0 QA examples
WARNING:root:  - 12290 fact examples with upsampling factor 1000
WARNING:root:  - Total examples: 12290000
WARNING:root:Dataset initialized with all QA data:
WARNING:root:  - 0 QA examples
WARNING:root:  - 12290 fact examples with upsampling factor 1000
WARNING:root:  - Total examples: 12290000
WARNING:root:Dataset initialized with all QA data:
WARNING:root:  - 0 QA examples
WARNING:root:  - 12290 fact examples with upsampling factor 1000
WARNING:root:  - Total examples: 12290000
WARNING:root:Dataset initialized with all QA data:
WARNING:root:  - 0 QA examples
WARNING:root:  - 12290 fact examples with upsampling factor 1000
WARNING:root:  - Total examples: 12290000
/cq_1/share_1603164/user/wenhaowyu/WikiDYKEvalV2/src/train.py:119: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `Trainer.__init__`. Use `processing_class` instead.
  trainer = Trainer(model=model, tokenizer=tokenizer, args=training_args, **data_module)
/cq_1/share_1603164/user/wenhaowyu/WikiDYKEvalV2/src/train.py:119: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `Trainer.__init__`. Use `processing_class` instead.
  trainer = Trainer(model=model, tokenizer=tokenizer, args=training_args, **data_module)
/cq_1/share_1603164/user/wenhaowyu/WikiDYKEvalV2/src/train.py:119: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `Trainer.__init__`. Use `processing_class` instead.
  trainer = Trainer(model=model, tokenizer=tokenizer, args=training_args, **data_module)
/cq_1/share_1603164/user/wenhaowyu/WikiDYKEvalV2/src/train.py:119: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `Trainer.__init__`. Use `processing_class` instead.
  trainer = Trainer(model=model, tokenizer=tokenizer, args=training_args, **data_module)
/cq_1/share_1603164/user/wenhaowyu/WikiDYKEvalV2/src/train.py:119: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `Trainer.__init__`. Use `processing_class` instead.
  trainer = Trainer(model=model, tokenizer=tokenizer, args=training_args, **data_module)
/cq_1/share_1603164/user/wenhaowyu/WikiDYKEvalV2/src/train.py:119: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `Trainer.__init__`. Use `processing_class` instead.
  trainer = Trainer(model=model, tokenizer=tokenizer, args=training_args, **data_module)
WARNING:accelerate.utils.other:Detected kernel version 5.4.241, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
/cq_1/share_1603164/user/wenhaowyu/WikiDYKEvalV2/src/train.py:119: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `Trainer.__init__`. Use `processing_class` instead.
  trainer = Trainer(model=model, tokenizer=tokenizer, args=training_args, **data_module)
/cq_1/share_1603164/user/wenhaowyu/WikiDYKEvalV2/src/train.py:119: FutureWarning: `tokenizer` is deprecated and will be removed in version 5.0.0 for `Trainer.__init__`. Use `processing_class` instead.
  trainer = Trainer(model=model, tokenizer=tokenizer, args=training_args, **data_module)
No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.
No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.
No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.
No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.
No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.
No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.
No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.
No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.
wandb: WARNING The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
wandb: Currently logged in as: wenhaoyu97 to https://api.wandb.ai. Use `wandb login --relogin` to force relogin
wandb: Tracking run with wandb version 0.19.10
wandb: Run data is saved locally in /cq_1/share_1603164/user/wenhaowyu/WikiDYKEvalV2/wandb/run-20250509_010824-fx5papo3
wandb: Run `wandb offline` to turn off syncing.
wandb: Syncing run train_results_ar/Qwen_Qwen2.5-7B_full_upsample1000
wandb: ⭐️ View project at https://wandb.ai/wenhaoyu97/wikidyk-ar
wandb: 🚀 View run at https://wandb.ai/wenhaoyu97/wikidyk-ar/runs/fx5papo3
  0%|          | 0/48008 [00:00<?, ?it/s][rank7]:[W509 01:08:28.280288412 reducer.cpp:1400] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
[rank5]:[W509 01:08:28.285540942 reducer.cpp:1400] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
[rank2]:[W509 01:08:28.300079795 reducer.cpp:1400] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
[rank1]:[W509 01:08:29.314133906 reducer.cpp:1400] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
[rank4]:[W509 01:08:29.318540751 reducer.cpp:1400] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
[rank6]:[W509 01:08:29.324979441 reducer.cpp:1400] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
[rank3]:[W509 01:08:29.358260035 reducer.cpp:1400] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
[rank0]:[W509 01:08:29.435258164 reducer.cpp:1400] Warning: find_unused_parameters=True was specified in DDP constructor, but did not find any unused parameters in the forward pass. This flag results in an extra traversal of the autograd graph every iteration,  which can adversely affect performance. If your model indeed never has any unused parameters in the forward pass, consider turning this flag off. Note that this warning may be a false positive if your model has flow control causing later iterations to have unused parameters. (function operator())
  0%|          | 1/48008 [00:01<18:28:07,  1.38s/it]  0%|          | 2/48008 [00:01<11:28:04,  1.16it/s]  0%|          | 3/48008 [00:02<9:26:34,  1.41it/s]   0%|          | 4/48008 [00:02<8:17:09,  1.61it/s]  0%|          | 5/48008 [00:03<7:30:31,  1.78it/s]  0%|          | 6/48008 [00:03<7:26:22,  1.79it/s]  0%|          | 7/48008 [00:04<7:15:55,  1.84it/s]  0%|          | 8/48008 [00:04<6:44:45,  1.98it/s]  0%|          | 9/48008 [00:05<6:45:45,  1.97it/s]  0%|          | 10/48008 [00:05<6:40:41,  2.00it/s]  0%|          | 11/48008 [00:06<6:41:57,  1.99it/s]  0%|          | 12/48008 [00:06<6:49:16,  1.95it/s]  0%|          | 13/48008 [00:07<6:42:50,  1.99it/s]  0%|          | 14/48008 [00:07<6:38:53,  2.01it/s]  0%|          | 15/48008 [00:08<6:44:27,  1.98it/s]  0%|          | 16/48008 [00:08<6:40:40,  2.00it/s]  0%|          | 17/48008 [00:09<6:36:38,  2.02it/s]  0%|          | 18/48008 [00:09<6:44:39,  1.98it/s]  0%|          | 19/48008 [00:10<6:39:42,  2.00it/s]  0%|          | 20/48008 [00:10<6:36:41,  2.02it/s]  0%|          | 21/48008 [00:11<6:40:34,  2.00it/s]  0%|          | 22/48008 [00:11<6:20:09,  2.10it/s]  0%|          | 23/48008 [00:12<6:27:38,  2.06it/s]  0%|          | 24/48008 [00:12<6:33:13,  2.03it/s]  0%|          | 25/48008 [00:13<6:31:49,  2.04it/s]  0%|          | 26/48008 [00:13<6:35:18,  2.02it/s]  0%|          | 27/48008 [00:14<6:47:40,  1.96it/s]  0%|          | 28/48008 [00:14<6:41:56,  1.99it/s]  0%|          | 29/48008 [00:16<9:42:42,  1.37it/s]  0%|          | 30/48008 [00:16<10:20:03,  1.29it/s]  0%|          | 31/48008 [00:17<8:53:42,  1.50it/s]   0%|          | 32/48008 [00:17<8:10:19,  1.63it/s]  0%|          | 33/48008 [00:18<7:45:20,  1.72it/s]  0%|          | 34/48008 [00:18<7:22:49,  1.81it/s]  0%|          | 35/48008 [00:19<7:11:45,  1.85it/s]  0%|          | 36/48008 [00:19<6:43:09,  1.98it/s]  0%|          | 37/48008 [00:20<6:44:35,  1.98it/s]  0%|          | 38/48008 [00:20<6:24:00,  2.08it/s]  0%|          | 39/48008 [00:21<9:30:28,  1.40it/s]  0%|          | 40/48008 [00:22<8:35:56,  1.55it/s]  0%|          | 41/48008 [00:22<7:41:32,  1.73it/s]  0%|          | 42/48008 [00:23<7:19:58,  1.82it/s]  0%|          | 43/48008 [00:23<7:14:08,  1.84it/s]  0%|          | 44/48008 [00:25<10:04:06,  1.32it/s]  0%|          | 45/48008 [00:25<8:59:09,  1.48it/s]   0%|          | 46/48008 [00:26<8:13:58,  1.62it/s]  0%|          | 47/48008 [00:26<7:51:52,  1.69it/s]  0%|          | 48/48008 [00:27<7:10:58,  1.85it/s]  0%|          | 49/48008 [00:27<6:58:39,  1.91it/s]  0%|          | 50/48008 [00:28<9:55:28,  1.34it/s]                                                    {'loss': 5.9435, 'grad_norm': 0.07504530996084213, 'learning_rate': 0.0001997958673554408, 'epoch': 0.0}  0%|          | 50/48008 [00:28<9:55:28,  1.34it/s]
  0%|          | 51/48008 [00:29<8:59:21,  1.48it/s]  0%|          | 52/48008 [00:29<8:13:32,  1.62it/s]  0%|          | 53/48008 [00:30<7:47:09,  1.71it/s]  0%|          | 54/48008 [00:30<8:10:03,  1.63it/s]  0%|          | 55/48008 [00:31<7:23:31,  1.80it/s]  0%|          | 56/48008 [00:31<7:06:20,  1.87it/s]  0%|          | 57/48008 [00:32<6:59:44,  1.90it/s]  0%|          | 58/48008 [00:32<6:34:34,  2.03it/s]  0%|          | 59/48008 [00:33<6:41:32,  1.99it/s]  0%|          | 60/48008 [00:33<6:37:23,  2.01it/s]  0%|          | 61/48008 [00:34<6:34:26,  2.03it/s]  0%|          | 62/48008 [00:34<6:16:47,  2.12it/s]  0%|          | 63/48008 [00:35<6:19:38,  2.10it/s]  0%|          | 64/48008 [00:35<6:22:32,  2.09it/s]  0%|          | 65/48008 [00:36<6:33:57,  2.03it/s]  0%|          | 66/48008 [00:36<6:32:48,  2.03it/s]  0%|          | 67/48008 [00:37<6:30:45,  2.04it/s]  0%|          | 68/48008 [00:37<6:30:25,  2.05it/s]  0%|          | 69/48008 [00:38<6:33:59,  2.03it/s]  0%|          | 70/48008 [00:38<6:32:47,  2.03it/s]  0%|          | 71/48008 [00:39<9:37:41,  1.38it/s]  0%|          | 72/48008 [00:40<8:45:23,  1.52it/s]  0%|          | 73/48008 [00:40<8:03:49,  1.65it/s]  0%|          | 74/48008 [00:41<7:19:19,  1.82it/s]  0%|          | 75/48008 [00:41<7:12:50,  1.85it/s]  0%|          | 76/48008 [00:42<6:43:24,  1.98it/s]  0%|          | 77/48008 [00:42<6:39:26,  2.00it/s]  0%|          | 78/48008 [00:43<6:36:34,  2.01it/s]  0%|          | 79/48008 [00:43<6:39:52,  2.00it/s]  0%|          | 80/48008 [00:44<6:46:57,  1.96it/s]  0%|          | 81/48008 [00:44<6:41:42,  1.99it/s]  0%|          | 82/48008 [00:45<7:26:25,  1.79it/s]  0%|          | 83/48008 [00:45<7:07:25,  1.87it/s]  0%|          | 84/48008 [00:46<6:39:52,  2.00it/s]  0%|          | 85/48008 [00:46<6:38:06,  2.01it/s]  0%|          | 86/48008 [00:47<6:19:05,  2.11it/s]  0%|          | 87/48008 [00:47<6:30:57,  2.04it/s]  0%|          | 88/48008 [00:48<6:36:11,  2.02it/s]  0%|          | 89/48008 [00:48<6:34:02,  2.03it/s]  0%|          | 90/48008 [00:49<6:31:08,  2.04it/s]  0%|          | 91/48008 [00:49<6:30:17,  2.05it/s]  0%|          | 92/48008 [00:50<6:29:04,  2.05it/s]  0%|          | 93/48008 [00:51<8:04:40,  1.65it/s]  0%|          | 94/48008 [00:51<7:35:52,  1.75it/s]  0%|          | 95/48008 [00:52<7:30:02,  1.77it/s]  0%|          | 96/48008 [00:52<7:11:30,  1.85it/s]  0%|          | 97/48008 [00:53<6:42:25,  1.98it/s]  0%|          | 98/48008 [00:53<6:38:16,  2.00it/s]  0%|          | 99/48008 [00:54<6:40:35,  1.99it/s]  0%|          | 100/48008 [00:54<6:51:15,  1.94it/s]                                                     {'loss': 5.7535, 'grad_norm': 0.0816095843911171, 'learning_rate': 0.00019958756873854358, 'epoch': 0.0}
  0%|          | 100/48008 [00:54<6:51:15,  1.94it/s]  0%|          | 101/48008 [00:55<6:42:57,  1.98it/s]  0%|          | 102/48008 [00:55<6:48:12,  1.96it/s]  0%|          | 103/48008 [00:56<6:26:04,  2.07it/s]  0%|          | 104/48008 [00:56<6:11:09,  2.15it/s]  0%|          | 105/48008 [00:56<6:17:08,  2.12it/s]  0%|          | 106/48008 [00:57<6:27:44,  2.06it/s]  0%|          | 107/48008 [00:57<6:26:19,  2.07it/s]  0%|          | 108/48008 [00:58<6:36:31,  2.01it/s]  0%|          | 109/48008 [00:58<6:34:09,  2.03it/s]  0%|          | 110/48008 [00:59<6:46:10,  1.97it/s]  0%|          | 111/48008 [01:00<6:55:28,  1.92it/s]  0%|          | 112/48008 [01:00<6:52:12,  1.94it/s]  0%|          | 113/48008 [01:01<6:58:59,  1.91it/s]  0%|          | 114/48008 [01:01<6:58:01,  1.91it/s]  0%|          | 115/48008 [01:02<6:47:41,  1.96it/s]  0%|          | 116/48008 [01:02<6:45:51,  1.97it/s]  0%|          | 117/48008 [01:03<6:40:56,  1.99it/s]  0%|          | 118/48008 [01:03<6:35:53,  2.02it/s]  0%|          | 119/48008 [01:04<6:32:32,  2.03it/s]  0%|          | 120/48008 [01:04<6:30:52,  2.04it/s]  0%|          | 121/48008 [01:05<6:30:26,  2.04it/s]  0%|          | 122/48008 [01:05<6:36:10,  2.01it/s]  0%|          | 123/48008 [01:06<6:31:46,  2.04it/s]  0%|          | 124/48008 [01:06<6:38:14,  2.00it/s]  0%|          | 125/48008 [01:07<6:41:10,  1.99it/s]  0%|          | 126/48008 [01:07<6:37:46,  2.01it/s]  0%|          | 127/48008 [01:08<6:39:29,  2.00it/s]  0%|          | 128/48008 [01:09<9:39:04,  1.38it/s]  0%|          | 129/48008 [01:09<8:48:28,  1.51it/s]  0%|          | 130/48008 [01:10<8:07:09,  1.64it/s]  0%|          | 131/48008 [01:10<7:37:31,  1.74it/s]  0%|          | 132/48008 [01:11<7:21:19,  1.81it/s]  0%|          | 133/48008 [01:11<7:05:11,  1.88it/s]  0%|          | 134/48008 [01:12<6:38:05,  2.00it/s]  0%|          | 135/48008 [01:12<6:47:07,  1.96it/s]  0%|          | 136/48008 [01:13<6:24:51,  2.07it/s]  0%|          | 137/48008 [01:14<8:00:42,  1.66it/s]  0%|          | 138/48008 [01:14<7:31:44,  1.77it/s]  0%|          | 139/48008 [01:15<7:18:02,  1.82it/s]  0%|          | 140/48008 [01:15<7:02:49,  1.89it/s]  0%|          | 141/48008 [01:16<6:51:26,  1.94it/s]  0%|          | 142/48008 [01:16<6:43:20,  1.98it/s]  0%|          | 143/48008 [01:16<6:37:01,  2.01it/s]  0%|          | 144/48008 [01:17<6:34:35,  2.02it/s]  0%|          | 145/48008 [01:17<6:31:15,  2.04it/s]  0%|          | 146/48008 [01:18<6:14:08,  2.13it/s]  0%|          | 147/48008 [01:18<6:18:41,  2.11it/s]  0%|          | 148/48008 [01:19<6:27:18,  2.06it/s]  0%|          | 149/48008 [01:20<7:11:58,  1.85it/s]  0%|          | 150/48008 [01:20<6:58:11,  1.91it/s]                                                     {'loss': 5.7214, 'grad_norm': 0.08575787395238876, 'learning_rate': 0.00019937927012164642, 'epoch': 0.0}  0%|          | 150/48008 [01:20<6:58:11,  1.91it/s]
  0%|          | 151/48008 [01:20<6:33:12,  2.03it/s]  0%|          | 152/48008 [01:21<6:30:10,  2.04it/s]  0%|          | 153/48008 [01:22<7:14:24,  1.84it/s]  0%|          | 154/48008 [01:22<6:59:58,  1.90it/s]  0%|          | 155/48008 [01:23<6:50:18,  1.94it/s]  0%|          | 156/48008 [01:23<6:47:18,  1.96it/s]  0%|          | 157/48008 [01:24<6:41:45,  1.99it/s]  0%|          | 158/48008 [01:24<6:21:09,  2.09it/s]  0%|          | 159/48008 [01:24<6:08:31,  2.16it/s]  0%|          | 160/48008 [01:25<6:17:37,  2.11it/s]  0%|          | 161/48008 [01:25<6:25:40,  2.07it/s]  0%|          | 162/48008 [01:26<6:10:35,  2.15it/s]  0%|          | 163/48008 [01:26<6:24:46,  2.07it/s]  0%|          | 164/48008 [01:27<6:34:14,  2.02it/s]  0%|          | 165/48008 [01:27<6:31:27,  2.04it/s]  0%|          | 166/48008 [01:28<6:13:30,  2.13it/s]  0%|          | 167/48008 [01:28<7:04:38,  1.88it/s]  0%|          | 168/48008 [01:29<7:39:37,  1.73it/s]  0%|          | 169/48008 [01:30<7:17:31,  1.82it/s]  0%|          | 170/48008 [01:30<7:02:42,  1.89it/s]  0%|          | 171/48008 [01:31<6:59:41,  1.90it/s]  0%|          | 172/48008 [01:31<6:55:52,  1.92it/s]  0%|          | 173/48008 [01:32<6:56:22,  1.91it/s]  0%|          | 174/48008 [01:32<6:53:38,  1.93it/s]  0%|          | 175/48008 [01:33<6:44:37,  1.97it/s]  0%|          | 176/48008 [01:33<6:44:12,  1.97it/s]  0%|          | 177/48008 [01:34<6:38:38,  2.00it/s]  0%|          | 178/48008 [01:34<6:19:55,  2.10it/s]  0%|          | 179/48008 [01:35<6:28:47,  2.05it/s]  0%|          | 180/48008 [01:35<6:28:08,  2.05it/s]  0%|          | 181/48008 [01:36<6:36:33,  2.01it/s]  0%|          | 182/48008 [01:36<6:40:45,  1.99it/s]  0%|          | 183/48008 [01:37<6:37:43,  2.00it/s]  0%|          | 184/48008 [01:37<6:34:43,  2.02it/s]  0%|          | 185/48008 [01:38<6:36:23,  2.01it/s]  0%|          | 186/48008 [01:38<6:34:12,  2.02it/s]  0%|          | 187/48008 [01:38<6:16:33,  2.12it/s]  0%|          | 188/48008 [01:39<6:27:11,  2.06it/s]  0%|          | 189/48008 [01:40<6:38:56,  2.00it/s]  0%|          | 190/48008 [01:40<6:34:46,  2.02it/s]  0%|          | 191/48008 [01:41<6:32:07,  2.03it/s]  0%|          | 192/48008 [01:41<6:29:04,  2.05it/s]  0%|          | 193/48008 [01:42<9:32:40,  1.39it/s]  0%|          | 194/48008 [01:43<8:49:14,  1.51it/s]  0%|          | 195/48008 [01:43<8:06:26,  1.64it/s]  0%|          | 196/48008 [01:44<7:22:18,  1.80it/s]  0%|          | 197/48008 [01:44<7:11:05,  1.85it/s]  0%|          | 198/48008 [01:45<6:58:09,  1.91it/s]  0%|          | 199/48008 [01:45<6:57:48,  1.91it/s]  0%|          | 200/48008 [01:46<6:52:52,  1.93it/s]                                                     {'loss': 5.7319, 'grad_norm': 0.10562187433242798, 'learning_rate': 0.0001991709715047492, 'epoch': 0.0}  0%|          | 200/48008 [01:46<6:52:52,  1.93it/s]
  0%|          | 201/48008 [01:46<6:45:07,  1.97it/s]  0%|          | 202/48008 [01:47<6:44:21,  1.97it/s]  0%|          | 203/48008 [01:47<6:45:43,  1.96it/s]  0%|          | 204/48008 [01:48<6:40:07,  1.99it/s]  0%|          | 205/48008 [01:48<6:46:01,  1.96it/s]  0%|          | 206/48008 [01:49<6:44:45,  1.97it/s]  0%|          | 207/48008 [01:49<6:40:17,  1.99it/s]  0%|          | 208/48008 [01:50<6:48:19,  1.95it/s]  0%|          | 209/48008 [01:50<6:41:28,  1.98it/s]  0%|          | 210/48008 [01:51<7:21:41,  1.80it/s]  0%|          | 211/48008 [01:51<7:17:34,  1.82it/s]  0%|          | 212/48008 [01:52<7:09:41,  1.85it/s]  0%|          | 213/48008 [01:52<7:04:10,  1.88it/s]  0%|          | 214/48008 [01:53<8:26:20,  1.57it/s]  0%|          | 215/48008 [01:54<7:50:29,  1.69it/s]  0%|          | 216/48008 [01:54<7:38:12,  1.74it/s]  0%|          | 217/48008 [01:55<7:17:00,  1.82it/s]  0%|          | 218/48008 [01:55<7:13:44,  1.84it/s]  0%|          | 219/48008 [01:56<7:01:15,  1.89it/s]  0%|          | 220/48008 [01:56<6:56:08,  1.91it/s]  0%|          | 221/48008 [01:58<9:52:27,  1.34it/s]  0%|          | 222/48008 [01:58<8:50:11,  1.50it/s]  0%|          | 223/48008 [01:59<7:51:23,  1.69it/s]  0%|          | 224/48008 [01:59<7:27:00,  1.78it/s]  0%|          | 225/48008 [02:00<7:09:44,  1.85it/s]  0%|          | 226/48008 [02:01<9:59:03,  1.33it/s]  0%|          | 227/48008 [02:01<9:07:52,  1.45it/s]  0%|          | 228/48008 [02:02<8:27:32,  1.57it/s]  0%|          | 229/48008 [02:02<7:36:21,  1.74it/s]  0%|          | 230/48008 [02:03<7:15:07,  1.83it/s]  0%|          | 231/48008 [02:03<7:13:58,  1.83it/s]  0%|          | 232/48008 [02:04<6:44:23,  1.97it/s]  0%|          | 233/48008 [02:04<6:38:52,  2.00it/s]  0%|          | 234/48008 [02:05<6:43:45,  1.97it/s]  0%|          | 235/48008 [02:05<6:38:06,  2.00it/s]  0%|          | 236/48008 [02:06<6:39:28,  1.99it/s]  0%|          | 237/48008 [02:07<8:14:24,  1.61it/s]  0%|          | 238/48008 [02:07<7:43:40,  1.72it/s]  0%|          | 239/48008 [02:08<7:21:10,  1.80it/s]  0%|          | 240/48008 [02:08<7:05:59,  1.87it/s]  1%|          | 241/48008 [02:09<7:10:49,  1.85it/s]  1%|          | 242/48008 [02:09<6:58:34,  1.90it/s]  1%|          | 243/48008 [02:10<6:53:38,  1.92it/s]  1%|          | 244/48008 [02:10<6:50:05,  1.94it/s]  1%|          | 245/48008 [02:11<6:28:15,  2.05it/s]  1%|          | 246/48008 [02:11<6:43:22,  1.97it/s]  1%|          | 247/48008 [02:12<6:44:36,  1.97it/s]  1%|          | 248/48008 [02:12<6:38:01,  2.00it/s]  1%|          | 249/48008 [02:13<9:38:24,  1.38it/s]  1%|          | 250/48008 [02:14<8:24:03,  1.58it/s]                                                     {'loss': 5.7522, 'grad_norm': 0.11741387844085693, 'learning_rate': 0.00019896267288785203, 'epoch': 0.01}
  1%|          | 250/48008 [02:14<8:24:03,  1.58it/s]  1%|          | 251/48008 [02:14<7:48:10,  1.70it/s]  1%|          | 252/48008 [02:15<7:23:55,  1.79it/s]  1%|          | 253/48008 [02:16<8:42:13,  1.52it/s]  1%|          | 254/48008 [02:16<7:46:45,  1.71it/s]  1%|          | 255/48008 [02:17<7:35:40,  1.75it/s]  1%|          | 256/48008 [02:17<7:20:00,  1.81it/s]  1%|          | 257/48008 [02:18<7:08:20,  1.86it/s]  1%|          | 258/48008 [02:18<6:55:09,  1.92it/s]  1%|          | 259/48008 [02:19<7:00:01,  1.89it/s]  1%|          | 260/48008 [02:19<6:56:17,  1.91it/s]  1%|          | 261/48008 [02:20<6:52:04,  1.93it/s]  1%|          | 262/48008 [02:20<6:28:33,  2.05it/s]  1%|          | 263/48008 [02:20<6:11:20,  2.14it/s]  1%|          | 264/48008 [02:21<6:29:27,  2.04it/s]  1%|          | 265/48008 [02:22<6:37:10,  2.00it/s]  1%|          | 266/48008 [02:22<7:19:55,  1.81it/s]  1%|          | 267/48008 [02:23<7:14:32,  1.83it/s]  1%|          | 268/48008 [02:23<7:03:52,  1.88it/s]  1%|          | 269/48008 [02:24<7:01:14,  1.89it/s]  1%|          | 270/48008 [02:24<6:49:15,  1.94it/s]  1%|          | 271/48008 [02:25<6:42:35,  1.98it/s]  1%|          | 272/48008 [02:25<6:36:52,  2.00it/s]  1%|          | 273/48008 [02:26<6:35:01,  2.01it/s]  1%|          | 274/48008 [02:26<6:47:56,  1.95it/s]  1%|          | 275/48008 [02:27<6:25:53,  2.06it/s]  1%|          | 276/48008 [02:28<9:31:34,  1.39it/s]  1%|          | 277/48008 [02:28<8:35:14,  1.54it/s]  1%|          | 278/48008 [02:29<7:41:11,  1.72it/s]  1%|          | 279/48008 [02:29<7:18:51,  1.81it/s]  1%|          | 280/48008 [02:30<7:08:27,  1.86it/s]  1%|          | 281/48008 [02:30<7:02:00,  1.88it/s]  1%|          | 282/48008 [02:31<6:56:34,  1.91it/s]  1%|          | 283/48008 [02:31<6:48:23,  1.95it/s]  1%|          | 284/48008 [02:32<6:42:16,  1.98it/s]  1%|          | 285/48008 [02:33<9:39:45,  1.37it/s]  1%|          | 286/48008 [02:34<8:46:29,  1.51it/s]  1%|          | 287/48008 [02:34<8:09:02,  1.63it/s]  1%|          | 288/48008 [02:35<7:37:59,  1.74it/s]  1%|          | 289/48008 [02:36<10:21:04,  1.28it/s]  1%|          | 290/48008 [02:36<8:54:16,  1.49it/s]   1%|          | 291/48008 [02:37<8:14:30,  1.61it/s]  1%|          | 292/48008 [02:37<7:26:35,  1.78it/s]  1%|          | 293/48008 [02:38<7:08:12,  1.86it/s]  1%|          | 294/48008 [02:38<6:59:09,  1.90it/s]  1%|          | 295/48008 [02:39<6:47:54,  1.95it/s]  1%|          | 296/48008 [02:39<6:45:31,  1.96it/s]  1%|          | 297/48008 [02:40<6:44:50,  1.96it/s]  1%|          | 298/48008 [02:40<6:45:06,  1.96it/s]  1%|          | 299/48008 [02:41<6:43:03,  1.97it/s]  1%|          | 300/48008 [02:41<6:37:33,  2.00it/s]                                                     {'loss': 5.6905, 'grad_norm': 0.12366639822721481, 'learning_rate': 0.00019875437427095485, 'epoch': 0.01}  1%|          | 300/48008 [02:41<6:37:33,  2.00it/s]
  1%|          | 301/48008 [02:42<6:34:03,  2.02it/s]  1%|          | 302/48008 [02:42<6:37:27,  2.00it/s]  1%|          | 303/48008 [02:43<7:20:12,  1.81it/s]  1%|          | 304/48008 [02:43<7:18:14,  1.81it/s]  1%|          | 305/48008 [02:44<7:14:54,  1.83it/s]  1%|          | 306/48008 [02:44<7:04:53,  1.87it/s]  1%|          | 307/48008 [02:45<6:53:21,  1.92it/s]  1%|          | 308/48008 [02:45<6:45:14,  1.96it/s]  1%|          | 309/48008 [02:46<6:40:02,  1.99it/s]  1%|          | 310/48008 [02:46<6:40:28,  1.99it/s]  1%|          | 311/48008 [02:47<6:34:45,  2.01it/s]  1%|          | 312/48008 [02:47<6:31:12,  2.03it/s]  1%|          | 313/48008 [02:48<6:29:12,  2.04it/s]  1%|          | 314/48008 [02:48<6:28:39,  2.05it/s]  1%|          | 315/48008 [02:49<6:40:07,  1.99it/s]  1%|          | 316/48008 [02:49<6:20:17,  2.09it/s]  1%|          | 317/48008 [02:50<6:22:06,  2.08it/s]  1%|          | 318/48008 [02:50<6:23:25,  2.07it/s]  1%|          | 319/48008 [02:51<6:30:45,  2.03it/s]  1%|          | 320/48008 [02:51<6:27:41,  2.05it/s]  1%|          | 321/48008 [02:52<6:32:59,  2.02it/s]  1%|          | 322/48008 [02:52<6:43:10,  1.97it/s]  1%|          | 323/48008 [02:53<6:37:08,  2.00it/s]  1%|          | 324/48008 [02:54<9:35:20,  1.38it/s]  1%|          | 325/48008 [02:55<8:36:39,  1.54it/s]  1%|          | 326/48008 [02:55<7:56:20,  1.67it/s]  1%|          | 327/48008 [02:56<7:41:02,  1.72it/s]  1%|          | 328/48008 [02:56<7:27:23,  1.78it/s]  1%|          | 329/48008 [02:57<7:54:09,  1.68it/s]  1%|          | 330/48008 [02:57<7:11:59,  1.84it/s]  1%|          | 331/48008 [02:58<7:02:51,  1.88it/s]  1%|          | 332/48008 [02:58<6:51:47,  1.93it/s]  1%|          | 333/48008 [02:59<6:49:25,  1.94it/s]  1%|          | 334/48008 [02:59<6:25:52,  2.06it/s]  1%|          | 335/48008 [03:00<7:11:46,  1.84it/s]  1%|          | 336/48008 [03:00<6:56:50,  1.91it/s]  1%|          | 337/48008 [03:01<6:48:34,  1.94it/s]  1%|          | 338/48008 [03:01<6:55:42,  1.91it/s]  1%|          | 339/48008 [03:02<7:33:15,  1.75it/s]  1%|          | 340/48008 [03:02<7:12:32,  1.84it/s]  1%|          | 341/48008 [03:03<6:57:48,  1.90it/s]  1%|          | 342/48008 [03:03<6:48:04,  1.95it/s]  1%|          | 343/48008 [03:04<6:45:32,  1.96it/s]  1%|          | 344/48008 [03:04<6:44:49,  1.96it/s]  1%|          | 345/48008 [03:05<6:45:06,  1.96it/s]  1%|          | 346/48008 [03:05<6:23:40,  2.07it/s]  1%|          | 347/48008 [03:06<6:38:25,  1.99it/s]  1%|          | 348/48008 [03:06<6:41:59,  1.98it/s]  1%|          | 349/48008 [03:07<6:45:31,  1.96it/s]  1%|          | 350/48008 [03:08<7:27:02,  1.78it/s]                                                     {'loss': 5.6654, 'grad_norm': 0.14468039572238922, 'learning_rate': 0.00019854607565405766, 'epoch': 0.01}
  1%|          | 350/48008 [03:08<7:27:02,  1.78it/s]  1%|          | 351/48008 [03:08<6:54:30,  1.92it/s]  1%|          | 352/48008 [03:09<6:45:35,  1.96it/s]  1%|          | 353/48008 [03:09<6:39:52,  1.99it/s]  1%|          | 354/48008 [03:09<6:35:26,  2.01it/s]  1%|          | 355/48008 [03:10<6:35:47,  2.01it/s]  1%|          | 356/48008 [03:10<6:38:07,  1.99it/s]  1%|          | 357/48008 [03:11<6:34:41,  2.01it/s]  1%|          | 358/48008 [03:11<6:38:29,  1.99it/s]  1%|          | 359/48008 [03:12<6:49:06,  1.94it/s]  1%|          | 360/48008 [03:13<6:49:28,  1.94it/s]  1%|          | 361/48008 [03:13<6:45:37,  1.96it/s]  1%|          | 362/48008 [03:13<6:22:20,  2.08it/s]  1%|          | 363/48008 [03:14<6:27:46,  2.05it/s]  1%|          | 364/48008 [03:14<6:35:41,  2.01it/s]  1%|          | 365/48008 [03:15<8:07:34,  1.63it/s]  1%|          | 366/48008 [03:16<7:37:05,  1.74it/s]  1%|          | 367/48008 [03:16<7:22:37,  1.79it/s]  1%|          | 368/48008 [03:17<6:49:21,  1.94it/s]  1%|          | 369/48008 [03:17<6:45:40,  1.96it/s]  1%|          | 370/48008 [03:18<6:23:43,  2.07it/s]  1%|          | 371/48008 [03:18<6:23:49,  2.07it/s]  1%|          | 372/48008 [03:19<6:08:12,  2.16it/s]  1%|          | 373/48008 [03:19<5:58:08,  2.22it/s]  1%|          | 374/48008 [03:19<5:50:00,  2.27it/s]  1%|          | 375/48008 [03:20<5:59:13,  2.21it/s]  1%|          | 376/48008 [03:20<6:11:21,  2.14it/s]  1%|          | 377/48008 [03:21<6:15:18,  2.12it/s]  1%|          | 378/48008 [03:21<6:28:45,  2.04it/s]  1%|          | 379/48008 [03:22<6:26:38,  2.05it/s]  1%|          | 380/48008 [03:22<6:10:42,  2.14it/s]  1%|          | 381/48008 [03:23<5:58:39,  2.21it/s]  1%|          | 382/48008 [03:23<6:07:17,  2.16it/s]  1%|          | 383/48008 [03:24<6:12:29,  2.13it/s]  1%|          | 384/48008 [03:24<6:15:33,  2.11it/s]  1%|          | 385/48008 [03:25<6:03:08,  2.19it/s]  1%|          | 386/48008 [03:25<6:56:10,  1.91it/s]  1%|          | 387/48008 [03:26<6:53:14,  1.92it/s]  1%|          | 388/48008 [03:26<6:44:49,  1.96it/s]  1%|          | 389/48008 [03:27<6:40:08,  1.98it/s]  1%|          | 390/48008 [03:27<6:40:04,  1.98it/s]  1%|          | 391/48008 [03:28<6:34:29,  2.01it/s]  1%|          | 392/48008 [03:28<6:15:54,  2.11it/s]  1%|          | 393/48008 [03:29<6:18:26,  2.10it/s]  1%|          | 394/48008 [03:29<6:20:24,  2.09it/s]  1%|          | 395/48008 [03:30<6:30:58,  2.03it/s]  1%|          | 396/48008 [03:30<6:28:49,  2.04it/s]  1%|          | 397/48008 [03:31<6:32:10,  2.02it/s]  1%|          | 398/48008 [03:31<6:28:00,  2.05it/s]  1%|          | 399/48008 [03:32<6:26:48,  2.05it/s]  1%|          | 400/48008 [03:32<6:24:06,  2.07it/s]                                                     {'loss': 5.5829, 'grad_norm': 0.16990332305431366, 'learning_rate': 0.00019833777703716048, 'epoch': 0.01}  1%|          | 400/48008 [03:32<6:24:06,  2.07it/s]
  1%|          | 401/48008 [03:33<6:07:37,  2.16it/s]  1%|          | 402/48008 [03:33<6:13:30,  2.12it/s]  1%|          | 403/48008 [03:34<6:14:42,  2.12it/s]  1%|          | 404/48008 [03:34<7:50:53,  1.68it/s]  1%|          | 405/48008 [03:35<7:31:23,  1.76it/s]  1%|          | 406/48008 [03:35<7:11:31,  1.84it/s]  1%|          | 407/48008 [03:36<7:10:47,  1.84it/s]  1%|          | 408/48008 [03:36<6:55:58,  1.91it/s]  1%|          | 409/48008 [03:37<6:57:19,  1.90it/s]  1%|          | 410/48008 [03:37<6:58:04,  1.90it/s]  1%|          | 411/48008 [03:38<6:33:02,  2.02it/s]  1%|          | 412/48008 [03:38<6:37:58,  1.99it/s]  1%|          | 413/48008 [03:39<6:31:51,  2.02it/s]  1%|          | 414/48008 [03:39<6:28:09,  2.04it/s]  1%|          | 415/48008 [03:40<6:11:30,  2.14it/s]  1%|          | 416/48008 [03:40<5:59:19,  2.21it/s]  1%|          | 417/48008 [03:41<6:07:15,  2.16it/s]  1%|          | 418/48008 [03:41<6:11:34,  2.13it/s]  1%|          | 419/48008 [03:42<6:21:34,  2.08it/s]  1%|          | 420/48008 [03:42<6:20:54,  2.08it/s]  1%|          | 421/48008 [03:43<9:22:41,  1.41it/s]  1%|          | 422/48008 [03:44<8:28:50,  1.56it/s]  1%|          | 423/48008 [03:44<8:04:32,  1.64it/s]  1%|          | 424/48008 [03:45<7:34:40,  1.74it/s]  1%|          | 425/48008 [03:45<6:57:59,  1.90it/s]  1%|          | 426/48008 [03:46<6:57:11,  1.90it/s]  1%|          | 427/48008 [03:46<6:47:42,  1.95it/s]  1%|          | 428/48008 [03:47<6:40:30,  1.98it/s]  1%|          | 429/48008 [03:47<6:18:28,  2.10it/s]  1%|          | 430/48008 [03:48<6:26:19,  2.05it/s]  1%|          | 431/48008 [03:48<6:38:51,  1.99it/s]  1%|          | 432/48008 [03:49<6:38:05,  1.99it/s]  1%|          | 433/48008 [03:49<6:37:29,  1.99it/s]  1%|          | 434/48008 [03:50<8:07:29,  1.63it/s]  1%|          | 435/48008 [03:51<7:41:38,  1.72it/s]  1%|          | 436/48008 [03:51<7:17:53,  1.81it/s]  1%|          | 437/48008 [03:52<6:45:33,  1.95it/s]  1%|          | 438/48008 [03:52<6:39:24,  1.99it/s]  1%|          | 439/48008 [03:53<6:42:54,  1.97it/s]  1%|          | 440/48008 [03:53<6:37:19,  2.00it/s]  1%|          | 441/48008 [03:54<6:31:28,  2.03it/s]  1%|          | 442/48008 [03:54<6:28:51,  2.04it/s]  1%|          | 443/48008 [03:54<6:28:26,  2.04it/s]  1%|          | 444/48008 [03:55<6:26:56,  2.05it/s]  1%|          | 445/48008 [03:55<6:26:57,  2.05it/s]  1%|          | 446/48008 [03:56<6:25:07,  2.06it/s]  1%|          | 447/48008 [03:56<6:24:47,  2.06it/s]  1%|          | 448/48008 [03:57<6:24:54,  2.06it/s]  1%|          | 449/48008 [03:57<6:29:27,  2.04it/s]  1%|          | 450/48008 [03:58<6:33:20,  2.02it/s]                                                     {'loss': 5.5716, 'grad_norm': 0.1966853141784668, 'learning_rate': 0.0001981294784202633, 'epoch': 0.01}  1%|          | 450/48008 [03:58<6:33:20,  2.02it/s]
  1%|          | 451/48008 [03:58<6:43:21,  1.97it/s]  1%|          | 452/48008 [03:59<6:21:52,  2.08it/s]  1%|          | 453/48008 [03:59<6:23:13,  2.07it/s]  1%|          | 454/48008 [04:00<6:23:06,  2.07it/s]  1%|          | 455/48008 [04:00<6:26:45,  2.05it/s]  1%|          | 456/48008 [04:01<6:31:44,  2.02it/s]  1%|          | 457/48008 [04:02<9:32:06,  1.39it/s]  1%|          | 458/48008 [04:03<8:35:09,  1.54it/s]  1%|          | 459/48008 [04:03<7:39:46,  1.72it/s]  1%|          | 460/48008 [04:04<7:23:03,  1.79it/s]  1%|          | 461/48008 [04:04<7:11:29,  1.84it/s]  1%|          | 462/48008 [04:05<7:04:07,  1.87it/s]  1%|          | 463/48008 [04:05<6:58:21,  1.89it/s]  1%|          | 464/48008 [04:06<6:47:56,  1.94it/s]  1%|          | 465/48008 [04:06<6:53:08,  1.92it/s]  1%|          | 466/48008 [04:07<6:43:07,  1.97it/s]  1%|          | 467/48008 [04:07<6:22:20,  2.07it/s]  1%|          | 468/48008 [04:08<6:30:12,  2.03it/s]  1%|          | 469/48008 [04:08<6:34:07,  2.01it/s]  1%|          | 470/48008 [04:09<6:45:19,  1.95it/s]  1%|          | 471/48008 [04:09<6:45:30,  1.95it/s]  1%|          | 472/48008 [04:10<6:46:37,  1.95it/s]  1%|          | 473/48008 [04:10<6:24:27,  2.06it/s]  1%|          | 474/48008 [04:11<8:00:38,  1.65it/s]  1%|          | 475/48008 [04:11<7:16:18,  1.82it/s]  1%|          | 476/48008 [04:12<7:01:38,  1.88it/s]  1%|          | 477/48008 [04:12<6:50:15,  1.93it/s]  1%|          | 478/48008 [04:13<6:47:12,  1.95it/s]  1%|          | 479/48008 [04:13<6:25:39,  2.05it/s]  1%|          | 480/48008 [04:14<6:08:43,  2.15it/s]  1%|          | 481/48008 [04:14<5:58:24,  2.21it/s]  1%|          | 482/48008 [04:15<6:14:52,  2.11it/s]  1%|          | 483/48008 [04:15<6:16:24,  2.10it/s]  1%|          | 484/48008 [04:16<6:18:32,  2.09it/s]  1%|          | 485/48008 [04:16<6:20:36,  2.08it/s]  1%|          | 486/48008 [04:17<6:20:18,  2.08it/s]  1%|          | 487/48008 [04:17<6:19:51,  2.09it/s]  1%|          | 488/48008 [04:17<6:20:58,  2.08it/s]  1%|          | 489/48008 [04:18<6:27:25,  2.04it/s]  1%|          | 490/48008 [04:18<6:26:07,  2.05it/s]  1%|          | 491/48008 [04:19<6:24:16,  2.06it/s]  1%|          | 492/48008 [04:19<6:22:43,  2.07it/s]  1%|          | 493/48008 [04:20<6:30:58,  2.03it/s]  1%|          | 494/48008 [04:20<6:28:41,  2.04it/s]  1%|          | 495/48008 [04:21<6:12:10,  2.13it/s]  1%|          | 496/48008 [04:21<6:14:50,  2.11it/s]  1%|          | 497/48008 [04:22<6:17:11,  2.10it/s]  1%|          | 498/48008 [04:22<6:18:39,  2.09it/s]  1%|          | 499/48008 [04:23<6:19:35,  2.09it/s]  1%|          | 500/48008 [04:23<6:19:45,  2.09it/s]                                                     {'loss': 5.5198, 'grad_norm': 0.25310325622558594, 'learning_rate': 0.00019792117980336612, 'epoch': 0.01}  1%|          | 500/48008 [04:23<6:19:45,  2.09it/s]
  1%|          | 501/48008 [04:24<6:31:54,  2.02it/s]  1%|          | 502/48008 [04:24<6:39:47,  1.98it/s]  1%|          | 503/48008 [04:25<6:39:55,  1.98it/s]  1%|          | 504/48008 [04:25<6:22:26,  2.07it/s]  1%|          | 505/48008 [04:26<6:24:40,  2.06it/s]  1%|          | 506/48008 [04:26<6:30:54,  2.03it/s]  1%|          | 507/48008 [04:27<8:02:25,  1.64it/s]  1%|          | 508/48008 [04:28<7:37:06,  1.73it/s]  1%|          | 509/48008 [04:28<7:14:47,  1.82it/s]  1%|          | 510/48008 [04:29<7:13:18,  1.83it/s]  1%|          | 511/48008 [04:29<6:43:47,  1.96it/s]  1%|          | 512/48008 [04:30<6:38:13,  1.99it/s]  1%|          | 513/48008 [04:30<6:38:07,  1.99it/s]  1%|          | 514/48008 [04:31<6:34:27,  2.01it/s]  1%|          | 515/48008 [04:31<6:36:46,  1.99it/s]  1%|          | 516/48008 [04:32<6:33:33,  2.01it/s]  1%|          | 517/48008 [04:32<6:29:38,  2.03it/s]  1%|          | 518/48008 [04:33<6:27:55,  2.04it/s]  1%|          | 519/48008 [04:33<6:28:03,  2.04it/s]  1%|          | 520/48008 [04:34<6:28:05,  2.04it/s]  1%|          | 521/48008 [04:34<6:32:10,  2.02it/s]  1%|          | 522/48008 [04:34<6:05:46,  2.16it/s]  1%|          | 523/48008 [04:35<6:10:53,  2.13it/s]  1%|          | 524/48008 [04:35<6:21:09,  2.08it/s]  1%|          | 525/48008 [04:36<6:30:14,  2.03it/s]  1%|          | 526/48008 [04:36<6:34:18,  2.01it/s]  1%|          | 527/48008 [04:37<8:03:13,  1.64it/s]  1%|          | 528/48008 [04:38<7:47:26,  1.69it/s]  1%|          | 529/48008 [04:38<7:08:17,  1.85it/s]  1%|          | 530/48008 [04:39<7:02:38,  1.87it/s]  1%|          | 531/48008 [04:39<6:52:27,  1.92it/s]  1%|          | 532/48008 [04:40<6:42:55,  1.96it/s]  1%|          | 533/48008 [04:40<6:37:32,  1.99it/s]  1%|          | 534/48008 [04:41<6:38:29,  1.99it/s]  1%|          | 535/48008 [04:41<7:20:02,  1.80it/s]  1%|          | 536/48008 [04:42<7:02:58,  1.87it/s]  1%|          | 537/48008 [04:43<7:39:04,  1.72it/s]  1%|          | 538/48008 [04:43<7:16:15,  1.81it/s]  1%|          | 539/48008 [04:44<6:45:34,  1.95it/s]  1%|          | 540/48008 [04:44<6:38:40,  1.98it/s]  1%|          | 541/48008 [04:44<6:18:22,  2.09it/s]  1%|          | 542/48008 [04:45<6:18:19,  2.09it/s]  1%|          | 543/48008 [04:45<6:18:01,  2.09it/s]  1%|          | 544/48008 [04:46<7:03:35,  1.87it/s]  1%|          | 545/48008 [04:47<6:58:02,  1.89it/s]  1%|          | 546/48008 [04:47<6:31:36,  2.02it/s]  1%|          | 547/48008 [04:48<9:32:35,  1.38it/s]  1%|          | 548/48008 [04:49<8:39:19,  1.52it/s]  1%|          | 549/48008 [04:49<7:57:52,  1.66it/s]  1%|          | 550/48008 [04:50<7:28:51,  1.76it/s]                                                     {'loss': 5.5318, 'grad_norm': 0.2410804182291031, 'learning_rate': 0.00019771288118646893, 'epoch': 0.01}  1%|          | 550/48008 [04:50<7:28:51,  1.76it/s]
  1%|          | 551/48008 [04:50<7:08:07,  1.85it/s]  1%|          | 552/48008 [04:51<7:08:45,  1.84it/s]  1%|          | 553/48008 [04:51<6:53:26,  1.91it/s]  1%|          | 554/48008 [04:52<6:47:50,  1.94it/s]  1%|          | 555/48008 [04:52<6:48:02,  1.94it/s]  1%|          | 556/48008 [04:53<6:45:28,  1.95it/s]  1%|          | 557/48008 [04:53<6:39:34,  1.98it/s]  1%|          | 558/48008 [04:54<6:41:52,  1.97it/s]  1%|          | 559/48008 [04:54<6:36:09,  2.00it/s]  1%|          | 560/48008 [04:55<6:17:32,  2.09it/s]  1%|          | 561/48008 [04:55<6:32:03,  2.02it/s]  1%|          | 562/48008 [04:56<6:30:46,  2.02it/s]  1%|          | 563/48008 [04:56<6:28:00,  2.04it/s]  1%|          | 564/48008 [04:57<6:30:26,  2.03it/s]  1%|          | 565/48008 [04:57<6:33:17,  2.01it/s]  1%|          | 566/48008 [04:58<7:14:13,  1.82it/s]  1%|          | 567/48008 [04:58<7:05:39,  1.86it/s]  1%|          | 568/48008 [04:59<7:05:10,  1.86it/s]  1%|          | 569/48008 [04:59<6:52:11,  1.92it/s]  1%|          | 570/48008 [05:00<6:42:15,  1.97it/s]  1%|          | 571/48008 [05:00<6:42:04,  1.97it/s]  1%|          | 572/48008 [05:01<6:34:58,  2.00it/s]  1%|          | 573/48008 [05:01<6:15:21,  2.11it/s]  1%|          | 574/48008 [05:02<6:21:26,  2.07it/s]  1%|          | 575/48008 [05:02<6:21:59,  2.07it/s]  1%|          | 576/48008 [05:03<6:23:41,  2.06it/s]  1%|          | 577/48008 [05:03<6:07:01,  2.15it/s]  1%|          | 578/48008 [05:04<6:12:21,  2.12it/s]  1%|          | 579/48008 [05:04<6:15:07,  2.11it/s]  1%|          | 580/48008 [05:04<6:02:24,  2.18it/s]  1%|          | 581/48008 [05:05<5:51:35,  2.25it/s]  1%|          | 582/48008 [05:05<6:14:27,  2.11it/s]  1%|          | 583/48008 [05:06<6:02:12,  2.18it/s]  1%|          | 584/48008 [05:07<6:52:59,  1.91it/s]  1%|          | 585/48008 [05:07<6:43:23,  1.96it/s]  1%|          | 586/48008 [05:08<6:35:55,  2.00it/s]  1%|          | 587/48008 [05:08<6:31:58,  2.02it/s]  1%|          | 588/48008 [05:09<6:37:43,  1.99it/s]  1%|          | 589/48008 [05:09<6:45:45,  1.95it/s]  1%|          | 590/48008 [05:10<6:41:16,  1.97it/s]  1%|          | 591/48008 [05:10<6:40:56,  1.97it/s]  1%|          | 592/48008 [05:11<6:35:35,  2.00it/s]  1%|          | 593/48008 [05:11<6:30:54,  2.02it/s]  1%|          | 594/48008 [05:12<6:43:50,  1.96it/s]  1%|          | 595/48008 [05:12<6:20:55,  2.07it/s]  1%|          | 596/48008 [05:12<6:22:24,  2.07it/s]  1%|          | 597/48008 [05:13<6:28:24,  2.03it/s]  1%|          | 598/48008 [05:13<6:27:38,  2.04it/s]  1%|          | 599/48008 [05:14<6:33:20,  2.01it/s]  1%|          | 600/48008 [05:14<6:37:53,  1.99it/s]                                                     {'loss': 5.4664, 'grad_norm': 0.29954490065574646, 'learning_rate': 0.00019750458256957175, 'epoch': 0.01}
  1%|          | 600/48008 [05:15<6:37:53,  1.99it/s]  1%|▏         | 601/48008 [05:15<6:38:29,  1.98it/s]  1%|▏         | 602/48008 [05:16<6:39:37,  1.98it/s]  1%|▏         | 603/48008 [05:16<6:47:55,  1.94it/s]  1%|▏         | 604/48008 [05:17<6:40:37,  1.97it/s]  1%|▏         | 605/48008 [05:17<7:20:34,  1.79it/s]  1%|▏         | 606/48008 [05:18<7:03:14,  1.87it/s]  1%|▏         | 607/48008 [05:18<6:34:08,  2.00it/s]  1%|▏         | 608/48008 [05:19<6:40:10,  1.97it/s]  1%|▏         | 609/48008 [05:19<6:40:50,  1.97it/s]  1%|▏         | 610/48008 [05:20<6:18:02,  2.09it/s]  1%|▏         | 611/48008 [05:20<6:19:01,  2.08it/s]  1%|▏         | 612/48008 [05:21<6:19:16,  2.08it/s]  1%|▏         | 613/48008 [05:21<5:55:33,  2.22it/s]  1%|▏         | 614/48008 [05:21<6:04:21,  2.17it/s]  1%|▏         | 615/48008 [05:22<6:14:40,  2.11it/s]  1%|▏         | 616/48008 [05:22<6:21:12,  2.07it/s]  1%|▏         | 617/48008 [05:23<6:04:41,  2.17it/s]  1%|▏         | 618/48008 [05:24<9:49:47,  1.34it/s]  1%|▏         | 619/48008 [05:25<8:33:03,  1.54it/s]  1%|▏         | 620/48008 [05:25<7:53:00,  1.67it/s]  1%|▏         | 621/48008 [05:26<7:32:59,  1.74it/s]  1%|▏         | 622/48008 [05:26<7:11:04,  1.83it/s]  1%|▏         | 623/48008 [05:27<7:01:39,  1.87it/s]  1%|▏         | 624/48008 [05:27<6:53:12,  1.91it/s]  1%|▏         | 625/48008 [05:28<6:43:14,  1.96it/s]  1%|▏         | 626/48008 [05:28<7:23:01,  1.78it/s]  1%|▏         | 627/48008 [05:29<6:48:29,  1.93it/s]  1%|▏         | 628/48008 [05:29<6:39:21,  1.98it/s]  1%|▏         | 629/48008 [05:30<6:32:42,  2.01it/s]  1%|▏         | 630/48008 [05:30<6:39:48,  1.98it/s]  1%|▏         | 631/48008 [05:31<6:33:26,  2.01it/s]  1%|▏         | 632/48008 [05:31<6:28:56,  2.03it/s]  1%|▏         | 633/48008 [05:32<7:14:37,  1.82it/s]  1%|▏         | 634/48008 [05:32<6:57:08,  1.89it/s]  1%|▏         | 635/48008 [05:33<6:30:40,  2.02it/s]  1%|▏         | 636/48008 [05:33<7:12:42,  1.82it/s]  1%|▏         | 637/48008 [05:34<6:57:11,  1.89it/s]  1%|▏         | 638/48008 [05:34<6:51:31,  1.92it/s]  1%|▏         | 639/48008 [05:35<6:40:26,  1.97it/s]  1%|▏         | 640/48008 [05:35<6:33:22,  2.01it/s]  1%|▏         | 641/48008 [05:36<6:29:54,  2.02it/s]  1%|▏         | 642/48008 [05:36<6:40:43,  1.97it/s]  1%|▏         | 643/48008 [05:37<6:39:30,  1.98it/s]  1%|▏         | 644/48008 [05:37<6:18:08,  2.09it/s]  1%|▏         | 645/48008 [05:38<6:19:19,  2.08it/s]  1%|▏         | 646/48008 [05:38<6:19:58,  2.08it/s]  1%|▏         | 647/48008 [05:39<6:19:04,  2.08it/s]  1%|▏         | 648/48008 [05:39<6:03:38,  2.17it/s]  1%|▏         | 649/48008 [05:40<5:53:50,  2.23it/s]  1%|▏         | 650/48008 [05:40<6:00:16,  2.19it/s]                                                     {'loss': 5.4028, 'grad_norm': 0.3366735875606537, 'learning_rate': 0.00019729628395267457, 'epoch': 0.01}
  1%|▏         | 650/48008 [05:40<6:00:16,  2.19it/s]  1%|▏         | 651/48008 [05:41<6:11:30,  2.12it/s]  1%|▏         | 652/48008 [05:41<6:14:36,  2.11it/s]  1%|▏         | 653/48008 [05:42<6:20:44,  2.07it/s]  1%|▏         | 654/48008 [05:42<6:20:50,  2.07it/s]  1%|▏         | 655/48008 [05:43<6:26:33,  2.04it/s]  1%|▏         | 656/48008 [05:43<6:30:27,  2.02it/s]  1%|▏         | 657/48008 [05:44<6:34:08,  2.00it/s]  1%|▏         | 658/48008 [05:44<6:14:27,  2.11it/s]  1%|▏         | 659/48008 [05:44<6:00:53,  2.19it/s]  1%|▏         | 660/48008 [05:45<6:05:52,  2.16it/s]  1%|▏         | 661/48008 [05:45<6:18:13,  2.09it/s]  1%|▏         | 662/48008 [05:46<6:19:25,  2.08it/s]  1%|▏         | 663/48008 [05:46<6:19:48,  2.08it/s]  1%|▏         | 664/48008 [05:47<6:24:06,  2.05it/s]  1%|▏         | 665/48008 [05:47<6:21:57,  2.07it/s]  1%|▏         | 666/48008 [05:48<6:06:41,  2.15it/s]  1%|▏         | 667/48008 [05:48<6:09:40,  2.13it/s]  1%|▏         | 668/48008 [05:49<6:16:56,  2.09it/s]  1%|▏         | 669/48008 [05:49<6:23:24,  2.06it/s]  1%|▏         | 670/48008 [05:50<6:21:50,  2.07it/s]  1%|▏         | 671/48008 [05:50<6:20:48,  2.07it/s]  1%|▏         | 672/48008 [05:51<6:26:15,  2.04it/s]  1%|▏         | 673/48008 [05:51<6:09:05,  2.14it/s]  1%|▏         | 674/48008 [05:52<6:18:30,  2.08it/s]  1%|▏         | 675/48008 [05:52<6:23:14,  2.06it/s]  1%|▏         | 676/48008 [05:53<6:27:45,  2.03it/s]  1%|▏         | 677/48008 [05:53<6:31:00,  2.02it/s]  1%|▏         | 678/48008 [05:54<6:33:28,  2.00it/s]  1%|▏         | 679/48008 [05:54<6:29:11,  2.03it/s]  1%|▏         | 680/48008 [05:55<6:26:28,  2.04it/s]  1%|▏         | 681/48008 [05:55<6:29:56,  2.02it/s]  1%|▏         | 682/48008 [05:56<6:26:27,  2.04it/s]  1%|▏         | 683/48008 [05:56<6:24:25,  2.05it/s]  1%|▏         | 684/48008 [05:57<6:24:27,  2.05it/s]  1%|▏         | 685/48008 [05:57<7:09:26,  1.84it/s]  1%|▏         | 686/48008 [05:58<6:59:48,  1.88it/s]  1%|▏         | 687/48008 [05:58<6:51:55,  1.91it/s]  1%|▏         | 688/48008 [05:59<6:41:00,  1.97it/s]  1%|▏         | 689/48008 [05:59<6:38:53,  1.98it/s]  1%|▏         | 690/48008 [06:00<6:31:23,  2.01it/s]  1%|▏         | 691/48008 [06:00<6:12:23,  2.12it/s]  1%|▏         | 692/48008 [06:01<6:23:08,  2.06it/s]  1%|▏         | 693/48008 [06:02<9:24:12,  1.40it/s]  1%|▏         | 694/48008 [06:02<8:33:03,  1.54it/s]  1%|▏         | 695/48008 [06:03<7:53:05,  1.67it/s]  1%|▏         | 696/48008 [06:03<7:29:06,  1.76it/s]  1%|▏         | 697/48008 [06:04<7:08:16,  1.84it/s]  1%|▏         | 698/48008 [06:04<6:54:01,  1.90it/s]  1%|▏         | 699/48008 [06:05<6:49:14,  1.93it/s]  1%|▏         | 700/48008 [06:05<6:53:15,  1.91it/s]                                                     {'loss': 5.4045, 'grad_norm': 0.3739864230155945, 'learning_rate': 0.00019708798533577736, 'epoch': 0.01}  1%|▏         | 700/48008 [06:05<6:53:15,  1.91it/s]
  1%|▏         | 701/48008 [06:06<6:49:38,  1.92it/s]  1%|▏         | 702/48008 [06:06<6:24:51,  2.05it/s]  1%|▏         | 703/48008 [06:07<6:27:29,  2.03it/s]  1%|▏         | 704/48008 [06:07<6:25:11,  2.05it/s]  1%|▏         | 705/48008 [06:08<6:28:57,  2.03it/s]  1%|▏         | 706/48008 [06:08<6:37:11,  1.98it/s]  1%|▏         | 707/48008 [06:09<6:31:37,  2.01it/s]  1%|▏         | 708/48008 [06:09<6:27:07,  2.04it/s]  1%|▏         | 709/48008 [06:10<6:28:47,  2.03it/s]  1%|▏         | 710/48008 [06:11<9:29:34,  1.38it/s]  1%|▏         | 711/48008 [06:11<8:33:48,  1.53it/s]  1%|▏         | 712/48008 [06:12<7:57:47,  1.65it/s]  1%|▏         | 713/48008 [06:12<7:34:21,  1.73it/s]  1%|▏         | 714/48008 [06:13<7:10:38,  1.83it/s]  1%|▏         | 715/48008 [06:13<7:00:37,  1.87it/s]  1%|▏         | 716/48008 [06:14<6:33:13,  2.00it/s]  1%|▏         | 717/48008 [06:15<7:13:32,  1.82it/s]  1%|▏         | 718/48008 [06:15<6:43:11,  1.95it/s]  1%|▏         | 719/48008 [06:15<6:12:08,  2.12it/s]  1%|▏         | 720/48008 [06:16<6:18:15,  2.08it/s]  2%|▏         | 721/48008 [06:16<6:03:29,  2.17it/s]  2%|▏         | 722/48008 [06:17<6:14:00,  2.11it/s]  2%|▏         | 723/48008 [06:18<9:17:54,  1.41it/s]  2%|▏         | 724/48008 [06:18<8:25:02,  1.56it/s]  2%|▏         | 725/48008 [06:19<7:31:23,  1.75it/s]  2%|▏         | 726/48008 [06:20<7:54:44,  1.66it/s]  2%|▏         | 727/48008 [06:20<7:34:19,  1.73it/s]  2%|▏         | 728/48008 [06:21<7:11:43,  1.83it/s]  2%|▏         | 729/48008 [06:21<6:56:18,  1.89it/s]  2%|▏         | 730/48008 [06:22<6:45:44,  1.94it/s]  2%|▏         | 731/48008 [06:22<6:51:34,  1.91it/s]  2%|▏         | 732/48008 [06:23<6:41:04,  1.96it/s]  2%|▏         | 733/48008 [06:23<6:34:09,  2.00it/s]  2%|▏         | 734/48008 [06:24<6:34:58,  1.99it/s]  2%|▏         | 735/48008 [06:24<6:30:25,  2.02it/s]  2%|▏         | 736/48008 [06:25<6:36:25,  1.99it/s]  2%|▏         | 737/48008 [06:25<6:31:20,  2.01it/s]  2%|▏         | 738/48008 [06:26<6:28:47,  2.03it/s]  2%|▏         | 739/48008 [06:26<6:09:47,  2.13it/s]  2%|▏         | 740/48008 [06:26<6:12:56,  2.11it/s]  2%|▏         | 741/48008 [06:27<6:29:48,  2.02it/s]  2%|▏         | 742/48008 [06:27<6:11:39,  2.12it/s]  2%|▏         | 743/48008 [06:28<6:13:24,  2.11it/s]  2%|▏         | 744/48008 [06:28<5:58:54,  2.19it/s]  2%|▏         | 745/48008 [06:29<5:49:49,  2.25it/s]  2%|▏         | 746/48008 [06:29<6:07:36,  2.14it/s]  2%|▏         | 747/48008 [06:30<6:11:09,  2.12it/s]  2%|▏         | 748/48008 [06:30<5:58:09,  2.20it/s]  2%|▏         | 749/48008 [06:31<6:02:58,  2.17it/s]  2%|▏         | 750/48008 [06:31<6:13:56,  2.11it/s]                                                     {'loss': 5.369, 'grad_norm': 0.4182368218898773, 'learning_rate': 0.0001968796867188802, 'epoch': 0.02}  2%|▏         | 750/48008 [06:31<6:13:56,  2.11it/s]
  2%|▏         | 751/48008 [06:32<6:15:48,  2.10it/s]  2%|▏         | 752/48008 [06:32<6:17:06,  2.09it/s]  2%|▏         | 753/48008 [06:33<6:22:19,  2.06it/s]  2%|▏         | 754/48008 [06:33<6:22:28,  2.06it/s]  2%|▏         | 755/48008 [06:34<7:06:14,  1.85it/s]  2%|▏         | 756/48008 [06:34<6:50:46,  1.92it/s]  2%|▏         | 757/48008 [06:35<6:49:06,  1.92it/s]  2%|▏         | 758/48008 [06:35<6:54:43,  1.90it/s]  2%|▏         | 759/48008 [06:36<6:44:36,  1.95it/s]  2%|▏         | 760/48008 [06:36<6:20:46,  2.07it/s]  2%|▏         | 761/48008 [06:37<6:21:16,  2.07it/s]  2%|▏         | 762/48008 [06:37<6:21:12,  2.07it/s]  2%|▏         | 763/48008 [06:38<6:24:28,  2.05it/s]  2%|▏         | 764/48008 [06:38<6:21:56,  2.06it/s]  2%|▏         | 765/48008 [06:39<6:26:54,  2.04it/s]  2%|▏         | 766/48008 [06:39<6:30:14,  2.02it/s]  2%|▏         | 767/48008 [06:40<6:12:11,  2.12it/s]  2%|▏         | 768/48008 [06:40<6:18:50,  2.08it/s]  2%|▏         | 769/48008 [06:40<6:18:15,  2.08it/s]  2%|▏         | 770/48008 [06:41<6:18:17,  2.08it/s]  2%|▏         | 771/48008 [06:41<6:23:38,  2.05it/s]  2%|▏         | 772/48008 [06:42<6:29:45,  2.02it/s]  2%|▏         | 773/48008 [06:42<6:25:39,  2.04it/s]  2%|▏         | 774/48008 [06:43<6:25:06,  2.04it/s]  2%|▏         | 775/48008 [06:44<7:08:45,  1.84it/s]  2%|▏         | 776/48008 [06:44<6:54:46,  1.90it/s]  2%|▏         | 777/48008 [06:45<6:44:59,  1.94it/s]  2%|▏         | 778/48008 [06:45<6:13:34,  2.11it/s]  2%|▏         | 779/48008 [06:45<6:14:42,  2.10it/s]  2%|▏         | 780/48008 [06:46<5:59:38,  2.19it/s]  2%|▏         | 781/48008 [06:46<6:05:52,  2.15it/s]  2%|▏         | 782/48008 [06:47<6:10:08,  2.13it/s]  2%|▏         | 783/48008 [06:47<6:12:16,  2.11it/s]  2%|▏         | 784/48008 [06:48<6:20:43,  2.07it/s]  2%|▏         | 785/48008 [06:48<6:05:01,  2.16it/s]  2%|▏         | 786/48008 [06:49<5:54:32,  2.22it/s]  2%|▏         | 787/48008 [06:49<5:46:54,  2.27it/s]  2%|▏         | 788/48008 [06:50<5:57:17,  2.20it/s]  2%|▏         | 789/48008 [06:50<6:09:56,  2.13it/s]  2%|▏         | 790/48008 [06:51<6:12:56,  2.11it/s]  2%|▏         | 791/48008 [06:51<5:59:35,  2.19it/s]  2%|▏         | 792/48008 [06:51<6:10:58,  2.12it/s]  2%|▏         | 793/48008 [06:52<6:13:36,  2.11it/s]  2%|▏         | 794/48008 [06:52<6:00:01,  2.19it/s]  2%|▏         | 795/48008 [06:53<6:05:03,  2.16it/s]  2%|▏         | 796/48008 [06:53<6:09:11,  2.13it/s]  2%|▏         | 797/48008 [06:54<6:57:35,  1.88it/s]  2%|▏         | 798/48008 [06:54<6:46:25,  1.94it/s]  2%|▏         | 799/48008 [06:55<6:42:15,  1.96it/s]  2%|▏         | 800/48008 [06:55<6:35:13,  1.99it/s]                                                     {'loss': 5.3061, 'grad_norm': 0.4630115330219269, 'learning_rate': 0.00019667138810198302, 'epoch': 0.02}
  2%|▏         | 800/48008 [06:55<6:35:13,  1.99it/s]  2%|▏         | 801/48008 [06:56<6:39:28,  1.97it/s]  2%|▏         | 802/48008 [06:57<7:20:38,  1.79it/s]  2%|▏         | 803/48008 [06:57<7:02:19,  1.86it/s]  2%|▏         | 804/48008 [06:58<6:50:46,  1.92it/s]  2%|▏         | 805/48008 [06:58<7:25:26,  1.77it/s]  2%|▏         | 806/48008 [06:59<7:15:17,  1.81it/s]  2%|▏         | 807/48008 [07:00<7:42:51,  1.70it/s]  2%|▏         | 808/48008 [07:00<7:22:07,  1.78it/s]  2%|▏         | 809/48008 [07:01<7:14:30,  1.81it/s]  2%|▏         | 810/48008 [07:01<7:02:04,  1.86it/s]  2%|▏         | 811/48008 [07:02<7:03:19,  1.86it/s]  2%|▏         | 812/48008 [07:02<6:58:01,  1.88it/s]  2%|▏         | 813/48008 [07:03<6:54:29,  1.90it/s]  2%|▏         | 814/48008 [07:03<6:52:05,  1.91it/s]  2%|▏         | 815/48008 [07:04<6:55:21,  1.89it/s]  2%|▏         | 816/48008 [07:04<6:29:04,  2.02it/s]  2%|▏         | 817/48008 [07:04<6:08:45,  2.13it/s]  2%|▏         | 818/48008 [07:05<5:48:24,  2.26it/s]  2%|▏         | 819/48008 [07:05<6:02:22,  2.17it/s]  2%|▏         | 820/48008 [07:06<5:50:33,  2.24it/s]  2%|▏         | 821/48008 [07:06<5:57:44,  2.20it/s]  2%|▏         | 822/48008 [07:07<6:04:36,  2.16it/s]  2%|▏         | 823/48008 [07:07<5:52:15,  2.23it/s]  2%|▏         | 824/48008 [07:08<5:59:58,  2.18it/s]  2%|▏         | 825/48008 [07:08<6:14:19,  2.10it/s]  2%|▏         | 826/48008 [07:09<6:21:06,  2.06it/s]  2%|▏         | 827/48008 [07:09<6:21:15,  2.06it/s]  2%|▏         | 828/48008 [07:10<6:30:03,  2.02it/s]  2%|▏         | 829/48008 [07:10<6:26:45,  2.03it/s]  2%|▏         | 830/48008 [07:11<6:25:53,  2.04it/s]  2%|▏         | 831/48008 [07:11<7:07:57,  1.84it/s]  2%|▏         | 832/48008 [07:13<9:54:14,  1.32it/s]  2%|▏         | 833/48008 [07:13<8:48:44,  1.49it/s]  2%|▏         | 834/48008 [07:14<8:49:39,  1.48it/s]  2%|▏         | 835/48008 [07:14<8:17:33,  1.58it/s]  2%|▏         | 836/48008 [07:15<7:41:46,  1.70it/s]  2%|▏         | 837/48008 [07:15<7:15:27,  1.81it/s]  2%|▏         | 838/48008 [07:16<7:05:15,  1.85it/s]  2%|▏         | 839/48008 [07:17<9:51:13,  1.33it/s]  2%|▏         | 840/48008 [07:17<8:31:32,  1.54it/s]  2%|▏         | 841/48008 [07:18<7:36:46,  1.72it/s]  2%|▏         | 842/48008 [07:18<7:23:12,  1.77it/s]  2%|▏         | 843/48008 [07:19<7:05:07,  1.85it/s]  2%|▏         | 844/48008 [07:19<6:50:12,  1.92it/s]  2%|▏         | 845/48008 [07:20<6:25:16,  2.04it/s]  2%|▏         | 846/48008 [07:20<6:28:35,  2.02it/s]  2%|▏         | 847/48008 [07:21<6:25:04,  2.04it/s]  2%|▏         | 848/48008 [07:21<6:21:48,  2.06it/s]  2%|▏         | 849/48008 [07:22<6:27:42,  2.03it/s]  2%|▏         | 850/48008 [07:22<6:25:38,  2.04it/s]                                                     {'loss': 5.2935, 'grad_norm': 0.5238637924194336, 'learning_rate': 0.00019646308948508584, 'epoch': 0.02}
  2%|▏         | 850/48008 [07:22<6:25:38,  2.04it/s]  2%|▏         | 851/48008 [07:23<6:24:05,  2.05it/s]  2%|▏         | 852/48008 [07:23<6:27:28,  2.03it/s]  2%|▏         | 853/48008 [07:24<6:29:28,  2.02it/s]  2%|▏         | 854/48008 [07:24<6:25:28,  2.04it/s]  2%|▏         | 855/48008 [07:25<7:08:18,  1.83it/s]  2%|▏         | 856/48008 [07:25<6:54:37,  1.90it/s]  2%|▏         | 857/48008 [07:26<6:45:05,  1.94it/s]  2%|▏         | 858/48008 [07:26<6:36:39,  1.98it/s]  2%|▏         | 859/48008 [07:27<6:29:37,  2.02it/s]  2%|▏         | 860/48008 [07:27<6:27:54,  2.03it/s]  2%|▏         | 861/48008 [07:28<6:25:58,  2.04it/s]  2%|▏         | 862/48008 [07:28<6:25:07,  2.04it/s]  2%|▏         | 863/48008 [07:29<6:32:18,  2.00it/s]  2%|▏         | 864/48008 [07:29<6:26:56,  2.03it/s]  2%|▏         | 865/48008 [07:30<6:34:37,  1.99it/s]  2%|▏         | 866/48008 [07:30<6:14:32,  2.10it/s]  2%|▏         | 867/48008 [07:31<6:00:32,  2.18it/s]  2%|▏         | 868/48008 [07:31<6:10:09,  2.12it/s]  2%|▏         | 869/48008 [07:32<6:13:14,  2.10it/s]  2%|▏         | 870/48008 [07:32<6:14:22,  2.10it/s]  2%|▏         | 871/48008 [07:33<6:19:36,  2.07it/s]  2%|▏         | 872/48008 [07:33<6:32:01,  2.00it/s]  2%|▏         | 873/48008 [07:34<6:32:29,  2.00it/s]  2%|▏         | 874/48008 [07:34<6:32:50,  2.00it/s]  2%|▏         | 875/48008 [07:35<6:38:05,  1.97it/s]  2%|▏         | 876/48008 [07:35<6:44:53,  1.94it/s]  2%|▏         | 877/48008 [07:36<6:21:47,  2.06it/s]  2%|▏         | 878/48008 [07:36<6:05:19,  2.15it/s]  2%|▏         | 879/48008 [07:36<6:08:08,  2.13it/s]  2%|▏         | 880/48008 [07:37<6:18:47,  2.07it/s]  2%|▏         | 881/48008 [07:37<6:18:54,  2.07it/s]  2%|▏         | 882/48008 [07:38<6:19:06,  2.07it/s]  2%|▏         | 883/48008 [07:38<6:17:39,  2.08it/s]  2%|▏         | 884/48008 [07:39<6:16:09,  2.09it/s]  2%|▏         | 885/48008 [07:39<6:16:46,  2.08it/s]  2%|▏         | 886/48008 [07:40<6:31:22,  2.01it/s]  2%|▏         | 887/48008 [07:40<6:12:01,  2.11it/s]  2%|▏         | 888/48008 [07:41<6:18:04,  2.08it/s]  2%|▏         | 889/48008 [07:41<6:18:26,  2.08it/s]  2%|▏         | 890/48008 [07:42<6:19:27,  2.07it/s]  2%|▏         | 891/48008 [07:42<6:04:00,  2.16it/s]  2%|▏         | 892/48008 [07:43<6:54:35,  1.89it/s]  2%|▏         | 893/48008 [07:43<6:51:57,  1.91it/s]  2%|▏         | 894/48008 [07:44<6:26:57,  2.03it/s]  2%|▏         | 895/48008 [07:44<6:24:07,  2.04it/s]  2%|▏         | 896/48008 [07:45<6:07:15,  2.14it/s]  2%|▏         | 897/48008 [07:45<6:11:37,  2.11it/s]  2%|▏         | 898/48008 [07:46<6:20:14,  2.06it/s]  2%|▏         | 899/48008 [07:46<7:04:09,  1.85it/s]  2%|▏         | 900/48008 [07:47<6:50:19,  1.91it/s]                                                     {'loss': 5.2042, 'grad_norm': 0.678560197353363, 'learning_rate': 0.00019625479086818866, 'epoch': 0.02}
  2%|▏         | 900/48008 [07:47<6:50:19,  1.91it/s]  2%|▏         | 901/48008 [07:47<6:41:49,  1.95it/s]  2%|▏         | 902/48008 [07:48<6:19:26,  2.07it/s]  2%|▏         | 903/48008 [07:48<6:20:38,  2.06it/s]  2%|▏         | 904/48008 [07:49<6:05:07,  2.15it/s]  2%|▏         | 905/48008 [07:49<6:13:02,  2.10it/s]  2%|▏         | 906/48008 [07:50<6:19:02,  2.07it/s]  2%|▏         | 907/48008 [07:50<6:18:37,  2.07it/s]  2%|▏         | 908/48008 [07:51<6:18:30,  2.07it/s]  2%|▏         | 909/48008 [07:51<6:18:51,  2.07it/s]  2%|▏         | 910/48008 [07:52<6:19:31,  2.07it/s]  2%|▏         | 911/48008 [07:52<6:18:56,  2.07it/s]  2%|▏         | 912/48008 [07:53<6:18:07,  2.08it/s]  2%|▏         | 913/48008 [07:53<6:18:31,  2.07it/s]  2%|▏         | 914/48008 [07:54<7:05:06,  1.85it/s]  2%|▏         | 915/48008 [07:54<6:57:31,  1.88it/s]  2%|▏         | 916/48008 [07:55<6:45:33,  1.94it/s]  2%|▏         | 917/48008 [07:55<6:46:31,  1.93it/s]  2%|▏         | 918/48008 [07:56<6:39:58,  1.96it/s]  2%|▏         | 919/48008 [07:56<6:37:46,  1.97it/s]  2%|▏         | 920/48008 [07:57<6:38:31,  1.97it/s]  2%|▏         | 921/48008 [07:57<6:37:00,  1.98it/s]  2%|▏         | 922/48008 [07:58<6:36:48,  1.98it/s]  2%|▏         | 923/48008 [07:58<6:45:03,  1.94it/s]  2%|▏         | 924/48008 [07:59<6:36:08,  1.98it/s]  2%|▏         | 925/48008 [07:59<6:31:14,  2.01it/s]  2%|▏         | 926/48008 [08:00<6:26:12,  2.03it/s]  2%|▏         | 927/48008 [08:00<6:00:26,  2.18it/s]  2%|▏         | 928/48008 [08:01<6:12:02,  2.11it/s]  2%|▏         | 929/48008 [08:01<6:18:46,  2.07it/s]  2%|▏         | 930/48008 [08:02<6:18:40,  2.07it/s]  2%|▏         | 931/48008 [08:02<6:18:40,  2.07it/s]  2%|▏         | 932/48008 [08:03<6:22:15,  2.05it/s]  2%|▏         | 933/48008 [08:03<6:34:34,  1.99it/s]  2%|▏         | 934/48008 [08:04<6:37:40,  1.97it/s]  2%|▏         | 935/48008 [08:04<6:16:03,  2.09it/s]  2%|▏         | 936/48008 [08:04<6:01:37,  2.17it/s]  2%|▏         | 937/48008 [08:05<6:53:46,  1.90it/s]  2%|▏         | 938/48008 [08:06<6:44:20,  1.94it/s]  2%|▏         | 939/48008 [08:06<6:41:25,  1.95it/s]  2%|▏         | 940/48008 [08:07<6:19:19,  2.07it/s]  2%|▏         | 941/48008 [08:07<6:27:39,  2.02it/s]  2%|▏         | 942/48008 [08:08<6:32:45,  2.00it/s]  2%|▏         | 943/48008 [08:08<7:14:08,  1.81it/s]  2%|▏         | 944/48008 [08:09<7:02:10,  1.86it/s]  2%|▏         | 945/48008 [08:10<9:49:04,  1.33it/s]  2%|▏         | 946/48008 [08:11<11:45:48,  1.11it/s]  2%|▏         | 947/48008 [08:12<9:52:01,  1.32it/s]   2%|▏         | 948/48008 [08:12<8:47:22,  1.49it/s]  2%|▏         | 949/48008 [08:13<8:03:54,  1.62it/s]  2%|▏         | 950/48008 [08:13<7:41:17,  1.70it/s]                                                     {'loss': 5.2116, 'grad_norm': 0.6179952025413513, 'learning_rate': 0.00019604649225129145, 'epoch': 0.02}  2%|▏         | 950/48008 [08:13<7:41:17,  1.70it/s]
  2%|▏         | 951/48008 [08:14<7:23:38,  1.77it/s]  2%|▏         | 952/48008 [08:14<7:10:31,  1.82it/s]  2%|▏         | 953/48008 [08:15<7:03:37,  1.85it/s]  2%|▏         | 954/48008 [08:15<6:35:17,  1.98it/s]  2%|▏         | 955/48008 [08:16<6:34:37,  1.99it/s]  2%|▏         | 956/48008 [08:16<6:34:53,  1.99it/s]  2%|▏         | 957/48008 [08:17<6:14:00,  2.10it/s]  2%|▏         | 958/48008 [08:17<6:21:06,  2.06it/s]  2%|▏         | 959/48008 [08:18<6:24:23,  2.04it/s]  2%|▏         | 960/48008 [08:18<6:27:10,  2.03it/s]  2%|▏         | 961/48008 [08:19<6:29:17,  2.01it/s]  2%|▏         | 962/48008 [08:19<6:34:19,  1.99it/s]  2%|▏         | 963/48008 [08:20<6:30:23,  2.01it/s]  2%|▏         | 964/48008 [08:20<6:27:11,  2.03it/s]  2%|▏         | 965/48008 [08:20<6:08:35,  2.13it/s]  2%|▏         | 966/48008 [08:21<6:12:42,  2.10it/s]  2%|▏         | 967/48008 [08:21<5:59:57,  2.18it/s]  2%|▏         | 968/48008 [08:22<6:09:33,  2.12it/s]  2%|▏         | 969/48008 [08:22<6:11:57,  2.11it/s]  2%|▏         | 970/48008 [08:23<6:14:37,  2.09it/s]  2%|▏         | 971/48008 [08:23<6:14:37,  2.09it/s]  2%|▏         | 972/48008 [08:24<6:24:25,  2.04it/s]  2%|▏         | 973/48008 [08:24<6:07:08,  2.14it/s]  2%|▏         | 974/48008 [08:25<6:10:06,  2.12it/s]  2%|▏         | 975/48008 [08:25<6:18:31,  2.07it/s]  2%|▏         | 976/48008 [08:26<6:33:07,  1.99it/s]  2%|▏         | 977/48008 [08:26<6:37:52,  1.97it/s]  2%|▏         | 978/48008 [08:27<6:31:44,  2.00it/s]  2%|▏         | 979/48008 [08:27<6:28:16,  2.02it/s]  2%|▏         | 980/48008 [08:28<6:23:53,  2.04it/s]  2%|▏         | 981/48008 [08:28<6:21:23,  2.06it/s]  2%|▏         | 982/48008 [08:29<6:28:25,  2.02it/s]  2%|▏         | 983/48008 [08:29<6:25:40,  2.03it/s]  2%|▏         | 984/48008 [08:30<6:27:50,  2.02it/s]  2%|▏         | 985/48008 [08:30<6:09:42,  2.12it/s]  2%|▏         | 986/48008 [08:31<7:45:35,  1.68it/s]  2%|▏         | 987/48008 [08:31<7:19:40,  1.78it/s]  2%|▏         | 988/48008 [08:32<7:06:35,  1.84it/s]  2%|▏         | 989/48008 [08:33<7:05:48,  1.84it/s]  2%|▏         | 990/48008 [08:33<6:50:31,  1.91it/s]  2%|▏         | 991/48008 [08:33<6:24:44,  2.04it/s]  2%|▏         | 992/48008 [08:34<6:27:50,  2.02it/s]  2%|▏         | 993/48008 [08:34<6:33:18,  1.99it/s]  2%|▏         | 994/48008 [08:35<7:13:11,  1.81it/s]  2%|▏         | 995/48008 [08:36<6:55:05,  1.89it/s]  2%|▏         | 996/48008 [08:36<6:53:22,  1.90it/s]  2%|▏         | 997/48008 [08:37<6:43:30,  1.94it/s]  2%|▏         | 998/48008 [08:37<6:41:25,  1.95it/s]  2%|▏         | 999/48008 [08:38<6:39:42,  1.96it/s]  2%|▏         | 1000/48008 [08:38<6:37:03,  1.97it/s]                                                      {'loss': 5.1677, 'grad_norm': 0.6716349720954895, 'learning_rate': 0.0001958381936343943, 'epoch': 0.02}
  2%|▏         | 1000/48008 [08:38<6:37:03,  1.97it/s]  2%|▏         | 1001/48008 [08:39<6:30:45,  2.00it/s]  2%|▏         | 1002/48008 [08:39<6:32:17,  2.00it/s]  2%|▏         | 1003/48008 [08:40<6:12:44,  2.10it/s]  2%|▏         | 1004/48008 [08:40<6:22:28,  2.05it/s]  2%|▏         | 1005/48008 [08:41<6:30:42,  2.01it/s]  2%|▏         | 1006/48008 [08:41<6:36:17,  1.98it/s]  2%|▏         | 1007/48008 [08:42<6:15:05,  2.09it/s]  2%|▏         | 1008/48008 [08:42<6:15:41,  2.09it/s]  2%|▏         | 1009/48008 [08:42<6:20:27,  2.06it/s]  2%|▏         | 1010/48008 [08:43<6:03:39,  2.15it/s]  2%|▏         | 1011/48008 [08:43<6:13:29,  2.10it/s]  2%|▏         | 1012/48008 [08:44<6:15:05,  2.09it/s]  2%|▏         | 1013/48008 [08:44<6:30:32,  2.01it/s]  2%|▏         | 1014/48008 [08:45<6:36:12,  1.98it/s]  2%|▏         | 1015/48008 [08:46<6:45:42,  1.93it/s]  2%|▏         | 1016/48008 [08:46<6:41:46,  1.95it/s]  2%|▏         | 1017/48008 [08:47<6:44:37,  1.94it/s]  2%|▏         | 1018/48008 [08:47<6:41:20,  1.95it/s]  2%|▏         | 1019/48008 [08:48<6:38:21,  1.97it/s]  2%|▏         | 1020/48008 [08:48<6:31:54,  2.00it/s]  2%|▏         | 1021/48008 [08:48<6:27:01,  2.02it/s]  2%|▏         | 1022/48008 [08:49<6:28:49,  2.01it/s]  2%|▏         | 1023/48008 [08:50<6:30:50,  2.00it/s]  2%|▏         | 1024/48008 [08:50<6:27:35,  2.02it/s]  2%|▏         | 1025/48008 [08:50<6:23:30,  2.04it/s]  2%|▏         | 1026/48008 [08:51<6:05:59,  2.14it/s]  2%|▏         | 1027/48008 [08:51<6:18:26,  2.07it/s]  2%|▏         | 1028/48008 [08:52<6:17:31,  2.07it/s]  2%|▏         | 1029/48008 [08:52<6:00:46,  2.17it/s]  2%|▏         | 1030/48008 [08:53<5:50:14,  2.24it/s]  2%|▏         | 1031/48008 [08:53<5:42:06,  2.29it/s]  2%|▏         | 1032/48008 [08:54<5:58:18,  2.19it/s]  2%|▏         | 1033/48008 [08:54<6:10:07,  2.12it/s]  2%|▏         | 1034/48008 [08:55<9:14:02,  1.41it/s]  2%|▏         | 1035/48008 [08:56<8:34:11,  1.52it/s]  2%|▏         | 1036/48008 [08:56<7:52:29,  1.66it/s]  2%|▏         | 1037/48008 [08:57<7:08:31,  1.83it/s]  2%|▏         | 1038/48008 [08:57<6:37:18,  1.97it/s]  2%|▏         | 1039/48008 [08:58<6:40:06,  1.96it/s]  2%|▏         | 1040/48008 [08:58<6:33:26,  1.99it/s]  2%|▏         | 1041/48008 [08:59<6:27:05,  2.02it/s]  2%|▏         | 1042/48008 [08:59<6:08:34,  2.12it/s]  2%|▏         | 1043/48008 [09:00<6:15:59,  2.08it/s]  2%|▏         | 1044/48008 [09:00<6:16:25,  2.08it/s]  2%|▏         | 1045/48008 [09:01<6:30:17,  2.01it/s]  2%|▏         | 1046/48008 [09:01<6:25:42,  2.03it/s]  2%|▏         | 1047/48008 [09:02<6:23:03,  2.04it/s]  2%|▏         | 1048/48008 [09:02<6:05:58,  2.14it/s]  2%|▏         | 1049/48008 [09:03<6:07:44,  2.13it/s]  2%|▏         | 1050/48008 [09:03<6:09:49,  2.12it/s]                                                      {'loss': 5.1239, 'grad_norm': 0.7104047536849976, 'learning_rate': 0.00019562989501749708, 'epoch': 0.02}  2%|▏         | 1050/48008 [09:03<6:09:49,  2.12it/s]
  2%|▏         | 1051/48008 [09:03<6:12:04,  2.10it/s]  2%|▏         | 1052/48008 [09:04<6:14:35,  2.09it/s]  2%|▏         | 1053/48008 [09:04<6:00:04,  2.17it/s]  2%|▏         | 1054/48008 [09:05<6:15:19,  2.09it/s]  2%|▏         | 1055/48008 [09:05<6:21:13,  2.05it/s]  2%|▏         | 1056/48008 [09:06<6:04:52,  2.14it/s]  2%|▏         | 1057/48008 [09:06<6:18:07,  2.07it/s]  2%|▏         | 1058/48008 [09:07<6:23:51,  2.04it/s]  2%|▏         | 1059/48008 [09:07<6:27:31,  2.02it/s]  2%|▏         | 1060/48008 [09:08<6:23:15,  2.04it/s]  2%|▏         | 1061/48008 [09:08<6:25:49,  2.03it/s]  2%|▏         | 1062/48008 [09:09<6:31:18,  2.00it/s]  2%|▏         | 1063/48008 [09:09<6:11:59,  2.10it/s]  2%|▏         | 1064/48008 [09:10<5:58:21,  2.18it/s]  2%|▏         | 1065/48008 [09:11<8:31:33,  1.53it/s]  2%|▏         | 1066/48008 [09:11<7:56:52,  1.64it/s]  2%|▏         | 1067/48008 [09:12<8:11:53,  1.59it/s]  2%|▏         | 1068/48008 [09:12<7:37:46,  1.71it/s]  2%|▏         | 1069/48008 [09:13<7:18:16,  1.78it/s]  2%|▏         | 1070/48008 [09:13<7:04:25,  1.84it/s]  2%|▏         | 1071/48008 [09:14<7:01:07,  1.86it/s]  2%|▏         | 1072/48008 [09:15<7:32:22,  1.73it/s]  2%|▏         | 1073/48008 [09:15<7:19:38,  1.78it/s]  2%|▏         | 1074/48008 [09:16<6:59:23,  1.87it/s]  2%|▏         | 1075/48008 [09:16<6:47:00,  1.92it/s]  2%|▏         | 1076/48008 [09:17<6:38:07,  1.96it/s]  2%|▏         | 1077/48008 [09:17<6:36:12,  1.97it/s]  2%|▏         | 1078/48008 [09:18<6:29:15,  2.01it/s]  2%|▏         | 1079/48008 [09:18<6:25:37,  2.03it/s]  2%|▏         | 1080/48008 [09:19<7:07:42,  1.83it/s]  2%|▏         | 1081/48008 [09:19<6:57:00,  1.88it/s]  2%|▏         | 1082/48008 [09:20<6:59:18,  1.87it/s]  2%|▏         | 1083/48008 [09:21<9:45:48,  1.34it/s]  2%|▏         | 1084/48008 [09:22<9:28:36,  1.38it/s]  2%|▏         | 1085/48008 [09:22<8:15:53,  1.58it/s]  2%|▏         | 1086/48008 [09:23<8:25:30,  1.55it/s]  2%|▏         | 1087/48008 [09:23<7:52:15,  1.66it/s]  2%|▏         | 1088/48008 [09:24<7:22:56,  1.77it/s]  2%|▏         | 1089/48008 [09:24<7:15:30,  1.80it/s]  2%|▏         | 1090/48008 [09:25<7:03:30,  1.85it/s]  2%|▏         | 1091/48008 [09:26<8:22:16,  1.56it/s]  2%|▏         | 1092/48008 [09:26<7:57:34,  1.64it/s]  2%|▏         | 1093/48008 [09:27<7:26:01,  1.75it/s]  2%|▏         | 1094/48008 [09:27<7:11:27,  1.81it/s]  2%|▏         | 1095/48008 [09:28<6:55:44,  1.88it/s]  2%|▏         | 1096/48008 [09:28<6:42:19,  1.94it/s]  2%|▏         | 1097/48008 [09:29<6:34:57,  1.98it/s]  2%|▏         | 1098/48008 [09:29<6:35:14,  1.98it/s]  2%|▏         | 1099/48008 [09:30<6:34:00,  1.98it/s]  2%|▏         | 1100/48008 [09:30<6:41:43,  1.95it/s]                                                      {'loss': 5.0938, 'grad_norm': 0.7452295422554016, 'learning_rate': 0.00019542159640059992, 'epoch': 0.02}  2%|▏         | 1100/48008 [09:30<6:41:43,  1.95it/s]
  2%|▏         | 1101/48008 [09:31<6:34:01,  1.98it/s]  2%|▏         | 1102/48008 [09:31<6:28:19,  2.01it/s]  2%|▏         | 1103/48008 [09:32<6:25:26,  2.03it/s]  2%|▏         | 1104/48008 [09:32<6:30:32,  2.00it/s]  2%|▏         | 1105/48008 [09:33<6:26:03,  2.02it/s]  2%|▏         | 1106/48008 [09:33<6:23:09,  2.04it/s]  2%|▏         | 1107/48008 [09:34<6:30:01,  2.00it/s]  2%|▏         | 1108/48008 [09:34<6:24:47,  2.03it/s]  2%|▏         | 1109/48008 [09:35<6:21:25,  2.05it/s]  2%|▏         | 1110/48008 [09:35<6:24:53,  2.03it/s]  2%|▏         | 1111/48008 [09:36<6:22:57,  2.04it/s]  2%|▏         | 1112/48008 [09:36<6:21:30,  2.05it/s]  2%|▏         | 1113/48008 [09:37<6:20:53,  2.05it/s]  2%|▏         | 1114/48008 [09:37<6:19:06,  2.06it/s]  2%|▏         | 1115/48008 [09:38<6:18:32,  2.06it/s]  2%|▏         | 1116/48008 [09:38<6:02:56,  2.15it/s]  2%|▏         | 1117/48008 [09:38<6:07:06,  2.13it/s]  2%|▏         | 1118/48008 [09:39<6:16:26,  2.08it/s]  2%|▏         | 1119/48008 [09:39<5:59:33,  2.17it/s]  2%|▏         | 1120/48008 [09:40<6:04:04,  2.15it/s]  2%|▏         | 1121/48008 [09:40<6:07:35,  2.13it/s]  2%|▏         | 1122/48008 [09:41<6:09:33,  2.11it/s]  2%|▏         | 1123/48008 [09:41<6:55:30,  1.88it/s]  2%|▏         | 1124/48008 [09:42<6:54:31,  1.89it/s]  2%|▏         | 1125/48008 [09:42<6:43:04,  1.94it/s]  2%|▏         | 1126/48008 [09:43<6:42:42,  1.94it/s]  2%|▏         | 1127/48008 [09:43<6:35:09,  1.98it/s]  2%|▏         | 1128/48008 [09:44<8:02:46,  1.62it/s]  2%|▏         | 1129/48008 [09:45<7:30:36,  1.73it/s]  2%|▏         | 1130/48008 [09:45<6:52:40,  1.89it/s]  2%|▏         | 1131/48008 [09:46<6:41:17,  1.95it/s]  2%|▏         | 1132/48008 [09:46<6:46:39,  1.92it/s]  2%|▏         | 1133/48008 [09:47<6:37:36,  1.96it/s]  2%|▏         | 1134/48008 [09:47<6:37:07,  1.97it/s]  2%|▏         | 1135/48008 [09:49<9:30:28,  1.37it/s]  2%|▏         | 1136/48008 [09:49<8:36:47,  1.51it/s]  2%|▏         | 1137/48008 [09:49<7:55:27,  1.64it/s]  2%|▏         | 1138/48008 [09:50<7:25:01,  1.76it/s]  2%|▏         | 1139/48008 [09:50<7:04:54,  1.84it/s]  2%|▏         | 1140/48008 [09:51<6:50:20,  1.90it/s]  2%|▏         | 1141/48008 [09:51<6:39:05,  1.96it/s]  2%|▏         | 1142/48008 [09:52<7:17:25,  1.79it/s]  2%|▏         | 1143/48008 [09:53<7:04:16,  1.84it/s]  2%|▏         | 1144/48008 [09:53<7:02:55,  1.85it/s]  2%|▏         | 1145/48008 [09:54<6:49:02,  1.91it/s]  2%|▏         | 1146/48008 [09:54<6:52:03,  1.90it/s]  2%|▏         | 1147/48008 [09:55<6:46:08,  1.92it/s]  2%|▏         | 1148/48008 [09:55<6:43:13,  1.94it/s]  2%|▏         | 1149/48008 [09:56<6:40:03,  1.95it/s]  2%|▏         | 1150/48008 [09:56<6:32:53,  1.99it/s]                                                      {'loss': 5.0612, 'grad_norm': 0.9544423222541809, 'learning_rate': 0.00019521329778370271, 'epoch': 0.02}  2%|▏         | 1150/48008 [09:56<6:32:53,  1.99it/s]
  2%|▏         | 1151/48008 [09:57<6:42:13,  1.94it/s]  2%|▏         | 1152/48008 [09:57<7:20:10,  1.77it/s]  2%|▏         | 1153/48008 [09:58<6:45:00,  1.93it/s]  2%|▏         | 1154/48008 [09:58<6:42:03,  1.94it/s]  2%|▏         | 1155/48008 [09:59<6:33:33,  1.98it/s]  2%|▏         | 1156/48008 [09:59<6:35:56,  1.97it/s]  2%|▏         | 1157/48008 [10:00<6:28:56,  2.01it/s]  2%|▏         | 1158/48008 [10:00<6:29:20,  2.01it/s]  2%|▏         | 1159/48008 [10:01<6:24:53,  2.03it/s]  2%|▏         | 1160/48008 [10:01<6:07:30,  2.12it/s]  2%|▏         | 1161/48008 [10:02<6:16:11,  2.08it/s]  2%|▏         | 1162/48008 [10:02<6:16:32,  2.07it/s]  2%|▏         | 1163/48008 [10:03<5:52:44,  2.21it/s]  2%|▏         | 1164/48008 [10:03<5:44:11,  2.27it/s]  2%|▏         | 1165/48008 [10:03<5:38:44,  2.30it/s]  2%|▏         | 1166/48008 [10:04<6:02:26,  2.15it/s]  2%|▏         | 1167/48008 [10:05<9:07:58,  1.42it/s]  2%|▏         | 1168/48008 [10:06<8:21:04,  1.56it/s]  2%|▏         | 1169/48008 [10:06<7:53:43,  1.65it/s]  2%|▏         | 1170/48008 [10:07<7:30:52,  1.73it/s]  2%|▏         | 1171/48008 [10:07<7:08:04,  1.82it/s]  2%|▏         | 1172/48008 [10:08<6:36:09,  1.97it/s]  2%|▏         | 1173/48008 [10:08<6:35:48,  1.97it/s]  2%|▏         | 1174/48008 [10:09<6:35:09,  1.98it/s]  2%|▏         | 1175/48008 [10:09<6:35:21,  1.97it/s]  2%|▏         | 1176/48008 [10:10<6:30:03,  2.00it/s]  2%|▏         | 1177/48008 [10:10<6:25:50,  2.02it/s]  2%|▏         | 1178/48008 [10:11<6:28:00,  2.01it/s]  2%|▏         | 1179/48008 [10:11<6:35:30,  1.97it/s]  2%|▏         | 1180/48008 [10:12<6:29:59,  2.00it/s]  2%|▏         | 1181/48008 [10:12<7:11:10,  1.81it/s]  2%|▏         | 1182/48008 [10:13<6:54:21,  1.88it/s]  2%|▏         | 1183/48008 [10:13<6:51:08,  1.90it/s]  2%|▏         | 1184/48008 [10:14<6:46:46,  1.92it/s]  2%|▏         | 1185/48008 [10:15<8:10:53,  1.59it/s]  2%|▏         | 1186/48008 [10:15<7:35:20,  1.71it/s]  2%|▏         | 1187/48008 [10:16<7:10:10,  1.81it/s]  2%|▏         | 1188/48008 [10:16<6:53:43,  1.89it/s]  2%|▏         | 1189/48008 [10:17<6:41:10,  1.95it/s]  2%|▏         | 1190/48008 [10:17<6:18:16,  2.06it/s]  2%|▏         | 1191/48008 [10:17<6:22:57,  2.04it/s]  2%|▏         | 1192/48008 [10:18<6:19:46,  2.05it/s]  2%|▏         | 1193/48008 [10:18<6:02:55,  2.15it/s]  2%|▏         | 1194/48008 [10:19<6:07:22,  2.12it/s]  2%|▏         | 1195/48008 [10:19<6:15:04,  2.08it/s]  2%|▏         | 1196/48008 [10:20<6:14:53,  2.08it/s]  2%|▏         | 1197/48008 [10:20<6:14:05,  2.09it/s]  2%|▏         | 1198/48008 [10:21<6:23:22,  2.03it/s]  2%|▏         | 1199/48008 [10:21<6:21:50,  2.04it/s]  2%|▏         | 1200/48008 [10:23<9:22:26,  1.39it/s]                                                      {'loss': 5.0309, 'grad_norm': 0.7400469779968262, 'learning_rate': 0.00019500499916680556, 'epoch': 0.02}  2%|▏         | 1200/48008 [10:23<9:22:26,  1.39it/s]
  3%|▎         | 1201/48008 [10:23<8:11:18,  1.59it/s]  3%|▎         | 1202/48008 [10:24<8:22:33,  1.55it/s]  3%|▎         | 1203/48008 [10:24<7:54:20,  1.64it/s]  3%|▎         | 1204/48008 [10:25<7:30:54,  1.73it/s]  3%|▎         | 1205/48008 [10:25<6:52:46,  1.89it/s]  3%|▎         | 1206/48008 [10:26<6:40:23,  1.95it/s]  3%|▎         | 1207/48008 [10:26<8:04:28,  1.61it/s]  3%|▎         | 1208/48008 [10:27<7:35:59,  1.71it/s]  3%|▎         | 1209/48008 [10:27<7:12:03,  1.81it/s]  3%|▎         | 1210/48008 [10:28<7:39:46,  1.70it/s]  3%|▎         | 1211/48008 [10:29<7:13:34,  1.80it/s]  3%|▎         | 1212/48008 [10:29<7:01:24,  1.85it/s]  3%|▎         | 1213/48008 [10:30<6:52:52,  1.89it/s]  3%|▎         | 1214/48008 [10:30<6:41:28,  1.94it/s]  3%|▎         | 1215/48008 [10:31<6:47:07,  1.92it/s]  3%|▎         | 1216/48008 [10:31<6:46:12,  1.92it/s]  3%|▎         | 1217/48008 [10:32<6:36:35,  1.97it/s]  3%|▎         | 1218/48008 [10:32<6:14:57,  2.08it/s]  3%|▎         | 1219/48008 [10:32<5:59:34,  2.17it/s]  3%|▎         | 1220/48008 [10:33<6:04:23,  2.14it/s]  3%|▎         | 1221/48008 [10:33<5:52:10,  2.21it/s]  3%|▎         | 1222/48008 [10:34<5:59:30,  2.17it/s]  3%|▎         | 1223/48008 [10:34<6:08:04,  2.12it/s]  3%|▎         | 1224/48008 [10:35<6:10:40,  2.10it/s]  3%|▎         | 1225/48008 [10:35<5:56:48,  2.19it/s]  3%|▎         | 1226/48008 [10:36<6:02:33,  2.15it/s]  3%|▎         | 1227/48008 [10:36<5:50:54,  2.22it/s]  3%|▎         | 1228/48008 [10:37<7:30:45,  1.73it/s]  3%|▎         | 1229/48008 [10:38<7:12:36,  1.80it/s]  3%|▎         | 1230/48008 [10:38<6:40:05,  1.95it/s]  3%|▎         | 1231/48008 [10:38<6:37:10,  1.96it/s]  3%|▎         | 1232/48008 [10:39<6:15:07,  2.08it/s]  3%|▎         | 1233/48008 [10:39<6:14:35,  2.08it/s]  3%|▎         | 1234/48008 [10:40<6:22:42,  2.04it/s]  3%|▎         | 1235/48008 [10:40<6:19:17,  2.06it/s]  3%|▎         | 1236/48008 [10:41<6:03:04,  2.15it/s]  3%|▎         | 1237/48008 [10:41<6:06:27,  2.13it/s]  3%|▎         | 1238/48008 [10:42<6:09:57,  2.11it/s]  3%|▎         | 1239/48008 [10:42<6:20:34,  2.05it/s]  3%|▎         | 1240/48008 [10:43<6:03:43,  2.14it/s]  3%|▎         | 1241/48008 [10:43<6:12:47,  2.09it/s]  3%|▎         | 1242/48008 [10:44<5:57:39,  2.18it/s]  3%|▎         | 1243/48008 [10:44<6:03:52,  2.14it/s]  3%|▎         | 1244/48008 [10:44<5:52:18,  2.21it/s]  3%|▎         | 1245/48008 [10:45<5:58:09,  2.18it/s]  3%|▎         | 1246/48008 [10:45<5:48:12,  2.24it/s]  3%|▎         | 1247/48008 [10:46<6:40:57,  1.94it/s]  3%|▎         | 1248/48008 [10:47<6:39:26,  1.95it/s]  3%|▎         | 1249/48008 [10:47<6:32:43,  1.98it/s]  3%|▎         | 1250/48008 [10:48<6:32:30,  1.99it/s]                                                      {'loss': 4.9386, 'grad_norm': 0.8222295045852661, 'learning_rate': 0.00019479670054990835, 'epoch': 0.03}  3%|▎         | 1250/48008 [10:48<6:32:30,  1.99it/s]
  3%|▎         | 1251/48008 [10:48<6:12:00,  2.09it/s]  3%|▎         | 1252/48008 [10:48<6:13:48,  2.08it/s]  3%|▎         | 1253/48008 [10:49<6:27:21,  2.01it/s]  3%|▎         | 1254/48008 [10:49<6:24:15,  2.03it/s]  3%|▎         | 1255/48008 [10:50<6:30:34,  2.00it/s]  3%|▎         | 1256/48008 [10:50<6:31:37,  1.99it/s]  3%|▎         | 1257/48008 [10:51<6:32:41,  1.98it/s]  3%|▎         | 1258/48008 [10:51<6:26:32,  2.02it/s]  3%|▎         | 1259/48008 [10:52<6:23:06,  2.03it/s]  3%|▎         | 1260/48008 [10:52<6:19:12,  2.05it/s]  3%|▎         | 1261/48008 [10:53<6:01:48,  2.15it/s]  3%|▎         | 1262/48008 [10:53<5:50:48,  2.22it/s]  3%|▎         | 1263/48008 [10:54<6:10:48,  2.10it/s]  3%|▎         | 1264/48008 [10:54<6:11:28,  2.10it/s]  3%|▎         | 1265/48008 [10:55<6:25:15,  2.02it/s]  3%|▎         | 1266/48008 [10:55<6:22:36,  2.04it/s]  3%|▎         | 1267/48008 [10:56<6:19:37,  2.05it/s]  3%|▎         | 1268/48008 [10:57<9:20:26,  1.39it/s]  3%|▎         | 1269/48008 [10:57<8:08:43,  1.59it/s]  3%|▎         | 1270/48008 [10:58<7:35:21,  1.71it/s]  3%|▎         | 1271/48008 [10:58<6:56:23,  1.87it/s]  3%|▎         | 1272/48008 [10:59<6:44:49,  1.92it/s]  3%|▎         | 1273/48008 [10:59<6:41:23,  1.94it/s]  3%|▎         | 1274/48008 [11:00<6:18:55,  2.06it/s]  3%|▎         | 1275/48008 [11:00<6:17:24,  2.06it/s]  3%|▎         | 1276/48008 [11:01<6:24:24,  2.03it/s]  3%|▎         | 1277/48008 [11:01<6:06:19,  2.13it/s]  3%|▎         | 1278/48008 [11:02<6:08:03,  2.12it/s]  3%|▎         | 1279/48008 [11:02<6:09:07,  2.11it/s]  3%|▎         | 1280/48008 [11:03<6:16:44,  2.07it/s]  3%|▎         | 1281/48008 [11:03<6:17:41,  2.06it/s]  3%|▎         | 1282/48008 [11:04<6:17:42,  2.06it/s]  3%|▎         | 1283/48008 [11:04<6:15:45,  2.07it/s]  3%|▎         | 1284/48008 [11:05<6:14:27,  2.08it/s]  3%|▎         | 1285/48008 [11:05<6:14:37,  2.08it/s]  3%|▎         | 1286/48008 [11:05<6:15:13,  2.08it/s]  3%|▎         | 1287/48008 [11:06<6:00:11,  2.16it/s]  3%|▎         | 1288/48008 [11:06<6:03:35,  2.14it/s]  3%|▎         | 1289/48008 [11:07<6:15:27,  2.07it/s]  3%|▎         | 1290/48008 [11:07<6:21:27,  2.04it/s]  3%|▎         | 1291/48008 [11:08<6:18:16,  2.06it/s]  3%|▎         | 1292/48008 [11:08<6:01:46,  2.15it/s]  3%|▎         | 1293/48008 [11:09<6:12:29,  2.09it/s]  3%|▎         | 1294/48008 [11:09<6:17:25,  2.06it/s]  3%|▎         | 1295/48008 [11:10<6:16:11,  2.07it/s]  3%|▎         | 1296/48008 [11:10<6:00:39,  2.16it/s]  3%|▎         | 1297/48008 [11:11<6:10:44,  2.10it/s]  3%|▎         | 1298/48008 [11:11<6:11:10,  2.10it/s]  3%|▎         | 1299/48008 [11:12<6:21:12,  2.04it/s]  3%|▎         | 1300/48008 [11:12<6:19:48,  2.05it/s]                                                      {'loss': 4.9901, 'grad_norm': 0.7714396715164185, 'learning_rate': 0.00019458840193301117, 'epoch': 0.03}  3%|▎         | 1300/48008 [11:12<6:19:48,  2.05it/s]
  3%|▎         | 1301/48008 [11:13<6:19:07,  2.05it/s]  3%|▎         | 1302/48008 [11:13<6:18:34,  2.06it/s]  3%|▎         | 1303/48008 [11:14<6:18:27,  2.06it/s]  3%|▎         | 1304/48008 [11:14<6:03:02,  2.14it/s]  3%|▎         | 1305/48008 [11:14<5:52:06,  2.21it/s]  3%|▎         | 1306/48008 [11:15<6:43:12,  1.93it/s]  3%|▎         | 1307/48008 [11:16<6:35:51,  1.97it/s]  3%|▎         | 1308/48008 [11:16<6:29:42,  2.00it/s]  3%|▎         | 1309/48008 [11:17<6:29:28,  2.00it/s]  3%|▎         | 1310/48008 [11:17<6:31:02,  1.99it/s]  3%|▎         | 1311/48008 [11:18<6:09:41,  2.11it/s]  3%|▎         | 1312/48008 [11:18<6:16:17,  2.07it/s]  3%|▎         | 1313/48008 [11:19<6:14:38,  2.08it/s]  3%|▎         | 1314/48008 [11:19<6:15:06,  2.07it/s]  3%|▎         | 1315/48008 [11:20<6:16:09,  2.07it/s]  3%|▎         | 1316/48008 [11:20<6:00:50,  2.16it/s]  3%|▎         | 1317/48008 [11:20<6:15:15,  2.07it/s]  3%|▎         | 1318/48008 [11:21<6:21:17,  2.04it/s]  3%|▎         | 1319/48008 [11:21<6:27:22,  2.01it/s]  3%|▎         | 1320/48008 [11:22<6:23:04,  2.03it/s]  3%|▎         | 1321/48008 [11:22<6:19:18,  2.05it/s]  3%|▎         | 1322/48008 [11:23<6:31:40,  1.99it/s]  3%|▎         | 1323/48008 [11:24<6:41:08,  1.94it/s]  3%|▎         | 1324/48008 [11:24<6:32:44,  1.98it/s]  3%|▎         | 1325/48008 [11:24<6:27:10,  2.01it/s]  3%|▎         | 1326/48008 [11:25<6:22:43,  2.03it/s]  3%|▎         | 1327/48008 [11:25<6:26:56,  2.01it/s]  3%|▎         | 1328/48008 [11:26<6:24:17,  2.02it/s]  3%|▎         | 1329/48008 [11:26<6:22:33,  2.03it/s]  3%|▎         | 1330/48008 [11:28<9:18:36,  1.39it/s]  3%|▎         | 1331/48008 [11:28<8:28:22,  1.53it/s]  3%|▎         | 1332/48008 [11:29<7:56:39,  1.63it/s]  3%|▎         | 1333/48008 [11:29<7:27:41,  1.74it/s]  3%|▎         | 1334/48008 [11:30<7:12:45,  1.80it/s]  3%|▎         | 1335/48008 [11:30<6:55:52,  1.87it/s]  3%|▎         | 1336/48008 [11:31<6:56:26,  1.87it/s]  3%|▎         | 1337/48008 [11:31<6:43:48,  1.93it/s]  3%|▎         | 1338/48008 [11:32<6:35:18,  1.97it/s]  3%|▎         | 1339/48008 [11:32<6:29:03,  2.00it/s]  3%|▎         | 1340/48008 [11:33<6:24:38,  2.02it/s]  3%|▎         | 1341/48008 [11:33<6:22:52,  2.03it/s]  3%|▎         | 1342/48008 [11:34<5:56:32,  2.18it/s]  3%|▎         | 1343/48008 [11:34<6:02:39,  2.14it/s]  3%|▎         | 1344/48008 [11:34<6:06:22,  2.12it/s]  3%|▎         | 1345/48008 [11:36<9:07:23,  1.42it/s]  3%|▎         | 1346/48008 [11:36<8:14:57,  1.57it/s]  3%|▎         | 1347/48008 [11:37<7:46:33,  1.67it/s]  3%|▎         | 1348/48008 [11:37<7:25:10,  1.75it/s]  3%|▎         | 1349/48008 [11:38<7:05:07,  1.83it/s]  3%|▎         | 1350/48008 [11:38<7:02:26,  1.84it/s]                                                      {'loss': 4.9194, 'grad_norm': 0.8054481744766235, 'learning_rate': 0.00019438010331611398, 'epoch': 0.03}
  3%|▎         | 1350/48008 [11:38<7:02:26,  1.84it/s]  3%|▎         | 1351/48008 [11:39<6:56:35,  1.87it/s]  3%|▎         | 1352/48008 [11:39<6:29:33,  2.00it/s]  3%|▎         | 1353/48008 [11:40<6:37:28,  1.96it/s]  3%|▎         | 1354/48008 [11:40<6:16:22,  2.07it/s]  3%|▎         | 1355/48008 [11:41<7:01:10,  1.85it/s]  3%|▎         | 1356/48008 [11:41<6:32:24,  1.98it/s]  3%|▎         | 1357/48008 [11:42<6:33:29,  1.98it/s]  3%|▎         | 1358/48008 [11:42<6:32:56,  1.98it/s]  3%|▎         | 1359/48008 [11:43<6:31:12,  1.99it/s]  3%|▎         | 1360/48008 [11:43<6:30:57,  1.99it/s]  3%|▎         | 1361/48008 [11:44<6:11:18,  2.09it/s]  3%|▎         | 1362/48008 [11:44<6:22:35,  2.03it/s]  3%|▎         | 1363/48008 [11:45<6:21:13,  2.04it/s]  3%|▎         | 1364/48008 [11:45<6:19:36,  2.05it/s]  3%|▎         | 1365/48008 [11:46<6:18:46,  2.05it/s]  3%|▎         | 1366/48008 [11:46<6:17:53,  2.06it/s]  3%|▎         | 1367/48008 [11:47<6:17:18,  2.06it/s]  3%|▎         | 1368/48008 [11:47<6:22:35,  2.03it/s]  3%|▎         | 1369/48008 [11:48<6:25:57,  2.01it/s]  3%|▎         | 1370/48008 [11:48<6:21:50,  2.04it/s]  3%|▎         | 1371/48008 [11:49<6:23:55,  2.02it/s]  3%|▎         | 1372/48008 [11:49<6:05:48,  2.12it/s]  3%|▎         | 1373/48008 [11:50<6:07:19,  2.12it/s]  3%|▎         | 1374/48008 [11:50<6:15:32,  2.07it/s]  3%|▎         | 1375/48008 [11:50<6:14:54,  2.07it/s]  3%|▎         | 1376/48008 [11:51<6:23:30,  2.03it/s]  3%|▎         | 1377/48008 [11:52<6:25:58,  2.01it/s]  3%|▎         | 1378/48008 [11:52<6:28:17,  2.00it/s]  3%|▎         | 1379/48008 [11:52<6:09:14,  2.10it/s]  3%|▎         | 1380/48008 [11:53<5:55:31,  2.19it/s]  3%|▎         | 1381/48008 [11:53<5:45:42,  2.25it/s]  3%|▎         | 1382/48008 [11:54<5:54:08,  2.19it/s]  3%|▎         | 1383/48008 [11:54<6:04:45,  2.13it/s]  3%|▎         | 1384/48008 [11:55<6:08:15,  2.11it/s]  3%|▎         | 1385/48008 [11:55<6:54:33,  1.87it/s]  3%|▎         | 1386/48008 [11:56<6:52:24,  1.88it/s]  3%|▎         | 1387/48008 [11:56<6:41:55,  1.93it/s]  3%|▎         | 1388/48008 [11:57<6:18:54,  2.05it/s]  3%|▎         | 1389/48008 [11:57<6:16:20,  2.06it/s]  3%|▎         | 1390/48008 [11:58<7:00:20,  1.85it/s]  3%|▎         | 1391/48008 [11:58<6:50:36,  1.89it/s]  3%|▎         | 1392/48008 [11:59<6:47:10,  1.91it/s]  3%|▎         | 1393/48008 [11:59<6:21:57,  2.03it/s]  3%|▎         | 1394/48008 [12:00<6:18:54,  2.05it/s]  3%|▎         | 1395/48008 [12:00<6:02:57,  2.14it/s]  3%|▎         | 1396/48008 [12:01<6:15:57,  2.07it/s]  3%|▎         | 1397/48008 [12:01<6:23:39,  2.02it/s]  3%|▎         | 1398/48008 [12:02<6:33:19,  1.98it/s]  3%|▎         | 1399/48008 [12:02<6:27:34,  2.00it/s]  3%|▎         | 1400/48008 [12:03<6:37:29,  1.95it/s]                                                      {'loss': 4.8637, 'grad_norm': 0.7709601521492004, 'learning_rate': 0.0001941718046992168, 'epoch': 0.03}  3%|▎         | 1400/48008 [12:03<6:37:29,  1.95it/s]
  3%|▎         | 1401/48008 [12:03<6:36:14,  1.96it/s]  3%|▎         | 1402/48008 [12:04<6:30:48,  1.99it/s]  3%|▎         | 1403/48008 [12:04<6:26:34,  2.01it/s]  3%|▎         | 1404/48008 [12:05<6:30:38,  1.99it/s]  3%|▎         | 1405/48008 [12:05<6:35:03,  1.97it/s]  3%|▎         | 1406/48008 [12:06<7:13:46,  1.79it/s]  3%|▎         | 1407/48008 [12:07<8:29:30,  1.52it/s]  3%|▎         | 1408/48008 [12:07<7:49:18,  1.65it/s]  3%|▎         | 1409/48008 [12:08<7:20:27,  1.76it/s]  3%|▎         | 1410/48008 [12:08<6:45:25,  1.92it/s]  3%|▎         | 1411/48008 [12:09<6:36:48,  1.96it/s]  3%|▎         | 1412/48008 [12:09<6:29:25,  1.99it/s]  3%|▎         | 1413/48008 [12:11<9:24:41,  1.38it/s]  3%|▎         | 1414/48008 [12:11<8:27:05,  1.53it/s]  3%|▎         | 1415/48008 [12:12<7:48:22,  1.66it/s]  3%|▎         | 1416/48008 [12:12<7:20:58,  1.76it/s]  3%|▎         | 1417/48008 [12:13<7:00:53,  1.84it/s]  3%|▎         | 1418/48008 [12:13<6:47:23,  1.91it/s]  3%|▎         | 1419/48008 [12:13<6:36:35,  1.96it/s]  3%|▎         | 1420/48008 [12:14<6:14:55,  2.07it/s]  3%|▎         | 1421/48008 [12:14<6:16:11,  2.06it/s]  3%|▎         | 1422/48008 [12:16<9:13:51,  1.40it/s]  3%|▎         | 1423/48008 [12:16<8:18:20,  1.56it/s]  3%|▎         | 1424/48008 [12:17<7:39:50,  1.69it/s]  3%|▎         | 1425/48008 [12:17<7:58:20,  1.62it/s]  3%|▎         | 1426/48008 [12:18<7:33:00,  1.71it/s]  3%|▎         | 1427/48008 [12:19<8:41:26,  1.49it/s]  3%|▎         | 1428/48008 [12:19<8:10:28,  1.58it/s]  3%|▎         | 1429/48008 [12:20<7:40:37,  1.69it/s]  3%|▎         | 1430/48008 [12:20<7:22:08,  1.76it/s]  3%|▎         | 1431/48008 [12:21<7:06:22,  1.82it/s]  3%|▎         | 1432/48008 [12:21<6:56:09,  1.87it/s]  3%|▎         | 1433/48008 [12:22<8:15:41,  1.57it/s]  3%|▎         | 1434/48008 [12:23<8:23:56,  1.54it/s]  3%|▎         | 1435/48008 [12:23<7:44:09,  1.67it/s]  3%|▎         | 1436/48008 [12:24<7:25:45,  1.74it/s]  3%|▎         | 1437/48008 [12:25<10:02:19,  1.29it/s]  3%|▎         | 1438/48008 [12:26<8:57:48,  1.44it/s]   3%|▎         | 1439/48008 [12:26<8:14:04,  1.57it/s]  3%|▎         | 1440/48008 [12:26<7:38:14,  1.69it/s]  3%|▎         | 1441/48008 [12:27<7:18:59,  1.77it/s]  3%|▎         | 1442/48008 [12:27<6:42:54,  1.93it/s]  3%|▎         | 1443/48008 [12:28<6:35:21,  1.96it/s]  3%|▎         | 1444/48008 [12:28<6:34:42,  1.97it/s]  3%|▎         | 1445/48008 [12:29<6:27:40,  2.00it/s]  3%|▎         | 1446/48008 [12:29<6:30:02,  1.99it/s]  3%|▎         | 1447/48008 [12:30<6:25:15,  2.01it/s]  3%|▎         | 1448/48008 [12:30<6:27:51,  2.00it/s]  3%|▎         | 1449/48008 [12:31<6:33:54,  1.97it/s]  3%|▎         | 1450/48008 [12:31<6:27:23,  2.00it/s]                                                      {'loss': 4.8877, 'grad_norm': 0.8335504531860352, 'learning_rate': 0.00019396350608231962, 'epoch': 0.03}  3%|▎         | 1450/48008 [12:31<6:27:23,  2.00it/s]
  3%|▎         | 1451/48008 [12:32<6:09:12,  2.10it/s]  3%|▎         | 1452/48008 [12:32<6:16:39,  2.06it/s]  3%|▎         | 1453/48008 [12:33<6:15:06,  2.07it/s]  3%|▎         | 1454/48008 [12:33<6:22:00,  2.03it/s]  3%|▎         | 1455/48008 [12:34<6:20:38,  2.04it/s]  3%|▎         | 1456/48008 [12:34<5:56:10,  2.18it/s]  3%|▎         | 1457/48008 [12:35<6:01:11,  2.15it/s]  3%|▎         | 1458/48008 [12:35<6:04:19,  2.13it/s]  3%|▎         | 1459/48008 [12:36<6:11:43,  2.09it/s]  3%|▎         | 1460/48008 [12:36<5:58:11,  2.17it/s]  3%|▎         | 1461/48008 [12:37<6:01:57,  2.14it/s]  3%|▎         | 1462/48008 [12:37<6:05:45,  2.12it/s]  3%|▎         | 1463/48008 [12:38<6:12:38,  2.08it/s]  3%|▎         | 1464/48008 [12:38<6:18:24,  2.05it/s]  3%|▎         | 1465/48008 [12:39<9:15:13,  1.40it/s]  3%|▎         | 1466/48008 [12:40<8:25:44,  1.53it/s]  3%|▎         | 1467/48008 [12:40<7:46:36,  1.66it/s]  3%|▎         | 1468/48008 [12:41<7:28:11,  1.73it/s]  3%|▎         | 1469/48008 [12:41<7:13:29,  1.79it/s]  3%|▎         | 1470/48008 [12:42<6:55:56,  1.86it/s]  3%|▎         | 1471/48008 [12:42<6:49:13,  1.90it/s]  3%|▎         | 1472/48008 [12:43<6:39:23,  1.94it/s]  3%|▎         | 1473/48008 [12:43<6:35:22,  1.96it/s]  3%|▎         | 1474/48008 [12:44<6:14:20,  2.07it/s]  3%|▎         | 1475/48008 [12:44<6:14:55,  2.07it/s]  3%|▎         | 1476/48008 [12:45<6:00:23,  2.15it/s]  3%|▎         | 1477/48008 [12:45<6:15:34,  2.06it/s]  3%|▎         | 1478/48008 [12:46<6:25:34,  2.01it/s]  3%|▎         | 1479/48008 [12:46<6:20:47,  2.04it/s]  3%|▎         | 1480/48008 [12:47<6:26:00,  2.01it/s]  3%|▎         | 1481/48008 [12:47<6:28:48,  1.99it/s]  3%|▎         | 1482/48008 [12:48<6:23:43,  2.02it/s]  3%|▎         | 1483/48008 [12:48<6:20:42,  2.04it/s]  3%|▎         | 1484/48008 [12:49<6:19:15,  2.04it/s]  3%|▎         | 1485/48008 [12:49<6:25:52,  2.01it/s]  3%|▎         | 1486/48008 [12:50<6:21:59,  2.03it/s]  3%|▎         | 1487/48008 [12:50<6:29:00,  1.99it/s]  3%|▎         | 1488/48008 [12:51<6:34:06,  1.97it/s]  3%|▎         | 1489/48008 [12:51<6:41:10,  1.93it/s]  3%|▎         | 1490/48008 [12:52<6:32:14,  1.98it/s]  3%|▎         | 1491/48008 [12:52<6:26:49,  2.00it/s]  3%|▎         | 1492/48008 [12:53<6:29:25,  1.99it/s]  3%|▎         | 1493/48008 [12:53<6:24:16,  2.02it/s]  3%|▎         | 1494/48008 [12:54<6:25:49,  2.01it/s]  3%|▎         | 1495/48008 [12:54<6:21:16,  2.03it/s]  3%|▎         | 1496/48008 [12:55<7:52:28,  1.64it/s]  3%|▎         | 1497/48008 [12:55<7:23:34,  1.75it/s]  3%|▎         | 1498/48008 [12:56<6:48:14,  1.90it/s]  3%|▎         | 1499/48008 [12:56<6:38:40,  1.94it/s]  3%|▎         | 1500/48008 [12:57<6:31:14,  1.98it/s]                                                      {'loss': 4.8141, 'grad_norm': 1.0290857553482056, 'learning_rate': 0.00019375520746542244, 'epoch': 0.03}  3%|▎         | 1500/48008 [12:57<6:31:14,  1.98it/s]
  3%|▎         | 1501/48008 [12:57<6:27:11,  2.00it/s]  3%|▎         | 1502/48008 [12:59<9:24:43,  1.37it/s]  3%|▎         | 1503/48008 [12:59<8:38:08,  1.50it/s]  3%|▎         | 1504/48008 [13:00<7:39:25,  1.69it/s]  3%|▎         | 1505/48008 [13:00<7:13:50,  1.79it/s]  3%|▎         | 1506/48008 [13:01<7:03:50,  1.83it/s]  3%|▎         | 1507/48008 [13:01<6:48:31,  1.90it/s]  3%|▎         | 1508/48008 [13:02<6:37:14,  1.95it/s]  3%|▎         | 1509/48008 [13:02<6:29:13,  1.99it/s]  3%|▎         | 1510/48008 [13:02<6:24:18,  2.02it/s]  3%|▎         | 1511/48008 [13:03<6:27:11,  2.00it/s]  3%|▎         | 1512/48008 [13:04<6:29:17,  1.99it/s]  3%|▎         | 1513/48008 [13:04<6:25:09,  2.01it/s]  3%|▎         | 1514/48008 [13:05<6:31:44,  1.98it/s]  3%|▎         | 1515/48008 [13:05<6:26:06,  2.01it/s]  3%|▎         | 1516/48008 [13:06<6:28:49,  1.99it/s]  3%|▎         | 1517/48008 [13:06<6:32:11,  1.98it/s]  3%|▎         | 1518/48008 [13:07<6:25:37,  2.01it/s]  3%|▎         | 1519/48008 [13:07<6:23:44,  2.02it/s]  3%|▎         | 1520/48008 [13:07<6:25:24,  2.01it/s]  3%|▎         | 1521/48008 [13:08<6:05:45,  2.12it/s]  3%|▎         | 1522/48008 [13:08<6:07:03,  2.11it/s]  3%|▎         | 1523/48008 [13:09<5:55:28,  2.18it/s]  3%|▎         | 1524/48008 [13:09<5:47:43,  2.23it/s]  3%|▎         | 1525/48008 [13:11<8:57:20,  1.44it/s]  3%|▎         | 1526/48008 [13:11<8:09:36,  1.58it/s]  3%|▎         | 1527/48008 [13:11<7:34:06,  1.71it/s]  3%|▎         | 1528/48008 [13:12<7:10:56,  1.80it/s]  3%|▎         | 1529/48008 [13:12<6:58:15,  1.85it/s]  3%|▎         | 1530/48008 [13:13<6:43:24,  1.92it/s]  3%|▎         | 1531/48008 [13:13<6:34:55,  1.96it/s]  3%|▎         | 1532/48008 [13:14<6:29:55,  1.99it/s]  3%|▎         | 1533/48008 [13:14<6:32:26,  1.97it/s]  3%|▎         | 1534/48008 [13:15<6:34:38,  1.96it/s]  3%|▎         | 1535/48008 [13:15<6:28:24,  1.99it/s]  3%|▎         | 1536/48008 [13:16<6:25:40,  2.01it/s]  3%|▎         | 1537/48008 [13:16<6:22:21,  2.03it/s]  3%|▎         | 1538/48008 [13:17<6:23:38,  2.02it/s]  3%|▎         | 1539/48008 [13:17<6:26:11,  2.01it/s]  3%|▎         | 1540/48008 [13:18<6:31:54,  1.98it/s]  3%|▎         | 1541/48008 [13:18<6:26:31,  2.00it/s]  3%|▎         | 1542/48008 [13:19<6:22:56,  2.02it/s]  3%|▎         | 1543/48008 [13:19<6:06:46,  2.11it/s]  3%|▎         | 1544/48008 [13:20<6:13:54,  2.07it/s]  3%|▎         | 1545/48008 [13:20<6:21:35,  2.03it/s]  3%|▎         | 1546/48008 [13:21<6:18:08,  2.05it/s]  3%|▎         | 1547/48008 [13:21<6:22:45,  2.02it/s]  3%|▎         | 1548/48008 [13:22<6:20:40,  2.03it/s]  3%|▎         | 1549/48008 [13:22<6:24:04,  2.02it/s]  3%|▎         | 1550/48008 [13:23<6:30:36,  1.98it/s]                                                      {'loss': 4.8423, 'grad_norm': 0.9669907689094543, 'learning_rate': 0.00019354690884852525, 'epoch': 0.03}
  3%|▎         | 1550/48008 [13:23<6:30:36,  1.98it/s]  3%|▎         | 1551/48008 [13:23<6:25:26,  2.01it/s]  3%|▎         | 1552/48008 [13:24<6:21:55,  2.03it/s]  3%|▎         | 1553/48008 [13:24<6:23:06,  2.02it/s]  3%|▎         | 1554/48008 [13:25<6:20:30,  2.03it/s]  3%|▎         | 1555/48008 [13:25<6:21:52,  2.03it/s]  3%|▎         | 1556/48008 [13:26<6:24:17,  2.01it/s]  3%|▎         | 1557/48008 [13:26<6:21:00,  2.03it/s]  3%|▎         | 1558/48008 [13:27<6:31:22,  1.98it/s]  3%|▎         | 1559/48008 [13:27<6:36:11,  1.95it/s]  3%|▎         | 1560/48008 [13:28<6:28:57,  1.99it/s]  3%|▎         | 1561/48008 [13:28<6:26:31,  2.00it/s]  3%|▎         | 1562/48008 [13:29<6:21:44,  2.03it/s]  3%|▎         | 1563/48008 [13:29<6:24:00,  2.02it/s]  3%|▎         | 1564/48008 [13:30<6:06:12,  2.11it/s]  3%|▎         | 1565/48008 [13:30<5:53:03,  2.19it/s]  3%|▎         | 1566/48008 [13:31<6:05:19,  2.12it/s]  3%|▎         | 1567/48008 [13:31<6:20:57,  2.03it/s]  3%|▎         | 1568/48008 [13:32<6:17:32,  2.05it/s]  3%|▎         | 1569/48008 [13:32<6:16:08,  2.06it/s]  3%|▎         | 1570/48008 [13:33<6:23:53,  2.02it/s]  3%|▎         | 1571/48008 [13:33<6:33:57,  1.96it/s]  3%|▎         | 1572/48008 [13:34<9:26:43,  1.37it/s]  3%|▎         | 1573/48008 [13:35<8:15:17,  1.56it/s]  3%|▎         | 1574/48008 [13:35<7:40:16,  1.68it/s]  3%|▎         | 1575/48008 [13:36<7:15:23,  1.78it/s]  3%|▎         | 1576/48008 [13:36<6:42:49,  1.92it/s]  3%|▎         | 1577/48008 [13:37<6:32:12,  1.97it/s]  3%|▎         | 1578/48008 [13:37<6:25:56,  2.01it/s]  3%|▎         | 1579/48008 [13:38<5:58:40,  2.16it/s]  3%|▎         | 1580/48008 [13:38<6:08:45,  2.10it/s]  3%|▎         | 1581/48008 [13:39<6:11:07,  2.09it/s]  3%|▎         | 1582/48008 [13:39<6:10:55,  2.09it/s]  3%|▎         | 1583/48008 [13:40<6:10:33,  2.09it/s]  3%|▎         | 1584/48008 [13:40<6:12:42,  2.08it/s]  3%|▎         | 1585/48008 [13:40<5:56:03,  2.17it/s]  3%|▎         | 1586/48008 [13:41<6:01:55,  2.14it/s]  3%|▎         | 1587/48008 [13:41<6:13:54,  2.07it/s]  3%|▎         | 1588/48008 [13:42<6:14:02,  2.07it/s]  3%|▎         | 1589/48008 [13:43<9:11:42,  1.40it/s]  3%|▎         | 1590/48008 [13:44<8:29:15,  1.52it/s]  3%|▎         | 1591/48008 [13:44<7:57:25,  1.62it/s]  3%|▎         | 1592/48008 [13:45<7:25:06,  1.74it/s]  3%|▎         | 1593/48008 [13:45<6:50:20,  1.89it/s]  3%|▎         | 1594/48008 [13:46<6:37:34,  1.95it/s]  3%|▎         | 1595/48008 [13:46<6:29:42,  1.98it/s]  3%|▎         | 1596/48008 [13:47<6:33:57,  1.96it/s]  3%|▎         | 1597/48008 [13:47<6:37:12,  1.95it/s]  3%|▎         | 1598/48008 [13:48<6:37:06,  1.95it/s]  3%|▎         | 1599/48008 [13:48<6:15:51,  2.06it/s]  3%|▎         | 1600/48008 [13:49<6:22:38,  2.02it/s]                                                      {'loss': 4.7704, 'grad_norm': 0.8226365447044373, 'learning_rate': 0.00019333861023162807, 'epoch': 0.03}  3%|▎         | 1600/48008 [13:49<6:22:38,  2.02it/s]
  3%|▎         | 1601/48008 [13:49<6:19:27,  2.04it/s]  3%|▎         | 1602/48008 [13:49<6:03:18,  2.13it/s]  3%|▎         | 1603/48008 [13:50<6:13:32,  2.07it/s]  3%|▎         | 1604/48008 [13:51<6:20:40,  2.03it/s]  3%|▎         | 1605/48008 [13:51<6:03:15,  2.13it/s]  3%|▎         | 1606/48008 [13:51<6:11:49,  2.08it/s]  3%|▎         | 1607/48008 [13:53<9:10:17,  1.41it/s]  3%|▎         | 1608/48008 [13:53<8:02:37,  1.60it/s]  3%|▎         | 1609/48008 [13:54<7:36:23,  1.69it/s]  3%|▎         | 1610/48008 [13:54<7:12:06,  1.79it/s]  3%|▎         | 1611/48008 [13:55<6:54:18,  1.87it/s]  3%|▎         | 1612/48008 [13:55<6:42:11,  1.92it/s]  3%|▎         | 1613/48008 [13:55<6:18:17,  2.04it/s]  3%|▎         | 1614/48008 [13:56<6:26:56,  2.00it/s]  3%|▎         | 1615/48008 [13:56<6:08:32,  2.10it/s]  3%|▎         | 1616/48008 [13:57<5:47:15,  2.23it/s]  3%|▎         | 1617/48008 [13:57<6:00:14,  2.15it/s]  3%|▎         | 1618/48008 [13:58<6:12:15,  2.08it/s]  3%|▎         | 1619/48008 [13:58<6:17:11,  2.05it/s]  3%|▎         | 1620/48008 [13:59<6:16:54,  2.05it/s]  3%|▎         | 1621/48008 [13:59<6:15:04,  2.06it/s]  3%|▎         | 1622/48008 [14:00<6:19:13,  2.04it/s]  3%|▎         | 1623/48008 [14:01<7:02:36,  1.83it/s]  3%|▎         | 1624/48008 [14:01<6:47:14,  1.90it/s]  3%|▎         | 1625/48008 [14:01<6:21:25,  2.03it/s]  3%|▎         | 1626/48008 [14:02<6:28:37,  1.99it/s]  3%|▎         | 1627/48008 [14:02<6:24:37,  2.01it/s]  3%|▎         | 1628/48008 [14:03<6:19:37,  2.04it/s]  3%|▎         | 1629/48008 [14:04<9:14:41,  1.39it/s]  3%|▎         | 1630/48008 [14:05<8:18:39,  1.55it/s]  3%|▎         | 1631/48008 [14:05<7:40:21,  1.68it/s]  3%|▎         | 1632/48008 [14:06<7:12:50,  1.79it/s]  3%|▎         | 1633/48008 [14:06<7:02:18,  1.83it/s]  3%|▎         | 1634/48008 [14:07<8:18:22,  1.55it/s]  3%|▎         | 1635/48008 [14:07<7:39:36,  1.68it/s]  3%|▎         | 1636/48008 [14:08<7:13:05,  1.78it/s]  3%|▎         | 1637/48008 [14:08<6:59:03,  1.84it/s]  3%|▎         | 1638/48008 [14:09<6:45:16,  1.91it/s]  3%|▎         | 1639/48008 [14:10<9:36:51,  1.34it/s]  3%|▎         | 1640/48008 [14:11<8:36:40,  1.50it/s]  3%|▎         | 1641/48008 [14:11<7:52:06,  1.64it/s]  3%|▎         | 1642/48008 [14:12<7:34:25,  1.70it/s]  3%|▎         | 1643/48008 [14:12<6:54:58,  1.86it/s]  3%|▎         | 1644/48008 [14:13<9:41:11,  1.33it/s]  3%|▎         | 1645/48008 [14:14<8:38:08,  1.49it/s]  3%|▎         | 1646/48008 [14:14<7:54:41,  1.63it/s]  3%|▎         | 1647/48008 [14:15<7:08:20,  1.80it/s]  3%|▎         | 1648/48008 [14:15<6:57:12,  1.85it/s]  3%|▎         | 1649/48008 [14:16<6:48:49,  1.89it/s]  3%|▎         | 1650/48008 [14:16<6:51:06,  1.88it/s]                                                      {'loss': 4.7549, 'grad_norm': 0.8708115816116333, 'learning_rate': 0.0001931303116147309, 'epoch': 0.03}  3%|▎         | 1650/48008 [14:16<6:51:06,  1.88it/s]
  3%|▎         | 1651/48008 [14:17<6:38:30,  1.94it/s]  3%|▎         | 1652/48008 [14:17<6:43:34,  1.91it/s]  3%|▎         | 1653/48008 [14:18<6:17:45,  2.05it/s]  3%|▎         | 1654/48008 [14:18<6:22:21,  2.02it/s]  3%|▎         | 1655/48008 [14:19<6:28:11,  1.99it/s]  3%|▎         | 1656/48008 [14:19<6:32:54,  1.97it/s]  3%|▎         | 1657/48008 [14:20<6:26:38,  2.00it/s]  3%|▎         | 1658/48008 [14:20<6:21:44,  2.02it/s]  3%|▎         | 1659/48008 [14:21<6:18:11,  2.04it/s]  3%|▎         | 1660/48008 [14:21<6:16:42,  2.05it/s]  3%|▎         | 1661/48008 [14:22<6:16:07,  2.05it/s]  3%|▎         | 1662/48008 [14:22<6:14:17,  2.06it/s]  3%|▎         | 1663/48008 [14:23<6:19:16,  2.04it/s]  3%|▎         | 1664/48008 [14:23<6:18:09,  2.04it/s]  3%|▎         | 1665/48008 [14:24<6:15:39,  2.06it/s]  3%|▎         | 1666/48008 [14:24<6:14:30,  2.06it/s]  3%|▎         | 1667/48008 [14:25<6:19:10,  2.04it/s]  3%|▎         | 1668/48008 [14:25<6:26:26,  2.00it/s]  3%|▎         | 1669/48008 [14:26<6:27:49,  1.99it/s]  3%|▎         | 1670/48008 [14:26<6:32:05,  1.97it/s]  3%|▎         | 1671/48008 [14:27<6:11:22,  2.08it/s]  3%|▎         | 1672/48008 [14:27<6:12:18,  2.07it/s]  3%|▎         | 1673/48008 [14:28<6:12:54,  2.07it/s]  3%|▎         | 1674/48008 [14:28<6:11:56,  2.08it/s]  3%|▎         | 1675/48008 [14:28<6:12:11,  2.07it/s]  3%|▎         | 1676/48008 [14:29<6:26:19,  2.00it/s]  3%|▎         | 1677/48008 [14:30<6:22:34,  2.02it/s]  3%|▎         | 1678/48008 [14:30<6:18:04,  2.04it/s]  3%|▎         | 1679/48008 [14:31<9:13:51,  1.39it/s]  3%|▎         | 1680/48008 [14:32<8:20:05,  1.54it/s]  4%|▎         | 1681/48008 [14:32<7:41:21,  1.67it/s]  4%|▎         | 1682/48008 [14:33<7:13:31,  1.78it/s]  4%|▎         | 1683/48008 [14:33<6:55:44,  1.86it/s]  4%|▎         | 1684/48008 [14:34<6:55:25,  1.86it/s]  4%|▎         | 1685/48008 [14:34<6:51:35,  1.88it/s]  4%|▎         | 1686/48008 [14:35<6:39:31,  1.93it/s]  4%|▎         | 1687/48008 [14:35<6:36:38,  1.95it/s]  4%|▎         | 1688/48008 [14:36<6:29:10,  1.98it/s]  4%|▎         | 1689/48008 [14:36<7:09:29,  1.80it/s]  4%|▎         | 1690/48008 [14:37<6:52:33,  1.87it/s]  4%|▎         | 1691/48008 [14:37<6:40:37,  1.93it/s]  4%|▎         | 1692/48008 [14:38<6:16:38,  2.05it/s]  4%|▎         | 1693/48008 [14:38<6:16:30,  2.05it/s]  4%|▎         | 1694/48008 [14:39<6:21:58,  2.02it/s]  4%|▎         | 1695/48008 [14:39<6:04:20,  2.12it/s]  4%|▎         | 1696/48008 [14:40<6:14:40,  2.06it/s]  4%|▎         | 1697/48008 [14:40<6:19:39,  2.03it/s]  4%|▎         | 1698/48008 [14:41<6:17:51,  2.04it/s]  4%|▎         | 1699/48008 [14:41<6:22:15,  2.02it/s]  4%|▎         | 1700/48008 [14:42<6:18:54,  2.04it/s]                                                      {'loss': 4.7544, 'grad_norm': 1.110163927078247, 'learning_rate': 0.0001929220129978337, 'epoch': 0.04}
  4%|▎         | 1700/48008 [14:42<6:18:54,  2.04it/s]  4%|▎         | 1701/48008 [14:42<6:23:01,  2.01it/s]  4%|▎         | 1702/48008 [14:43<6:18:34,  2.04it/s]  4%|▎         | 1703/48008 [14:43<6:16:22,  2.05it/s]  4%|▎         | 1704/48008 [14:44<6:21:20,  2.02it/s]  4%|▎         | 1705/48008 [14:44<6:18:10,  2.04it/s]  4%|▎         | 1706/48008 [14:45<6:17:43,  2.04it/s]  4%|▎         | 1707/48008 [14:45<6:01:58,  2.13it/s]  4%|▎         | 1708/48008 [14:45<5:49:39,  2.21it/s]  4%|▎         | 1709/48008 [14:46<5:56:29,  2.16it/s]  4%|▎         | 1710/48008 [14:46<5:45:41,  2.23it/s]  4%|▎         | 1711/48008 [14:47<5:59:28,  2.15it/s]  4%|▎         | 1712/48008 [14:47<6:09:29,  2.09it/s]  4%|▎         | 1713/48008 [14:48<6:09:12,  2.09it/s]  4%|▎         | 1714/48008 [14:49<8:26:54,  1.52it/s]  4%|▎         | 1715/48008 [14:49<7:46:56,  1.65it/s]  4%|▎         | 1716/48008 [14:50<8:02:18,  1.60it/s]  4%|▎         | 1717/48008 [14:51<7:37:25,  1.69it/s]  4%|▎         | 1718/48008 [14:51<8:43:50,  1.47it/s]  4%|▎         | 1719/48008 [14:52<7:59:18,  1.61it/s]  4%|▎         | 1720/48008 [14:52<7:27:15,  1.72it/s]  4%|▎         | 1721/48008 [14:53<7:13:11,  1.78it/s]  4%|▎         | 1722/48008 [14:53<6:39:37,  1.93it/s]  4%|▎         | 1723/48008 [14:54<6:44:44,  1.91it/s]  4%|▎         | 1724/48008 [14:54<6:35:14,  1.95it/s]  4%|▎         | 1725/48008 [14:55<6:12:57,  2.07it/s]  4%|▎         | 1726/48008 [14:55<6:12:45,  2.07it/s]  4%|▎         | 1727/48008 [14:56<6:21:23,  2.02it/s]  4%|▎         | 1728/48008 [14:56<6:03:19,  2.12it/s]  4%|▎         | 1729/48008 [14:57<5:50:57,  2.20it/s]  4%|▎         | 1730/48008 [14:57<6:42:52,  1.91it/s]  4%|▎         | 1731/48008 [14:58<6:34:07,  1.96it/s]  4%|▎         | 1732/48008 [14:58<6:27:23,  1.99it/s]  4%|▎         | 1733/48008 [14:59<6:23:09,  2.01it/s]  4%|▎         | 1734/48008 [14:59<6:19:49,  2.03it/s]  4%|▎         | 1735/48008 [15:00<6:02:12,  2.13it/s]  4%|▎         | 1736/48008 [15:00<6:11:25,  2.08it/s]  4%|▎         | 1737/48008 [15:01<6:12:02,  2.07it/s]  4%|▎         | 1738/48008 [15:01<6:11:41,  2.07it/s]  4%|▎         | 1739/48008 [15:02<6:11:03,  2.08it/s]  4%|▎         | 1740/48008 [15:02<5:55:42,  2.17it/s]  4%|▎         | 1741/48008 [15:03<6:05:20,  2.11it/s]  4%|▎         | 1742/48008 [15:04<9:05:11,  1.41it/s]  4%|▎         | 1743/48008 [15:04<7:57:35,  1.61it/s]  4%|▎         | 1744/48008 [15:05<7:25:13,  1.73it/s]  4%|▎         | 1745/48008 [15:05<7:04:02,  1.82it/s]  4%|▎         | 1746/48008 [15:06<7:01:55,  1.83it/s]  4%|▎         | 1747/48008 [15:06<6:46:13,  1.90it/s]  4%|▎         | 1748/48008 [15:07<6:35:50,  1.95it/s]  4%|▎         | 1749/48008 [15:07<6:33:12,  1.96it/s]  4%|▎         | 1750/48008 [15:08<6:27:15,  1.99it/s]                                                      {'loss': 4.7297, 'grad_norm': 0.9063666462898254, 'learning_rate': 0.00019271371438093652, 'epoch': 0.04}
  4%|▎         | 1750/48008 [15:08<6:27:15,  1.99it/s]  4%|▎         | 1751/48008 [15:08<6:27:53,  1.99it/s]  4%|▎         | 1752/48008 [15:09<6:07:51,  2.10it/s]  4%|▎         | 1753/48008 [15:09<6:08:43,  2.09it/s]  4%|▎         | 1754/48008 [15:10<6:09:50,  2.08it/s]  4%|▎         | 1755/48008 [15:10<6:10:12,  2.08it/s]  4%|▎         | 1756/48008 [15:10<5:54:53,  2.17it/s]  4%|▎         | 1757/48008 [15:11<6:04:54,  2.11it/s]  4%|▎         | 1758/48008 [15:12<9:50:40,  1.30it/s]  4%|▎         | 1759/48008 [15:13<8:45:02,  1.47it/s]  4%|▎         | 1760/48008 [15:13<7:44:07,  1.66it/s]  4%|▎         | 1761/48008 [15:14<7:01:07,  1.83it/s]  4%|▎         | 1762/48008 [15:14<6:46:00,  1.90it/s]  4%|▎         | 1763/48008 [15:15<6:43:20,  1.91it/s]  4%|▎         | 1764/48008 [15:16<9:58:51,  1.29it/s]  4%|▎         | 1765/48008 [15:17<9:04:39,  1.42it/s]  4%|▎         | 1766/48008 [15:17<7:57:06,  1.62it/s]  4%|▎         | 1767/48008 [15:18<7:24:43,  1.73it/s]  4%|▎         | 1768/48008 [15:18<6:47:41,  1.89it/s]  4%|▎         | 1769/48008 [15:18<6:37:56,  1.94it/s]  4%|▎         | 1770/48008 [15:19<6:40:01,  1.93it/s]  4%|▎         | 1771/48008 [15:19<6:36:39,  1.94it/s]  4%|▎         | 1772/48008 [15:20<6:28:27,  1.98it/s]  4%|▎         | 1773/48008 [15:20<6:22:11,  2.02it/s]  4%|▎         | 1774/48008 [15:21<6:18:31,  2.04it/s]  4%|▎         | 1775/48008 [15:21<6:22:30,  2.01it/s]  4%|▎         | 1776/48008 [15:22<6:03:39,  2.12it/s]  4%|▎         | 1777/48008 [15:22<6:06:03,  2.10it/s]  4%|▎         | 1778/48008 [15:23<5:52:18,  2.19it/s]  4%|▎         | 1779/48008 [15:23<6:06:45,  2.10it/s]  4%|▎         | 1780/48008 [15:24<6:07:54,  2.09it/s]  4%|▎         | 1781/48008 [15:24<6:08:24,  2.09it/s]  4%|▎         | 1782/48008 [15:25<6:13:20,  2.06it/s]  4%|▎         | 1783/48008 [15:25<5:57:54,  2.15it/s]  4%|▎         | 1784/48008 [15:26<6:02:16,  2.13it/s]  4%|▎         | 1785/48008 [15:26<6:05:19,  2.11it/s]  4%|▎         | 1786/48008 [15:27<6:06:47,  2.10it/s]  4%|▎         | 1787/48008 [15:27<6:22:19,  2.01it/s]  4%|▎         | 1788/48008 [15:28<6:19:12,  2.03it/s]  4%|▎         | 1789/48008 [15:28<6:23:16,  2.01it/s]  4%|▎         | 1790/48008 [15:29<6:20:01,  2.03it/s]  4%|▎         | 1791/48008 [15:29<6:22:54,  2.01it/s]  4%|▎         | 1792/48008 [15:29<6:04:59,  2.11it/s]  4%|▎         | 1793/48008 [15:30<7:38:26,  1.68it/s]  4%|▎         | 1794/48008 [15:31<7:12:17,  1.78it/s]  4%|▎         | 1795/48008 [15:31<6:39:38,  1.93it/s]  4%|▎         | 1796/48008 [15:32<6:44:11,  1.91it/s]  4%|▎         | 1797/48008 [15:32<6:39:52,  1.93it/s]  4%|▎         | 1798/48008 [15:33<6:16:00,  2.05it/s]  4%|▎         | 1799/48008 [15:33<6:23:47,  2.01it/s]  4%|▎         | 1800/48008 [15:34<6:26:10,  1.99it/s]                                                      {'loss': 4.6373, 'grad_norm': 0.7987333536148071, 'learning_rate': 0.00019250541576403934, 'epoch': 0.04}
  4%|▎         | 1800/48008 [15:34<6:26:10,  1.99it/s]  4%|▍         | 1801/48008 [15:34<6:35:36,  1.95it/s]  4%|▍         | 1802/48008 [15:35<6:33:59,  1.95it/s]  4%|▍         | 1803/48008 [15:35<6:27:04,  1.99it/s]  4%|▍         | 1804/48008 [15:36<6:29:41,  1.98it/s]  4%|▍         | 1805/48008 [15:36<6:09:32,  2.08it/s]  4%|▍         | 1806/48008 [15:37<6:15:08,  2.05it/s]  4%|▍         | 1807/48008 [15:37<6:19:33,  2.03it/s]  4%|▍         | 1808/48008 [15:38<6:01:49,  2.13it/s]  4%|▍         | 1809/48008 [15:38<6:13:04,  2.06it/s]  4%|▍         | 1810/48008 [15:39<6:21:32,  2.02it/s]  4%|▍         | 1811/48008 [15:39<6:18:31,  2.03it/s]  4%|▍         | 1812/48008 [15:40<6:21:44,  2.02it/s]  4%|▍         | 1813/48008 [15:40<6:17:41,  2.04it/s]  4%|▍         | 1814/48008 [15:41<6:15:34,  2.05it/s]  4%|▍         | 1815/48008 [15:41<6:12:51,  2.06it/s]  4%|▍         | 1816/48008 [15:42<6:20:50,  2.02it/s]  4%|▍         | 1817/48008 [15:42<6:23:58,  2.00it/s]  4%|▍         | 1818/48008 [15:43<6:20:27,  2.02it/s]  4%|▍         | 1819/48008 [15:43<6:17:34,  2.04it/s]  4%|▍         | 1820/48008 [15:44<6:29:10,  1.98it/s]  4%|▍         | 1821/48008 [15:44<6:08:05,  2.09it/s]  4%|▍         | 1822/48008 [15:45<6:08:46,  2.09it/s]  4%|▍         | 1823/48008 [15:45<6:15:39,  2.05it/s]  4%|▍         | 1824/48008 [15:46<6:19:07,  2.03it/s]  4%|▍         | 1825/48008 [15:46<6:15:44,  2.05it/s]  4%|▍         | 1826/48008 [15:47<6:19:05,  2.03it/s]  4%|▍         | 1827/48008 [15:47<6:01:12,  2.13it/s]  4%|▍         | 1828/48008 [15:48<7:35:27,  1.69it/s]  4%|▍         | 1829/48008 [15:48<6:54:40,  1.86it/s]  4%|▍         | 1830/48008 [15:49<6:41:23,  1.92it/s]  4%|▍         | 1831/48008 [15:49<6:17:16,  2.04it/s]  4%|▍         | 1832/48008 [15:50<6:15:34,  2.05it/s]  4%|▍         | 1833/48008 [15:50<6:19:36,  2.03it/s]  4%|▍         | 1834/48008 [15:51<6:21:46,  2.02it/s]  4%|▍         | 1835/48008 [15:51<6:23:44,  2.01it/s]  4%|▍         | 1836/48008 [15:52<6:19:31,  2.03it/s]  4%|▍         | 1837/48008 [15:52<6:16:35,  2.04it/s]  4%|▍         | 1838/48008 [15:53<6:27:33,  1.99it/s]  4%|▍         | 1839/48008 [15:53<6:23:36,  2.01it/s]  4%|▍         | 1840/48008 [15:54<6:18:02,  2.04it/s]  4%|▍         | 1841/48008 [15:54<6:15:57,  2.05it/s]  4%|▍         | 1842/48008 [15:55<6:20:17,  2.02it/s]  4%|▍         | 1843/48008 [15:55<6:23:33,  2.01it/s]  4%|▍         | 1844/48008 [15:56<6:04:49,  2.11it/s]  4%|▍         | 1845/48008 [15:56<5:51:17,  2.19it/s]  4%|▍         | 1846/48008 [15:56<5:57:21,  2.15it/s]  4%|▍         | 1847/48008 [15:57<6:01:38,  2.13it/s]  4%|▍         | 1848/48008 [15:57<6:04:34,  2.11it/s]  4%|▍         | 1849/48008 [15:58<6:15:53,  2.05it/s]  4%|▍         | 1850/48008 [15:58<6:28:33,  1.98it/s]                                                      {'loss': 4.6821, 'grad_norm': 0.8908417820930481, 'learning_rate': 0.00019229711714714216, 'epoch': 0.04}  4%|▍         | 1850/48008 [15:58<6:28:33,  1.98it/s]
  4%|▍         | 1851/48008 [15:59<6:27:52,  1.98it/s]  4%|▍         | 1852/48008 [15:59<6:22:44,  2.01it/s]  4%|▍         | 1853/48008 [16:00<6:25:11,  2.00it/s]  4%|▍         | 1854/48008 [16:00<6:20:49,  2.02it/s]  4%|▍         | 1855/48008 [16:01<6:17:58,  2.04it/s]  4%|▍         | 1856/48008 [16:01<6:21:15,  2.02it/s]  4%|▍         | 1857/48008 [16:02<6:26:51,  1.99it/s]  4%|▍         | 1858/48008 [16:02<6:21:08,  2.02it/s]  4%|▍         | 1859/48008 [16:03<6:18:02,  2.03it/s]  4%|▍         | 1860/48008 [16:03<6:23:27,  2.01it/s]  4%|▍         | 1861/48008 [16:04<6:25:32,  1.99it/s]  4%|▍         | 1862/48008 [16:04<6:28:48,  1.98it/s]  4%|▍         | 1863/48008 [16:05<6:24:00,  2.00it/s]  4%|▍         | 1864/48008 [16:05<6:05:18,  2.11it/s]  4%|▍         | 1865/48008 [16:06<6:07:32,  2.09it/s]  4%|▍         | 1866/48008 [16:06<5:52:05,  2.18it/s]  4%|▍         | 1867/48008 [16:07<6:07:31,  2.09it/s]  4%|▍         | 1868/48008 [16:07<6:16:31,  2.04it/s]  4%|▍         | 1869/48008 [16:08<6:14:19,  2.05it/s]  4%|▍         | 1870/48008 [16:08<6:12:54,  2.06it/s]  4%|▍         | 1871/48008 [16:09<6:12:45,  2.06it/s]  4%|▍         | 1872/48008 [16:09<6:17:23,  2.04it/s]  4%|▍         | 1873/48008 [16:10<6:15:19,  2.05it/s]  4%|▍         | 1874/48008 [16:10<6:13:51,  2.06it/s]  4%|▍         | 1875/48008 [16:11<6:57:23,  1.84it/s]  4%|▍         | 1876/48008 [16:11<6:28:29,  1.98it/s]  4%|▍         | 1877/48008 [16:12<6:31:24,  1.96it/s]  4%|▍         | 1878/48008 [16:12<6:25:36,  1.99it/s]  4%|▍         | 1879/48008 [16:13<6:33:30,  1.95it/s]  4%|▍         | 1880/48008 [16:13<6:31:29,  1.96it/s]  4%|▍         | 1881/48008 [16:14<6:24:32,  2.00it/s]  4%|▍         | 1882/48008 [16:14<6:04:35,  2.11it/s]  4%|▍         | 1883/48008 [16:15<6:06:54,  2.10it/s]  4%|▍         | 1884/48008 [16:15<6:07:01,  2.09it/s]  4%|▍         | 1885/48008 [16:16<6:18:16,  2.03it/s]  4%|▍         | 1886/48008 [16:16<6:22:27,  2.01it/s]  4%|▍         | 1887/48008 [16:17<6:17:27,  2.04it/s]  4%|▍         | 1888/48008 [16:17<6:15:45,  2.05it/s]  4%|▍         | 1889/48008 [16:18<6:19:43,  2.02it/s]  4%|▍         | 1890/48008 [16:18<6:01:14,  2.13it/s]  4%|▍         | 1891/48008 [16:19<6:04:34,  2.11it/s]  4%|▍         | 1892/48008 [16:19<6:11:52,  2.07it/s]  4%|▍         | 1893/48008 [16:20<6:23:26,  2.00it/s]  4%|▍         | 1894/48008 [16:20<6:19:26,  2.03it/s]  4%|▍         | 1895/48008 [16:21<6:29:54,  1.97it/s]  4%|▍         | 1896/48008 [16:21<6:28:04,  1.98it/s]  4%|▍         | 1897/48008 [16:22<6:32:00,  1.96it/s]  4%|▍         | 1898/48008 [16:22<6:31:02,  1.97it/s]  4%|▍         | 1899/48008 [16:23<6:24:03,  2.00it/s]  4%|▍         | 1900/48008 [16:23<6:19:27,  2.03it/s]                                                      {'loss': 4.6814, 'grad_norm': 0.9820317029953003, 'learning_rate': 0.00019208881853024498, 'epoch': 0.04}
  4%|▍         | 1900/48008 [16:23<6:19:27,  2.03it/s]  4%|▍         | 1901/48008 [16:24<6:02:07,  2.12it/s]  4%|▍         | 1902/48008 [16:24<6:11:35,  2.07it/s]  4%|▍         | 1903/48008 [16:25<6:16:11,  2.04it/s]  4%|▍         | 1904/48008 [16:25<6:13:33,  2.06it/s]  4%|▍         | 1905/48008 [16:26<9:10:06,  1.40it/s]  4%|▍         | 1906/48008 [16:27<8:20:57,  1.53it/s]  4%|▍         | 1907/48008 [16:27<7:26:31,  1.72it/s]  4%|▍         | 1908/48008 [16:28<7:09:20,  1.79it/s]  4%|▍         | 1909/48008 [16:28<6:52:06,  1.86it/s]  4%|▍         | 1910/48008 [16:29<6:25:00,  2.00it/s]  4%|▍         | 1911/48008 [16:29<6:27:15,  1.98it/s]  4%|▍         | 1912/48008 [16:30<6:21:47,  2.01it/s]  4%|▍         | 1913/48008 [16:30<6:30:16,  1.97it/s]  4%|▍         | 1914/48008 [16:31<6:23:27,  2.00it/s]  4%|▍         | 1915/48008 [16:31<6:18:12,  2.03it/s]  4%|▍         | 1916/48008 [16:32<6:28:13,  1.98it/s]  4%|▍         | 1917/48008 [16:32<6:07:58,  2.09it/s]  4%|▍         | 1918/48008 [16:33<6:08:16,  2.09it/s]  4%|▍         | 1919/48008 [16:33<6:09:14,  2.08it/s]  4%|▍         | 1920/48008 [16:33<5:55:31,  2.16it/s]  4%|▍         | 1921/48008 [16:34<5:59:27,  2.14it/s]  4%|▍         | 1922/48008 [16:34<6:08:18,  2.09it/s]  4%|▍         | 1923/48008 [16:35<6:08:44,  2.08it/s]  4%|▍         | 1924/48008 [16:35<6:09:00,  2.08it/s]  4%|▍         | 1925/48008 [16:36<5:54:28,  2.17it/s]  4%|▍         | 1926/48008 [16:36<6:07:31,  2.09it/s]  4%|▍         | 1927/48008 [16:37<6:07:26,  2.09it/s]  4%|▍         | 1928/48008 [16:37<6:06:54,  2.09it/s]  4%|▍         | 1929/48008 [16:38<6:14:20,  2.05it/s]  4%|▍         | 1930/48008 [16:38<6:13:16,  2.06it/s]  4%|▍         | 1931/48008 [16:39<6:11:58,  2.06it/s]  4%|▍         | 1932/48008 [16:39<6:11:28,  2.07it/s]  4%|▍         | 1933/48008 [16:40<6:16:46,  2.04it/s]  4%|▍         | 1934/48008 [16:40<5:58:57,  2.14it/s]  4%|▍         | 1935/48008 [16:41<6:08:36,  2.08it/s]  4%|▍         | 1936/48008 [16:41<6:08:14,  2.09it/s]  4%|▍         | 1937/48008 [16:42<6:09:11,  2.08it/s]  4%|▍         | 1938/48008 [16:42<6:18:57,  2.03it/s]  4%|▍         | 1939/48008 [16:43<6:16:41,  2.04it/s]  4%|▍         | 1940/48008 [16:43<6:14:16,  2.05it/s]  4%|▍         | 1941/48008 [16:44<6:12:47,  2.06it/s]  4%|▍         | 1942/48008 [16:44<5:56:36,  2.15it/s]  4%|▍         | 1943/48008 [16:44<6:00:44,  2.13it/s]  4%|▍         | 1944/48008 [16:45<6:09:22,  2.08it/s]  4%|▍         | 1945/48008 [16:45<6:14:43,  2.05it/s]  4%|▍         | 1946/48008 [16:46<6:13:00,  2.06it/s]  4%|▍         | 1947/48008 [16:47<6:25:21,  1.99it/s]  4%|▍         | 1948/48008 [16:47<6:22:00,  2.01it/s]  4%|▍         | 1949/48008 [16:47<6:03:54,  2.11it/s]  4%|▍         | 1950/48008 [16:48<6:07:00,  2.09it/s]                                                      {'loss': 4.6044, 'grad_norm': 0.9835630655288696, 'learning_rate': 0.0001918805199133478, 'epoch': 0.04}
  4%|▍         | 1950/48008 [16:48<6:07:00,  2.09it/s]  4%|▍         | 1951/48008 [16:48<6:12:53,  2.06it/s]  4%|▍         | 1952/48008 [16:49<6:11:38,  2.07it/s]  4%|▍         | 1953/48008 [16:49<6:10:19,  2.07it/s]  4%|▍         | 1954/48008 [16:50<5:55:08,  2.16it/s]  4%|▍         | 1955/48008 [16:50<5:44:25,  2.23it/s]  4%|▍         | 1956/48008 [16:51<5:35:49,  2.29it/s]  4%|▍         | 1957/48008 [16:51<5:31:00,  2.32it/s]  4%|▍         | 1958/48008 [16:52<5:42:18,  2.24it/s]  4%|▍         | 1959/48008 [16:52<6:03:31,  2.11it/s]  4%|▍         | 1960/48008 [16:53<6:11:56,  2.06it/s]  4%|▍         | 1961/48008 [16:53<6:11:33,  2.07it/s]  4%|▍         | 1962/48008 [16:54<6:09:57,  2.07it/s]  4%|▍         | 1963/48008 [16:54<6:15:44,  2.04it/s]  4%|▍         | 1964/48008 [16:55<6:13:47,  2.05it/s]  4%|▍         | 1965/48008 [16:55<5:57:38,  2.15it/s]  4%|▍         | 1966/48008 [16:55<5:45:55,  2.22it/s]  4%|▍         | 1967/48008 [16:56<5:52:41,  2.18it/s]  4%|▍         | 1968/48008 [16:57<7:29:06,  1.71it/s]  4%|▍         | 1969/48008 [16:57<7:18:55,  1.75it/s]  4%|▍         | 1970/48008 [16:58<7:02:12,  1.82it/s]  4%|▍         | 1971/48008 [16:58<6:50:20,  1.87it/s]  4%|▍         | 1972/48008 [16:59<6:37:45,  1.93it/s]  4%|▍         | 1973/48008 [16:59<6:14:10,  2.05it/s]  4%|▍         | 1974/48008 [17:00<5:57:15,  2.15it/s]  4%|▍         | 1975/48008 [17:00<6:00:34,  2.13it/s]  4%|▍         | 1976/48008 [17:00<5:47:58,  2.20it/s]  4%|▍         | 1977/48008 [17:01<5:53:05,  2.17it/s]  4%|▍         | 1978/48008 [17:01<5:58:23,  2.14it/s]  4%|▍         | 1979/48008 [17:02<5:46:00,  2.22it/s]  4%|▍         | 1980/48008 [17:02<5:54:26,  2.16it/s]  4%|▍         | 1981/48008 [17:03<6:44:17,  1.90it/s]  4%|▍         | 1982/48008 [17:04<7:17:44,  1.75it/s]  4%|▍         | 1983/48008 [17:04<6:56:36,  1.84it/s]  4%|▍         | 1984/48008 [17:05<6:43:06,  1.90it/s]  4%|▍         | 1985/48008 [17:05<6:18:06,  2.03it/s]  4%|▍         | 1986/48008 [17:06<6:13:59,  2.05it/s]  4%|▍         | 1987/48008 [17:06<6:17:45,  2.03it/s]  4%|▍         | 1988/48008 [17:07<6:20:56,  2.01it/s]  4%|▍         | 1989/48008 [17:07<6:02:38,  2.12it/s]  4%|▍         | 1990/48008 [17:07<6:13:33,  2.05it/s]  4%|▍         | 1991/48008 [17:08<6:12:55,  2.06it/s]  4%|▍         | 1992/48008 [17:08<5:56:44,  2.15it/s]  4%|▍         | 1993/48008 [17:09<6:04:59,  2.10it/s]  4%|▍         | 1994/48008 [17:09<6:10:44,  2.07it/s]  4%|▍         | 1995/48008 [17:10<6:20:26,  2.02it/s]  4%|▍         | 1996/48008 [17:10<6:22:05,  2.01it/s]  4%|▍         | 1997/48008 [17:11<6:27:20,  1.98it/s]  4%|▍         | 1998/48008 [17:12<7:05:33,  1.80it/s]  4%|▍         | 1999/48008 [17:12<6:49:01,  1.87it/s]  4%|▍         | 2000/48008 [17:13<6:36:25,  1.93it/s]                                                      {'loss': 4.6222, 'grad_norm': 0.8965861797332764, 'learning_rate': 0.00019167222129645058, 'epoch': 0.04}
  4%|▍         | 2000/48008 [17:13<6:36:25,  1.93it/s]  4%|▍         | 2001/48008 [17:13<6:42:34,  1.90it/s]  4%|▍         | 2002/48008 [17:14<6:32:48,  1.95it/s]  4%|▍         | 2003/48008 [17:14<6:35:01,  1.94it/s]  4%|▍         | 2004/48008 [17:15<6:36:30,  1.93it/s]  4%|▍         | 2005/48008 [17:15<6:14:08,  2.05it/s]  4%|▍         | 2006/48008 [17:15<5:58:10,  2.14it/s]  4%|▍         | 2007/48008 [17:16<6:01:25,  2.12it/s]  4%|▍         | 2008/48008 [17:16<5:49:10,  2.20it/s]  4%|▍         | 2009/48008 [17:17<6:03:23,  2.11it/s]  4%|▍         | 2010/48008 [17:17<6:05:13,  2.10it/s]  4%|▍         | 2011/48008 [17:18<6:12:26,  2.06it/s]  4%|▍         | 2012/48008 [17:18<6:11:41,  2.06it/s]  4%|▍         | 2013/48008 [17:19<6:16:31,  2.04it/s]  4%|▍         | 2014/48008 [17:19<6:21:31,  2.01it/s]  4%|▍         | 2015/48008 [17:20<6:02:01,  2.12it/s]  4%|▍         | 2016/48008 [17:20<6:11:13,  2.06it/s]  4%|▍         | 2017/48008 [17:21<6:11:28,  2.06it/s]  4%|▍         | 2018/48008 [17:21<6:16:16,  2.04it/s]  4%|▍         | 2019/48008 [17:22<6:18:40,  2.02it/s]  4%|▍         | 2020/48008 [17:22<6:22:36,  2.00it/s]  4%|▍         | 2021/48008 [17:23<6:32:40,  1.95it/s]  4%|▍         | 2022/48008 [17:23<6:31:30,  1.96it/s]  4%|▍         | 2023/48008 [17:24<6:34:11,  1.94it/s]  4%|▍         | 2024/48008 [17:24<6:27:24,  1.98it/s]  4%|▍         | 2025/48008 [17:25<6:21:17,  2.01it/s]  4%|▍         | 2026/48008 [17:25<6:03:09,  2.11it/s]  4%|▍         | 2027/48008 [17:26<5:49:59,  2.19it/s]  4%|▍         | 2028/48008 [17:26<5:55:26,  2.16it/s]  4%|▍         | 2029/48008 [17:27<5:59:39,  2.13it/s]  4%|▍         | 2030/48008 [17:27<6:08:17,  2.08it/s]  4%|▍         | 2031/48008 [17:28<6:08:31,  2.08it/s]  4%|▍         | 2032/48008 [17:28<6:13:40,  2.05it/s]  4%|▍         | 2033/48008 [17:29<6:11:22,  2.06it/s]  4%|▍         | 2034/48008 [17:29<6:17:33,  2.03it/s]  4%|▍         | 2035/48008 [17:30<6:16:18,  2.04it/s]  4%|▍         | 2036/48008 [17:30<6:19:17,  2.02it/s]  4%|▍         | 2037/48008 [17:31<6:16:23,  2.04it/s]  4%|▍         | 2038/48008 [17:31<6:18:19,  2.03it/s]  4%|▍         | 2039/48008 [17:32<6:22:35,  2.00it/s]  4%|▍         | 2040/48008 [17:32<6:17:33,  2.03it/s]  4%|▍         | 2041/48008 [17:33<6:15:14,  2.04it/s]  4%|▍         | 2042/48008 [17:33<6:13:36,  2.05it/s]  4%|▍         | 2043/48008 [17:33<5:57:12,  2.14it/s]  4%|▍         | 2044/48008 [17:34<6:11:01,  2.06it/s]  4%|▍         | 2045/48008 [17:34<5:54:51,  2.16it/s]  4%|▍         | 2046/48008 [17:35<5:43:47,  2.23it/s]  4%|▍         | 2047/48008 [17:35<6:04:36,  2.10it/s]  4%|▍         | 2048/48008 [17:36<6:05:35,  2.10it/s]  4%|▍         | 2049/48008 [17:36<5:51:07,  2.18it/s]  4%|▍         | 2050/48008 [17:37<6:05:00,  2.10it/s]                                                      {'loss': 4.5976, 'grad_norm': 0.760774552822113, 'learning_rate': 0.00019146392267955343, 'epoch': 0.04}
  4%|▍         | 2050/48008 [17:37<6:05:00,  2.10it/s]  4%|▍         | 2051/48008 [17:37<6:05:01,  2.10it/s]  4%|▍         | 2052/48008 [17:38<6:06:18,  2.09it/s]  4%|▍         | 2053/48008 [17:38<6:16:59,  2.03it/s]  4%|▍         | 2054/48008 [17:39<6:58:58,  1.83it/s]  4%|▍         | 2055/48008 [17:39<6:43:34,  1.90it/s]  4%|▍         | 2056/48008 [17:40<6:33:15,  1.95it/s]  4%|▍         | 2057/48008 [17:40<6:30:42,  1.96it/s]  4%|▍         | 2058/48008 [17:41<6:08:31,  2.08it/s]  4%|▍         | 2059/48008 [17:41<5:53:13,  2.17it/s]  4%|▍         | 2060/48008 [17:42<5:41:59,  2.24it/s]  4%|▍         | 2061/48008 [17:42<5:51:39,  2.18it/s]  4%|▍         | 2062/48008 [17:43<5:41:13,  2.24it/s]  4%|▍         | 2063/48008 [17:43<5:51:15,  2.18it/s]  4%|▍         | 2064/48008 [17:43<5:56:21,  2.15it/s]  4%|▍         | 2065/48008 [17:44<6:00:23,  2.12it/s]  4%|▍         | 2066/48008 [17:45<6:47:31,  1.88it/s]  4%|▍         | 2067/48008 [17:45<6:37:08,  1.93it/s]  4%|▍         | 2068/48008 [17:46<6:13:41,  2.05it/s]  4%|▍         | 2069/48008 [17:46<6:12:40,  2.05it/s]  4%|▍         | 2070/48008 [17:46<5:56:41,  2.15it/s]  4%|▍         | 2071/48008 [17:47<5:59:59,  2.13it/s]  4%|▍         | 2072/48008 [17:47<6:10:32,  2.07it/s]  4%|▍         | 2073/48008 [17:48<6:55:00,  1.84it/s]  4%|▍         | 2074/48008 [17:49<6:40:54,  1.91it/s]  4%|▍         | 2075/48008 [17:49<7:15:16,  1.76it/s]  4%|▍         | 2076/48008 [17:50<6:40:43,  1.91it/s]  4%|▍         | 2077/48008 [17:50<6:31:26,  1.96it/s]  4%|▍         | 2078/48008 [17:51<6:31:09,  1.96it/s]  4%|▍         | 2079/48008 [17:51<7:08:48,  1.79it/s]  4%|▍         | 2080/48008 [17:52<6:54:30,  1.85it/s]  4%|▍         | 2081/48008 [17:52<6:45:43,  1.89it/s]  4%|▍         | 2082/48008 [17:53<6:40:23,  1.91it/s]  4%|▍         | 2083/48008 [17:53<6:30:27,  1.96it/s]  4%|▍         | 2084/48008 [17:54<6:08:56,  2.07it/s]  4%|▍         | 2085/48008 [17:54<6:09:20,  2.07it/s]  4%|▍         | 2086/48008 [17:56<9:07:03,  1.40it/s]  4%|▍         | 2087/48008 [17:56<7:58:43,  1.60it/s]  4%|▍         | 2088/48008 [17:56<7:39:07,  1.67it/s]  4%|▍         | 2089/48008 [17:57<7:13:25,  1.77it/s]  4%|▍         | 2090/48008 [17:57<6:53:49,  1.85it/s]  4%|▍         | 2091/48008 [17:58<6:24:56,  1.99it/s]  4%|▍         | 2092/48008 [17:58<6:19:53,  2.01it/s]  4%|▍         | 2093/48008 [17:59<6:29:54,  1.96it/s]  4%|▍         | 2094/48008 [17:59<6:29:57,  1.96it/s]  4%|▍         | 2095/48008 [18:00<6:23:20,  2.00it/s]  4%|▍         | 2096/48008 [18:00<6:19:55,  2.01it/s]  4%|▍         | 2097/48008 [18:01<6:01:03,  2.12it/s]  4%|▍         | 2098/48008 [18:01<5:49:29,  2.19it/s]  4%|▍         | 2099/48008 [18:02<5:55:33,  2.15it/s]  4%|▍         | 2100/48008 [18:02<6:06:15,  2.09it/s]                                                        4%|▍         | 2100/48008 [18:02<6:06:15,  2.09it/s]{'loss': 4.5988, 'grad_norm': 0.9440286755561829, 'learning_rate': 0.00019125562406265622, 'epoch': 0.04}
  4%|▍         | 2101/48008 [18:03<6:06:30,  2.09it/s]  4%|▍         | 2102/48008 [18:03<6:06:14,  2.09it/s]  4%|▍         | 2103/48008 [18:04<6:12:55,  2.05it/s]  4%|▍         | 2104/48008 [18:04<5:56:07,  2.15it/s]  4%|▍         | 2105/48008 [18:04<5:43:36,  2.23it/s]  4%|▍         | 2106/48008 [18:05<5:50:34,  2.18it/s]  4%|▍         | 2107/48008 [18:06<6:09:53,  2.07it/s]  4%|▍         | 2108/48008 [18:06<6:17:49,  2.02it/s]  4%|▍         | 2109/48008 [18:06<6:00:23,  2.12it/s]  4%|▍         | 2110/48008 [18:07<6:11:44,  2.06it/s]  4%|▍         | 2111/48008 [18:07<5:55:47,  2.15it/s]  4%|▍         | 2112/48008 [18:08<6:05:11,  2.09it/s]  4%|▍         | 2113/48008 [18:09<7:37:37,  1.67it/s]  4%|▍         | 2114/48008 [18:09<7:16:19,  1.75it/s]  4%|▍         | 2115/48008 [18:10<7:00:53,  1.82it/s]  4%|▍         | 2116/48008 [18:10<6:57:28,  1.83it/s]  4%|▍         | 2117/48008 [18:11<6:42:36,  1.90it/s]  4%|▍         | 2118/48008 [18:12<9:29:03,  1.34it/s]  4%|▍         | 2119/48008 [18:13<8:33:42,  1.49it/s]  4%|▍         | 2120/48008 [18:13<8:02:36,  1.58it/s]  4%|▍         | 2121/48008 [18:14<7:36:34,  1.68it/s]  4%|▍         | 2122/48008 [18:14<7:15:03,  1.76it/s]  4%|▍         | 2123/48008 [18:15<6:39:58,  1.91it/s]  4%|▍         | 2124/48008 [18:15<6:16:20,  2.03it/s]  4%|▍         | 2125/48008 [18:15<6:22:40,  2.00it/s]  4%|▍         | 2126/48008 [18:16<6:02:59,  2.11it/s]  4%|▍         | 2127/48008 [18:16<6:13:25,  2.05it/s]  4%|▍         | 2128/48008 [18:17<5:56:30,  2.14it/s]  4%|▍         | 2129/48008 [18:17<5:58:43,  2.13it/s]  4%|▍         | 2130/48008 [18:18<6:05:39,  2.09it/s]  4%|▍         | 2131/48008 [18:18<6:06:27,  2.09it/s]  4%|▍         | 2132/48008 [18:19<6:19:20,  2.02it/s]  4%|▍         | 2133/48008 [18:19<6:17:08,  2.03it/s]  4%|▍         | 2134/48008 [18:20<6:19:06,  2.02it/s]  4%|▍         | 2135/48008 [18:20<6:21:11,  2.01it/s]  4%|▍         | 2136/48008 [18:21<6:21:32,  2.00it/s]  4%|▍         | 2137/48008 [18:22<9:14:18,  1.38it/s]  4%|▍         | 2138/48008 [18:23<8:28:09,  1.50it/s]  4%|▍         | 2139/48008 [18:23<7:47:53,  1.63it/s]  4%|▍         | 2140/48008 [18:24<8:03:05,  1.58it/s]  4%|▍         | 2141/48008 [18:24<7:41:35,  1.66it/s]  4%|▍         | 2142/48008 [18:25<6:58:57,  1.82it/s]  4%|▍         | 2143/48008 [18:25<7:28:33,  1.70it/s]  4%|▍         | 2144/48008 [18:26<6:50:24,  1.86it/s]  4%|▍         | 2145/48008 [18:26<6:44:00,  1.89it/s]  4%|▍         | 2146/48008 [18:27<6:38:59,  1.92it/s]  4%|▍         | 2147/48008 [18:27<6:28:07,  1.97it/s]  4%|▍         | 2148/48008 [18:28<6:21:55,  2.00it/s]  4%|▍         | 2149/48008 [18:28<6:17:48,  2.02it/s]  4%|▍         | 2150/48008 [18:29<6:16:59,  2.03it/s]                                                      {'loss': 4.5839, 'grad_norm': 0.8379387259483337, 'learning_rate': 0.00019104732544575906, 'epoch': 0.04}
  4%|▍         | 2150/48008 [18:29<6:16:59,  2.03it/s]  4%|▍         | 2151/48008 [18:29<6:14:32,  2.04it/s]  4%|▍         | 2152/48008 [18:30<6:13:02,  2.05it/s]  4%|▍         | 2153/48008 [18:30<6:11:34,  2.06it/s]  4%|▍         | 2154/48008 [18:31<6:09:46,  2.07it/s]  4%|▍         | 2155/48008 [18:31<6:09:49,  2.07it/s]  4%|▍         | 2156/48008 [18:32<5:54:33,  2.16it/s]  4%|▍         | 2157/48008 [18:32<6:04:03,  2.10it/s]  4%|▍         | 2158/48008 [18:32<5:50:56,  2.18it/s]  4%|▍         | 2159/48008 [18:33<5:40:39,  2.24it/s]  4%|▍         | 2160/48008 [18:33<5:53:46,  2.16it/s]  5%|▍         | 2161/48008 [18:34<6:06:37,  2.08it/s]  5%|▍         | 2162/48008 [18:34<6:15:01,  2.04it/s]  5%|▍         | 2163/48008 [18:35<6:13:30,  2.05it/s]  5%|▍         | 2164/48008 [18:35<6:10:58,  2.06it/s]  5%|▍         | 2165/48008 [18:36<6:14:32,  2.04it/s]  5%|▍         | 2166/48008 [18:36<6:21:06,  2.00it/s]  5%|▍         | 2167/48008 [18:37<6:26:14,  1.98it/s]  5%|▍         | 2168/48008 [18:37<6:20:20,  2.01it/s]  5%|▍         | 2169/48008 [18:38<6:24:05,  1.99it/s]  5%|▍         | 2170/48008 [18:38<6:23:28,  1.99it/s]  5%|▍         | 2171/48008 [18:39<7:03:11,  1.81it/s]  5%|▍         | 2172/48008 [18:40<7:32:07,  1.69it/s]  5%|▍         | 2173/48008 [18:40<7:12:18,  1.77it/s]  5%|▍         | 2174/48008 [18:41<6:52:07,  1.85it/s]  5%|▍         | 2175/48008 [18:41<6:39:05,  1.91it/s]  5%|▍         | 2176/48008 [18:42<6:34:45,  1.93it/s]  5%|▍         | 2177/48008 [18:42<6:32:01,  1.95it/s]  5%|▍         | 2178/48008 [18:43<6:24:28,  1.99it/s]  5%|▍         | 2179/48008 [18:43<6:19:32,  2.01it/s]  5%|▍         | 2180/48008 [18:44<7:01:53,  1.81it/s]  5%|▍         | 2181/48008 [18:44<6:45:17,  1.88it/s]  5%|▍         | 2182/48008 [18:45<6:33:55,  1.94it/s]  5%|▍         | 2183/48008 [18:45<6:26:41,  1.98it/s]  5%|▍         | 2184/48008 [18:46<6:20:27,  2.01it/s]  5%|▍         | 2185/48008 [18:46<6:22:09,  2.00it/s]  5%|▍         | 2186/48008 [18:47<6:02:47,  2.11it/s]  5%|▍         | 2187/48008 [18:47<6:09:41,  2.07it/s]  5%|▍         | 2188/48008 [18:48<6:08:54,  2.07it/s]  5%|▍         | 2189/48008 [18:48<6:09:04,  2.07it/s]  5%|▍         | 2190/48008 [18:49<6:07:56,  2.08it/s]  5%|▍         | 2191/48008 [18:49<5:52:02,  2.17it/s]  5%|▍         | 2192/48008 [18:50<5:57:26,  2.14it/s]  5%|▍         | 2193/48008 [18:50<6:45:15,  1.88it/s]  5%|▍         | 2194/48008 [18:51<6:39:34,  1.91it/s]  5%|▍         | 2195/48008 [18:51<6:29:15,  1.96it/s]  5%|▍         | 2196/48008 [18:52<6:22:08,  2.00it/s]  5%|▍         | 2197/48008 [18:52<6:16:59,  2.03it/s]  5%|▍         | 2198/48008 [18:53<6:13:50,  2.04it/s]  5%|▍         | 2199/48008 [18:53<6:12:30,  2.05it/s]  5%|▍         | 2200/48008 [18:54<6:11:33,  2.05it/s]                                                      {'loss': 4.5518, 'grad_norm': 0.9372899532318115, 'learning_rate': 0.00019083902682886185, 'epoch': 0.05}  5%|▍         | 2200/48008 [18:54<6:11:33,  2.05it/s]
  5%|▍         | 2201/48008 [18:54<6:10:41,  2.06it/s]  5%|▍         | 2202/48008 [18:55<6:10:32,  2.06it/s]  5%|▍         | 2203/48008 [18:55<6:23:01,  1.99it/s]  5%|▍         | 2204/48008 [18:56<6:27:19,  1.97it/s]  5%|▍         | 2205/48008 [18:56<6:30:54,  1.95it/s]  5%|▍         | 2206/48008 [18:57<6:22:55,  1.99it/s]  5%|▍         | 2207/48008 [18:58<9:16:55,  1.37it/s]  5%|▍         | 2208/48008 [18:58<8:05:59,  1.57it/s]  5%|▍         | 2209/48008 [18:59<8:15:14,  1.54it/s]  5%|▍         | 2210/48008 [19:00<7:37:00,  1.67it/s]  5%|▍         | 2211/48008 [19:00<6:54:02,  1.84it/s]  5%|▍         | 2212/48008 [19:00<6:45:58,  1.88it/s]  5%|▍         | 2213/48008 [19:01<6:34:47,  1.93it/s]  5%|▍         | 2214/48008 [19:01<6:35:19,  1.93it/s]  5%|▍         | 2215/48008 [19:02<6:26:41,  1.97it/s]  5%|▍         | 2216/48008 [19:02<6:26:10,  1.98it/s]  5%|▍         | 2217/48008 [19:03<6:20:00,  2.01it/s]  5%|▍         | 2218/48008 [19:03<6:25:10,  1.98it/s]  5%|▍         | 2219/48008 [19:04<6:24:59,  1.98it/s]  5%|▍         | 2220/48008 [19:04<6:19:25,  2.01it/s]  5%|▍         | 2221/48008 [19:05<6:16:03,  2.03it/s]  5%|▍         | 2222/48008 [19:05<6:19:05,  2.01it/s]  5%|▍         | 2223/48008 [19:06<7:46:08,  1.64it/s]  5%|▍         | 2224/48008 [19:07<7:29:02,  1.70it/s]  5%|▍         | 2225/48008 [19:07<7:03:54,  1.80it/s]  5%|▍         | 2226/48008 [19:08<6:52:23,  1.85it/s]  5%|▍         | 2227/48008 [19:08<6:38:43,  1.91it/s]  5%|▍         | 2228/48008 [19:09<6:29:07,  1.96it/s]  5%|▍         | 2229/48008 [19:09<6:07:04,  2.08it/s]  5%|▍         | 2230/48008 [19:10<5:52:58,  2.16it/s]  5%|▍         | 2231/48008 [19:10<6:40:27,  1.91it/s]  5%|▍         | 2232/48008 [19:11<6:29:46,  1.96it/s]  5%|▍         | 2233/48008 [19:11<6:23:14,  1.99it/s]  5%|▍         | 2234/48008 [19:12<6:18:28,  2.02it/s]  5%|▍         | 2235/48008 [19:12<6:15:24,  2.03it/s]  5%|▍         | 2236/48008 [19:13<6:22:24,  1.99it/s]  5%|▍         | 2237/48008 [19:13<6:16:49,  2.02it/s]  5%|▍         | 2238/48008 [19:14<6:14:07,  2.04it/s]  5%|▍         | 2239/48008 [19:14<6:55:16,  1.84it/s]  5%|▍         | 2240/48008 [19:15<6:39:56,  1.91it/s]  5%|▍         | 2241/48008 [19:15<6:31:02,  1.95it/s]  5%|▍         | 2242/48008 [19:16<6:24:46,  1.98it/s]  5%|▍         | 2243/48008 [19:16<6:19:18,  2.01it/s]  5%|▍         | 2244/48008 [19:17<6:21:46,  2.00it/s]  5%|▍         | 2245/48008 [19:17<6:17:50,  2.02it/s]  5%|▍         | 2246/48008 [19:18<6:24:12,  1.99it/s]  5%|▍         | 2247/48008 [19:18<6:19:35,  2.01it/s]  5%|▍         | 2248/48008 [19:19<6:15:45,  2.03it/s]  5%|▍         | 2249/48008 [19:19<6:12:54,  2.05it/s]  5%|▍         | 2250/48008 [19:20<5:55:57,  2.14it/s]                                                      {'loss': 4.5615, 'grad_norm': 1.0229474306106567, 'learning_rate': 0.00019063072821196467, 'epoch': 0.05}
  5%|▍         | 2250/48008 [19:20<5:55:57,  2.14it/s]  5%|▍         | 2251/48008 [19:20<5:44:09,  2.22it/s]  5%|▍         | 2252/48008 [19:21<5:51:59,  2.17it/s]  5%|▍         | 2253/48008 [19:21<5:42:21,  2.23it/s]  5%|▍         | 2254/48008 [19:21<5:52:11,  2.17it/s]  5%|▍         | 2255/48008 [19:22<6:09:17,  2.06it/s]  5%|▍         | 2256/48008 [19:23<6:13:54,  2.04it/s]  5%|▍         | 2257/48008 [19:23<6:11:09,  2.05it/s]  5%|▍         | 2258/48008 [19:23<6:10:26,  2.06it/s]  5%|▍         | 2259/48008 [19:24<6:09:16,  2.06it/s]  5%|▍         | 2260/48008 [19:24<6:08:53,  2.07it/s]  5%|▍         | 2261/48008 [19:25<6:08:20,  2.07it/s]  5%|▍         | 2262/48008 [19:25<6:13:16,  2.04it/s]  5%|▍         | 2263/48008 [19:26<6:11:16,  2.05it/s]  5%|▍         | 2264/48008 [19:26<6:23:29,  1.99it/s]  5%|▍         | 2265/48008 [19:27<6:03:34,  2.10it/s]  5%|▍         | 2266/48008 [19:27<6:09:05,  2.07it/s]  5%|▍         | 2267/48008 [19:28<6:07:32,  2.07it/s]  5%|▍         | 2268/48008 [19:28<6:07:35,  2.07it/s]  5%|▍         | 2269/48008 [19:29<6:11:47,  2.05it/s]  5%|▍         | 2270/48008 [19:29<6:09:58,  2.06it/s]  5%|▍         | 2271/48008 [19:30<6:08:00,  2.07it/s]  5%|▍         | 2272/48008 [19:30<6:08:18,  2.07it/s]  5%|▍         | 2273/48008 [19:31<5:53:26,  2.16it/s]  5%|▍         | 2274/48008 [19:32<7:27:56,  1.70it/s]  5%|▍         | 2275/48008 [19:32<7:03:06,  1.80it/s]  5%|▍         | 2276/48008 [19:33<6:45:26,  1.88it/s]  5%|▍         | 2277/48008 [19:33<6:18:19,  2.01it/s]  5%|▍         | 2278/48008 [19:34<9:10:13,  1.39it/s]  5%|▍         | 2279/48008 [19:35<8:14:38,  1.54it/s]  5%|▍         | 2280/48008 [19:35<7:44:52,  1.64it/s]  5%|▍         | 2281/48008 [19:36<7:20:55,  1.73it/s]  5%|▍         | 2282/48008 [19:36<6:58:27,  1.82it/s]  5%|▍         | 2283/48008 [19:37<7:28:26,  1.70it/s]  5%|▍         | 2284/48008 [19:37<7:03:00,  1.80it/s]  5%|▍         | 2285/48008 [19:38<6:50:33,  1.86it/s]  5%|▍         | 2286/48008 [19:38<6:37:36,  1.92it/s]  5%|▍         | 2287/48008 [19:39<6:13:38,  2.04it/s]  5%|▍         | 2288/48008 [19:39<6:11:56,  2.05it/s]  5%|▍         | 2289/48008 [19:40<6:10:46,  2.06it/s]  5%|▍         | 2290/48008 [19:41<9:05:40,  1.40it/s]  5%|▍         | 2291/48008 [19:41<8:17:16,  1.53it/s]  5%|▍         | 2292/48008 [19:42<7:37:57,  1.66it/s]  5%|▍         | 2293/48008 [19:42<7:14:21,  1.75it/s]  5%|▍         | 2294/48008 [19:43<6:52:29,  1.85it/s]  5%|▍         | 2295/48008 [19:43<6:44:35,  1.88it/s]  5%|▍         | 2296/48008 [19:44<7:16:00,  1.75it/s]  5%|▍         | 2297/48008 [19:45<7:00:38,  1.81it/s]  5%|▍         | 2298/48008 [19:45<6:49:15,  1.86it/s]  5%|▍         | 2299/48008 [19:46<6:36:23,  1.92it/s]  5%|▍         | 2300/48008 [19:46<6:41:03,  1.90it/s]                                                      {'loss': 4.5604, 'grad_norm': 0.8927663564682007, 'learning_rate': 0.00019042242959506751, 'epoch': 0.05}
  5%|▍         | 2300/48008 [19:46<6:41:03,  1.90it/s]  5%|▍         | 2301/48008 [19:47<6:43:29,  1.89it/s]  5%|▍         | 2302/48008 [19:47<6:32:46,  1.94it/s]  5%|▍         | 2303/48008 [19:48<6:33:39,  1.94it/s]  5%|▍         | 2304/48008 [19:48<6:25:20,  1.98it/s]  5%|▍         | 2305/48008 [19:49<6:25:02,  1.98it/s]  5%|▍         | 2306/48008 [19:49<6:20:03,  2.00it/s]  5%|▍         | 2307/48008 [19:50<6:29:29,  1.96it/s]  5%|▍         | 2308/48008 [19:50<6:22:38,  1.99it/s]  5%|▍         | 2309/48008 [19:51<6:23:11,  1.99it/s]  5%|▍         | 2310/48008 [19:52<7:47:46,  1.63it/s]  5%|▍         | 2311/48008 [19:52<7:30:10,  1.69it/s]  5%|▍         | 2312/48008 [19:53<7:06:34,  1.79it/s]  5%|▍         | 2313/48008 [19:53<6:49:24,  1.86it/s]  5%|▍         | 2314/48008 [19:54<6:44:17,  1.88it/s]  5%|▍         | 2315/48008 [19:54<6:17:59,  2.01it/s]  5%|▍         | 2316/48008 [19:54<6:23:28,  1.99it/s]  5%|▍         | 2317/48008 [19:55<6:27:27,  1.97it/s]  5%|▍         | 2318/48008 [19:55<6:05:30,  2.08it/s]  5%|▍         | 2319/48008 [19:56<5:50:26,  2.17it/s]  5%|▍         | 2320/48008 [19:56<5:54:44,  2.15it/s]  5%|▍         | 2321/48008 [19:57<6:03:32,  2.09it/s]  5%|▍         | 2322/48008 [19:57<6:09:55,  2.06it/s]  5%|▍         | 2323/48008 [19:58<6:10:32,  2.05it/s]  5%|▍         | 2324/48008 [19:58<6:18:10,  2.01it/s]  5%|▍         | 2325/48008 [19:59<6:23:10,  1.99it/s]  5%|▍         | 2326/48008 [19:59<6:17:29,  2.02it/s]  5%|▍         | 2327/48008 [20:00<5:58:30,  2.12it/s]  5%|▍         | 2328/48008 [20:00<6:01:08,  2.11it/s]  5%|▍         | 2329/48008 [20:01<6:07:22,  2.07it/s]  5%|▍         | 2330/48008 [20:01<6:19:24,  2.01it/s]  5%|▍         | 2331/48008 [20:02<6:24:39,  1.98it/s]  5%|▍         | 2332/48008 [20:02<6:23:48,  1.98it/s]  5%|▍         | 2333/48008 [20:03<6:23:57,  1.98it/s]  5%|▍         | 2334/48008 [20:03<6:24:21,  1.98it/s]  5%|▍         | 2335/48008 [20:04<6:17:39,  2.02it/s]  5%|▍         | 2336/48008 [20:05<9:11:03,  1.38it/s]  5%|▍         | 2337/48008 [20:06<8:24:01,  1.51it/s]  5%|▍         | 2338/48008 [20:06<7:42:10,  1.65it/s]  5%|▍         | 2339/48008 [20:07<7:18:29,  1.74it/s]  5%|▍         | 2340/48008 [20:07<7:05:44,  1.79it/s]  5%|▍         | 2341/48008 [20:07<6:46:39,  1.87it/s]  5%|▍         | 2342/48008 [20:08<6:47:36,  1.87it/s]  5%|▍         | 2343/48008 [20:08<6:19:34,  2.01it/s]  5%|▍         | 2344/48008 [20:09<6:58:56,  1.82it/s]  5%|▍         | 2345/48008 [20:10<6:41:52,  1.89it/s]  5%|▍         | 2346/48008 [20:10<6:29:45,  1.95it/s]  5%|▍         | 2347/48008 [20:11<6:22:12,  1.99it/s]  5%|▍         | 2348/48008 [20:11<6:22:27,  1.99it/s]  5%|▍         | 2349/48008 [20:12<6:30:50,  1.95it/s]  5%|▍         | 2350/48008 [20:12<6:28:57,  1.96it/s]                                                      {'loss': 4.5435, 'grad_norm': 0.8894573450088501, 'learning_rate': 0.0001902141309781703, 'epoch': 0.05}
  5%|▍         | 2350/48008 [20:12<6:28:57,  1.96it/s]  5%|▍         | 2351/48008 [20:13<6:07:39,  2.07it/s]  5%|▍         | 2352/48008 [20:13<6:52:17,  1.85it/s]  5%|▍         | 2353/48008 [20:14<6:44:44,  1.88it/s]  5%|▍         | 2354/48008 [20:14<6:17:55,  2.01it/s]  5%|▍         | 2355/48008 [20:15<6:23:39,  1.98it/s]  5%|▍         | 2356/48008 [20:15<6:17:41,  2.01it/s]  5%|▍         | 2357/48008 [20:16<6:19:32,  2.00it/s]  5%|▍         | 2358/48008 [20:16<6:00:34,  2.11it/s]  5%|▍         | 2359/48008 [20:16<5:47:39,  2.19it/s]  5%|▍         | 2360/48008 [20:17<5:53:09,  2.15it/s]  5%|▍         | 2361/48008 [20:17<5:57:21,  2.13it/s]  5%|▍         | 2362/48008 [20:18<6:12:02,  2.04it/s]  5%|▍         | 2363/48008 [20:19<6:54:46,  1.83it/s]  5%|▍         | 2364/48008 [20:19<6:25:05,  1.98it/s]  5%|▍         | 2365/48008 [20:20<6:32:36,  1.94it/s]  5%|▍         | 2366/48008 [20:20<6:23:18,  1.98it/s]  5%|▍         | 2367/48008 [20:21<6:18:11,  2.01it/s]  5%|▍         | 2368/48008 [20:21<7:45:38,  1.63it/s]  5%|▍         | 2369/48008 [20:22<7:29:11,  1.69it/s]  5%|▍         | 2370/48008 [20:23<7:17:47,  1.74it/s]  5%|▍         | 2371/48008 [20:23<6:41:28,  1.89it/s]  5%|▍         | 2372/48008 [20:24<7:14:15,  1.75it/s]  5%|▍         | 2373/48008 [20:24<6:59:23,  1.81it/s]  5%|▍         | 2374/48008 [20:25<6:53:51,  1.84it/s]  5%|▍         | 2375/48008 [20:25<6:40:29,  1.90it/s]  5%|▍         | 2376/48008 [20:26<7:14:14,  1.75it/s]  5%|▍         | 2377/48008 [20:26<6:57:39,  1.82it/s]  5%|▍         | 2378/48008 [20:27<6:47:12,  1.87it/s]  5%|▍         | 2379/48008 [20:27<6:38:37,  1.91it/s]  5%|▍         | 2380/48008 [20:28<6:29:17,  1.95it/s]  5%|▍         | 2381/48008 [20:29<9:19:01,  1.36it/s]  5%|▍         | 2382/48008 [20:30<8:20:33,  1.52it/s]  5%|▍         | 2383/48008 [20:30<7:45:10,  1.63it/s]  5%|▍         | 2384/48008 [20:31<7:19:14,  1.73it/s]  5%|▍         | 2385/48008 [20:31<7:09:21,  1.77it/s]  5%|▍         | 2386/48008 [20:32<6:57:58,  1.82it/s]  5%|▍         | 2387/48008 [20:32<6:41:32,  1.89it/s]  5%|▍         | 2388/48008 [20:33<6:36:22,  1.92it/s]  5%|▍         | 2389/48008 [20:33<6:27:43,  1.96it/s]  5%|▍         | 2390/48008 [20:34<6:20:57,  2.00it/s]  5%|▍         | 2391/48008 [20:34<6:21:23,  1.99it/s]  5%|▍         | 2392/48008 [20:34<6:15:52,  2.02it/s]  5%|▍         | 2393/48008 [20:35<7:42:54,  1.64it/s]  5%|▍         | 2394/48008 [20:36<7:14:20,  1.75it/s]  5%|▍         | 2395/48008 [20:36<6:54:29,  1.83it/s]  5%|▍         | 2396/48008 [20:37<6:44:37,  1.88it/s]  5%|▍         | 2397/48008 [20:37<6:40:47,  1.90it/s]  5%|▍         | 2398/48008 [20:38<6:29:14,  1.95it/s]  5%|▍         | 2399/48008 [20:38<6:31:08,  1.94it/s]  5%|▍         | 2400/48008 [20:39<6:08:46,  2.06it/s]                                                      {'loss': 4.5294, 'grad_norm': 0.9909685254096985, 'learning_rate': 0.00019000583236127315, 'epoch': 0.05}
  5%|▍         | 2400/48008 [20:39<6:08:46,  2.06it/s]  5%|▌         | 2401/48008 [20:39<5:54:04,  2.15it/s]  5%|▌         | 2402/48008 [20:40<5:43:18,  2.21it/s]  5%|▌         | 2403/48008 [20:40<6:32:56,  1.93it/s]  5%|▌         | 2404/48008 [20:41<6:23:48,  1.98it/s]  5%|▌         | 2405/48008 [20:41<6:23:12,  1.98it/s]  5%|▌         | 2406/48008 [20:42<6:18:27,  2.01it/s]  5%|▌         | 2407/48008 [20:43<10:17:18,  1.23it/s]  5%|▌         | 2408/48008 [20:44<8:46:55,  1.44it/s]   5%|▌         | 2409/48008 [20:44<7:58:15,  1.59it/s]  5%|▌         | 2410/48008 [20:45<7:28:50,  1.69it/s]  5%|▌         | 2411/48008 [20:45<7:11:45,  1.76it/s]  5%|▌         | 2412/48008 [20:46<9:46:34,  1.30it/s]  5%|▌         | 2413/48008 [20:48<12:28:03,  1.02it/s]  5%|▌         | 2414/48008 [20:48<10:39:53,  1.19it/s]  5%|▌         | 2415/48008 [20:49<9:17:58,  1.36it/s]   5%|▌         | 2416/48008 [20:49<8:21:47,  1.51it/s]  5%|▌         | 2417/48008 [20:50<7:41:20,  1.65it/s]  5%|▌         | 2418/48008 [20:50<7:13:23,  1.75it/s]  5%|▌         | 2419/48008 [20:51<6:53:12,  1.84it/s]  5%|▌         | 2420/48008 [20:51<6:48:00,  1.86it/s]  5%|▌         | 2421/48008 [20:52<6:35:18,  1.92it/s]  5%|▌         | 2422/48008 [20:52<6:26:41,  1.96it/s]  5%|▌         | 2423/48008 [20:53<6:32:26,  1.94it/s]  5%|▌         | 2424/48008 [20:53<6:24:27,  1.98it/s]  5%|▌         | 2425/48008 [20:54<6:04:31,  2.08it/s]  5%|▌         | 2426/48008 [20:54<6:13:01,  2.04it/s]  5%|▌         | 2427/48008 [20:55<5:55:41,  2.14it/s]  5%|▌         | 2428/48008 [20:55<5:44:29,  2.21it/s]  5%|▌         | 2429/48008 [20:56<5:51:08,  2.16it/s]  5%|▌         | 2430/48008 [20:56<5:40:32,  2.23it/s]  5%|▌         | 2431/48008 [20:56<5:33:51,  2.28it/s]  5%|▌         | 2432/48008 [20:57<5:49:45,  2.17it/s]  5%|▌         | 2433/48008 [20:57<5:54:47,  2.14it/s]  5%|▌         | 2434/48008 [20:59<8:54:49,  1.42it/s]  5%|▌         | 2435/48008 [20:59<8:04:57,  1.57it/s]  5%|▌         | 2436/48008 [21:00<7:14:34,  1.75it/s]  5%|▌         | 2437/48008 [21:00<7:07:03,  1.78it/s]  5%|▌         | 2438/48008 [21:01<6:34:22,  1.93it/s]  5%|▌         | 2439/48008 [21:01<6:25:09,  1.97it/s]  5%|▌         | 2440/48008 [21:02<6:24:54,  1.97it/s]  5%|▌         | 2441/48008 [21:02<6:17:42,  2.01it/s]  5%|▌         | 2442/48008 [21:03<6:19:31,  2.00it/s]  5%|▌         | 2443/48008 [21:03<6:21:20,  1.99it/s]  5%|▌         | 2444/48008 [21:04<6:20:53,  1.99it/s]  5%|▌         | 2445/48008 [21:04<6:26:22,  1.97it/s]  5%|▌         | 2446/48008 [21:05<9:15:13,  1.37it/s]  5%|▌         | 2447/48008 [21:06<8:03:37,  1.57it/s]  5%|▌         | 2448/48008 [21:06<7:32:45,  1.68it/s]  5%|▌         | 2449/48008 [21:07<7:10:31,  1.76it/s]  5%|▌         | 2450/48008 [21:07<7:03:24,  1.79it/s]                                                      {'loss': 4.5066, 'grad_norm': 0.8815353512763977, 'learning_rate': 0.00018979753374437594, 'epoch': 0.05}
  5%|▌         | 2450/48008 [21:07<7:03:24,  1.79it/s]  5%|▌         | 2451/48008 [21:08<6:54:01,  1.83it/s]  5%|▌         | 2452/48008 [21:08<6:48:19,  1.86it/s]  5%|▌         | 2453/48008 [21:09<6:40:07,  1.90it/s]  5%|▌         | 2454/48008 [21:09<6:30:13,  1.95it/s]  5%|▌         | 2455/48008 [21:10<6:23:02,  1.98it/s]  5%|▌         | 2456/48008 [21:10<6:17:40,  2.01it/s]  5%|▌         | 2457/48008 [21:11<6:13:55,  2.03it/s]  5%|▌         | 2458/48008 [21:11<6:20:50,  1.99it/s]  5%|▌         | 2459/48008 [21:12<6:16:49,  2.01it/s]  5%|▌         | 2460/48008 [21:12<6:17:23,  2.01it/s]  5%|▌         | 2461/48008 [21:13<5:58:15,  2.12it/s]  5%|▌         | 2462/48008 [21:13<6:05:01,  2.08it/s]  5%|▌         | 2463/48008 [21:14<6:09:19,  2.06it/s]  5%|▌         | 2464/48008 [21:14<6:21:29,  1.99it/s]  5%|▌         | 2465/48008 [21:15<6:16:02,  2.02it/s]  5%|▌         | 2466/48008 [21:15<6:17:21,  2.01it/s]  5%|▌         | 2467/48008 [21:16<6:18:29,  2.01it/s]  5%|▌         | 2468/48008 [21:16<6:00:25,  2.11it/s]  5%|▌         | 2469/48008 [21:17<6:00:52,  2.10it/s]  5%|▌         | 2470/48008 [21:17<6:01:42,  2.10it/s]  5%|▌         | 2471/48008 [21:18<6:08:41,  2.06it/s]  5%|▌         | 2472/48008 [21:18<6:20:38,  1.99it/s]  5%|▌         | 2473/48008 [21:19<6:21:45,  1.99it/s]  5%|▌         | 2474/48008 [21:19<6:02:14,  2.10it/s]  5%|▌         | 2475/48008 [21:19<6:04:17,  2.08it/s]  5%|▌         | 2476/48008 [21:20<5:50:33,  2.16it/s]  5%|▌         | 2477/48008 [21:20<5:40:27,  2.23it/s]  5%|▌         | 2478/48008 [21:21<5:47:41,  2.18it/s]  5%|▌         | 2479/48008 [21:21<6:37:34,  1.91it/s]  5%|▌         | 2480/48008 [21:22<6:41:19,  1.89it/s]  5%|▌         | 2481/48008 [21:22<6:15:50,  2.02it/s]  5%|▌         | 2482/48008 [21:23<5:50:00,  2.17it/s]  5%|▌         | 2483/48008 [21:23<5:55:26,  2.13it/s]  5%|▌         | 2484/48008 [21:24<6:04:03,  2.08it/s]  5%|▌         | 2485/48008 [21:24<6:06:09,  2.07it/s]  5%|▌         | 2486/48008 [21:25<6:05:19,  2.08it/s]  5%|▌         | 2487/48008 [21:25<6:14:17,  2.03it/s]  5%|▌         | 2488/48008 [21:26<6:12:03,  2.04it/s]  5%|▌         | 2489/48008 [21:26<5:55:12,  2.14it/s]  5%|▌         | 2490/48008 [21:27<6:02:53,  2.09it/s]  5%|▌         | 2491/48008 [21:28<9:00:42,  1.40it/s]  5%|▌         | 2492/48008 [21:28<8:09:31,  1.55it/s]  5%|▌         | 2493/48008 [21:29<7:41:38,  1.64it/s]  5%|▌         | 2494/48008 [21:29<7:13:08,  1.75it/s]  5%|▌         | 2495/48008 [21:30<6:37:41,  1.91it/s]  5%|▌         | 2496/48008 [21:30<6:33:03,  1.93it/s]  5%|▌         | 2497/48008 [21:31<6:28:57,  1.95it/s]  5%|▌         | 2498/48008 [21:31<6:22:17,  1.98it/s]  5%|▌         | 2499/48008 [21:32<6:25:29,  1.97it/s]  5%|▌         | 2500/48008 [21:32<6:20:02,  2.00it/s]                                                      {'loss': 4.4865, 'grad_norm': 0.9264057874679565, 'learning_rate': 0.00018958923512747878, 'epoch': 0.05}
  5%|▌         | 2500/48008 [21:32<6:20:02,  2.00it/s]  5%|▌         | 2501/48008 [21:33<6:25:13,  1.97it/s]  5%|▌         | 2502/48008 [21:33<6:04:12,  2.08it/s]  5%|▌         | 2503/48008 [21:34<6:05:24,  2.08it/s]  5%|▌         | 2504/48008 [21:35<9:01:56,  1.40it/s]  5%|▌         | 2505/48008 [21:36<8:13:47,  1.54it/s]  5%|▌         | 2506/48008 [21:36<7:34:54,  1.67it/s]  5%|▌         | 2507/48008 [21:37<7:13:41,  1.75it/s]  5%|▌         | 2508/48008 [21:37<6:59:08,  1.81it/s]  5%|▌         | 2509/48008 [21:38<6:41:25,  1.89it/s]  5%|▌         | 2510/48008 [21:38<6:14:42,  2.02it/s]  5%|▌         | 2511/48008 [21:38<6:11:17,  2.04it/s]  5%|▌         | 2512/48008 [21:39<5:53:47,  2.14it/s]  5%|▌         | 2513/48008 [21:39<6:03:17,  2.09it/s]  5%|▌         | 2514/48008 [21:40<6:16:54,  2.01it/s]  5%|▌         | 2515/48008 [21:41<6:59:45,  1.81it/s]  5%|▌         | 2516/48008 [21:41<7:28:16,  1.69it/s]  5%|▌         | 2517/48008 [21:42<7:12:11,  1.75it/s]  5%|▌         | 2518/48008 [21:42<6:37:21,  1.91it/s]  5%|▌         | 2519/48008 [21:43<9:23:42,  1.34it/s]  5%|▌         | 2520/48008 [21:44<8:23:21,  1.51it/s]  5%|▌         | 2521/48008 [21:44<7:42:14,  1.64it/s]  5%|▌         | 2522/48008 [21:45<7:12:56,  1.75it/s]  5%|▌         | 2523/48008 [21:45<6:54:00,  1.83it/s]  5%|▌         | 2524/48008 [21:46<6:43:29,  1.88it/s]  5%|▌         | 2525/48008 [21:46<6:16:51,  2.01it/s]  5%|▌         | 2526/48008 [21:47<6:18:16,  2.00it/s]  5%|▌         | 2527/48008 [21:47<6:14:56,  2.02it/s]  5%|▌         | 2528/48008 [21:48<6:17:38,  2.01it/s]  5%|▌         | 2529/48008 [21:48<6:14:06,  2.03it/s]  5%|▌         | 2530/48008 [21:49<6:10:40,  2.04it/s]  5%|▌         | 2531/48008 [21:49<6:18:11,  2.00it/s]  5%|▌         | 2532/48008 [21:50<6:28:04,  1.95it/s]  5%|▌         | 2533/48008 [21:51<9:16:35,  1.36it/s]  5%|▌         | 2534/48008 [21:51<8:04:45,  1.56it/s]  5%|▌         | 2535/48008 [21:52<7:14:29,  1.74it/s]  5%|▌         | 2536/48008 [21:52<7:02:42,  1.79it/s]  5%|▌         | 2537/48008 [21:53<6:22:31,  1.98it/s]  5%|▌         | 2538/48008 [21:53<6:03:17,  2.09it/s]  5%|▌         | 2539/48008 [21:54<6:02:53,  2.09it/s]  5%|▌         | 2540/48008 [21:54<6:03:10,  2.09it/s]  5%|▌         | 2541/48008 [21:55<6:04:08,  2.08it/s]  5%|▌         | 2542/48008 [21:55<6:03:08,  2.09it/s]  5%|▌         | 2543/48008 [21:56<6:03:14,  2.09it/s]  5%|▌         | 2544/48008 [21:56<6:04:13,  2.08it/s]  5%|▌         | 2545/48008 [21:57<6:03:34,  2.08it/s]  5%|▌         | 2546/48008 [21:57<6:02:19,  2.09it/s]  5%|▌         | 2547/48008 [21:58<6:07:44,  2.06it/s]  5%|▌         | 2548/48008 [21:58<6:06:12,  2.07it/s]  5%|▌         | 2549/48008 [21:59<6:50:27,  1.85it/s]  5%|▌         | 2550/48008 [21:59<6:21:44,  1.98it/s]                                                      {'loss': 4.5292, 'grad_norm': 0.8656718730926514, 'learning_rate': 0.00018938093651058157, 'epoch': 0.05}  5%|▌         | 2550/48008 [21:59<6:21:44,  1.98it/s]
  5%|▌         | 2551/48008 [22:00<6:59:51,  1.80it/s]  5%|▌         | 2552/48008 [22:00<6:28:07,  1.95it/s]  5%|▌         | 2553/48008 [22:01<6:25:53,  1.96it/s]  5%|▌         | 2554/48008 [22:01<6:18:58,  2.00it/s]  5%|▌         | 2555/48008 [22:02<5:59:42,  2.11it/s]  5%|▌         | 2556/48008 [22:02<6:06:25,  2.07it/s]  5%|▌         | 2557/48008 [22:03<6:06:24,  2.07it/s]  5%|▌         | 2558/48008 [22:03<6:06:22,  2.07it/s]  5%|▌         | 2559/48008 [22:04<6:06:25,  2.07it/s]  5%|▌         | 2560/48008 [22:04<6:19:52,  1.99it/s]  5%|▌         | 2561/48008 [22:05<6:19:29,  2.00it/s]  5%|▌         | 2562/48008 [22:05<6:23:07,  1.98it/s]  5%|▌         | 2563/48008 [22:06<6:22:20,  1.98it/s]  5%|▌         | 2564/48008 [22:06<6:01:35,  2.09it/s]  5%|▌         | 2565/48008 [22:07<6:01:29,  2.10it/s]  5%|▌         | 2566/48008 [22:07<6:06:19,  2.07it/s]  5%|▌         | 2567/48008 [22:07<6:09:58,  2.05it/s]  5%|▌         | 2568/48008 [22:08<6:51:18,  1.84it/s]  5%|▌         | 2569/48008 [22:09<7:20:03,  1.72it/s]  5%|▌         | 2570/48008 [22:09<6:42:21,  1.88it/s]  5%|▌         | 2571/48008 [22:10<6:40:07,  1.89it/s]  5%|▌         | 2572/48008 [22:10<6:28:26,  1.95it/s]  5%|▌         | 2573/48008 [22:11<6:21:29,  1.98it/s]  5%|▌         | 2574/48008 [22:11<6:01:33,  2.09it/s]  5%|▌         | 2575/48008 [22:12<5:47:37,  2.18it/s]  5%|▌         | 2576/48008 [22:12<6:37:33,  1.90it/s]  5%|▌         | 2577/48008 [22:13<9:21:07,  1.35it/s]  5%|▌         | 2578/48008 [22:14<8:27:46,  1.49it/s]  5%|▌         | 2579/48008 [22:15<7:53:32,  1.60it/s]  5%|▌         | 2580/48008 [22:15<7:20:57,  1.72it/s]  5%|▌         | 2581/48008 [22:16<7:42:00,  1.64it/s]  5%|▌         | 2582/48008 [22:16<7:19:19,  1.72it/s]  5%|▌         | 2583/48008 [22:17<7:01:29,  1.80it/s]  5%|▌         | 2584/48008 [22:17<6:44:02,  1.87it/s]  5%|▌         | 2585/48008 [22:18<6:41:49,  1.88it/s]  5%|▌         | 2586/48008 [22:19<8:00:49,  1.57it/s]  5%|▌         | 2587/48008 [22:19<7:24:51,  1.70it/s]  5%|▌         | 2588/48008 [22:20<7:04:34,  1.78it/s]  5%|▌         | 2589/48008 [22:20<6:45:14,  1.87it/s]  5%|▌         | 2590/48008 [22:21<6:47:05,  1.86it/s]  5%|▌         | 2591/48008 [22:21<6:34:40,  1.92it/s]  5%|▌         | 2592/48008 [22:22<6:31:15,  1.93it/s]  5%|▌         | 2593/48008 [22:22<6:28:37,  1.95it/s]  5%|▌         | 2594/48008 [22:23<6:35:12,  1.92it/s]  5%|▌         | 2595/48008 [22:23<6:03:03,  2.08it/s]  5%|▌         | 2596/48008 [22:23<5:48:33,  2.17it/s]  5%|▌         | 2597/48008 [22:24<5:53:01,  2.14it/s]  5%|▌         | 2598/48008 [22:25<6:40:31,  1.89it/s]  5%|▌         | 2599/48008 [22:25<6:39:54,  1.89it/s]  5%|▌         | 2600/48008 [22:26<6:33:05,  1.93it/s]                                                      {'loss': 4.5102, 'grad_norm': 0.9323079586029053, 'learning_rate': 0.0001891726378936844, 'epoch': 0.05}
  5%|▌         | 2600/48008 [22:26<6:33:05,  1.93it/s]  5%|▌         | 2601/48008 [22:26<6:09:19,  2.05it/s]  5%|▌         | 2602/48008 [22:26<5:53:12,  2.14it/s]  5%|▌         | 2603/48008 [22:27<5:42:02,  2.21it/s]  5%|▌         | 2604/48008 [22:27<5:48:38,  2.17it/s]  5%|▌         | 2605/48008 [22:28<5:38:59,  2.23it/s]  5%|▌         | 2606/48008 [22:28<5:31:45,  2.28it/s]  5%|▌         | 2607/48008 [22:29<5:50:08,  2.16it/s]  5%|▌         | 2608/48008 [22:29<5:54:51,  2.13it/s]  5%|▌         | 2609/48008 [22:30<5:57:10,  2.12it/s]  5%|▌         | 2610/48008 [22:30<5:59:41,  2.10it/s]  5%|▌         | 2611/48008 [22:31<6:44:51,  1.87it/s]  5%|▌         | 2612/48008 [22:31<6:40:24,  1.89it/s]  5%|▌         | 2613/48008 [22:32<6:34:02,  1.92it/s]  5%|▌         | 2614/48008 [22:32<6:02:00,  2.09it/s]  5%|▌         | 2615/48008 [22:33<6:06:56,  2.06it/s]  5%|▌         | 2616/48008 [22:33<6:06:15,  2.07it/s]  5%|▌         | 2617/48008 [22:34<6:13:31,  2.03it/s]  5%|▌         | 2618/48008 [22:34<6:10:59,  2.04it/s]  5%|▌         | 2619/48008 [22:35<5:55:26,  2.13it/s]  5%|▌         | 2620/48008 [22:35<6:03:12,  2.08it/s]  5%|▌         | 2621/48008 [22:36<6:02:17,  2.09it/s]  5%|▌         | 2622/48008 [22:36<6:03:37,  2.08it/s]  5%|▌         | 2623/48008 [22:37<6:03:39,  2.08it/s]  5%|▌         | 2624/48008 [22:37<6:10:09,  2.04it/s]  5%|▌         | 2625/48008 [22:37<5:54:46,  2.13it/s]  5%|▌         | 2626/48008 [22:38<6:10:39,  2.04it/s]  5%|▌         | 2627/48008 [22:38<6:08:56,  2.05it/s]  5%|▌         | 2628/48008 [22:39<6:09:26,  2.05it/s]  5%|▌         | 2629/48008 [22:39<6:06:33,  2.06it/s]  5%|▌         | 2630/48008 [22:40<6:04:41,  2.07it/s]  5%|▌         | 2631/48008 [22:40<5:50:12,  2.16it/s]  5%|▌         | 2632/48008 [22:41<6:00:29,  2.10it/s]  5%|▌         | 2633/48008 [22:41<5:47:02,  2.18it/s]  5%|▌         | 2634/48008 [22:42<5:57:37,  2.11it/s]  5%|▌         | 2635/48008 [22:42<6:09:22,  2.05it/s]  5%|▌         | 2636/48008 [22:44<9:04:27,  1.39it/s]  5%|▌         | 2637/48008 [22:44<8:09:31,  1.54it/s]  5%|▌         | 2638/48008 [22:45<7:43:59,  1.63it/s]  5%|▌         | 2639/48008 [22:45<7:13:19,  1.74it/s]  5%|▌         | 2640/48008 [22:46<6:58:52,  1.81it/s]  6%|▌         | 2641/48008 [22:46<6:46:59,  1.86it/s]  6%|▌         | 2642/48008 [22:47<6:33:33,  1.92it/s]  6%|▌         | 2643/48008 [22:47<6:24:38,  1.97it/s]  6%|▌         | 2644/48008 [22:48<6:18:33,  2.00it/s]  6%|▌         | 2645/48008 [22:48<7:44:43,  1.63it/s]  6%|▌         | 2646/48008 [22:49<7:14:48,  1.74it/s]  6%|▌         | 2647/48008 [22:49<6:39:49,  1.89it/s]  6%|▌         | 2648/48008 [22:50<6:29:01,  1.94it/s]  6%|▌         | 2649/48008 [22:50<6:22:00,  1.98it/s]  6%|▌         | 2650/48008 [22:51<6:24:55,  1.96it/s]                                                      {'loss': 4.4594, 'grad_norm': 0.8865402936935425, 'learning_rate': 0.0001889643392767872, 'epoch': 0.06}  6%|▌         | 2650/48008 [22:51<6:24:55,  1.96it/s]
  6%|▌         | 2651/48008 [22:51<6:18:20,  2.00it/s]  6%|▌         | 2652/48008 [22:52<6:13:56,  2.02it/s]  6%|▌         | 2653/48008 [22:52<5:55:22,  2.13it/s]  6%|▌         | 2654/48008 [22:53<5:43:50,  2.20it/s]  6%|▌         | 2655/48008 [22:53<5:35:42,  2.25it/s]  6%|▌         | 2656/48008 [22:53<5:28:41,  2.30it/s]  6%|▌         | 2657/48008 [22:54<5:52:03,  2.15it/s]  6%|▌         | 2658/48008 [22:54<5:55:42,  2.12it/s]  6%|▌         | 2659/48008 [22:55<6:03:19,  2.08it/s]  6%|▌         | 2660/48008 [22:55<6:04:50,  2.07it/s]  6%|▌         | 2661/48008 [22:56<6:03:46,  2.08it/s]  6%|▌         | 2662/48008 [22:56<6:09:40,  2.04it/s]  6%|▌         | 2663/48008 [22:57<5:53:42,  2.14it/s]  6%|▌         | 2664/48008 [22:57<6:01:17,  2.09it/s]  6%|▌         | 2665/48008 [22:58<6:07:02,  2.06it/s]  6%|▌         | 2666/48008 [22:58<6:15:25,  2.01it/s]  6%|▌         | 2667/48008 [22:59<6:16:58,  2.00it/s]  6%|▌         | 2668/48008 [22:59<5:58:39,  2.11it/s]  6%|▌         | 2669/48008 [23:00<6:08:16,  2.05it/s]  6%|▌         | 2670/48008 [23:00<6:12:28,  2.03it/s]  6%|▌         | 2671/48008 [23:01<5:55:28,  2.13it/s]  6%|▌         | 2672/48008 [23:01<5:58:13,  2.11it/s]  6%|▌         | 2673/48008 [23:02<5:59:34,  2.10it/s]  6%|▌         | 2674/48008 [23:02<6:06:23,  2.06it/s]  6%|▌         | 2675/48008 [23:03<6:04:11,  2.07it/s]  6%|▌         | 2676/48008 [23:03<6:14:16,  2.02it/s]  6%|▌         | 2677/48008 [23:04<7:42:08,  1.63it/s]  6%|▌         | 2678/48008 [23:04<6:58:17,  1.81it/s]  6%|▌         | 2679/48008 [23:05<6:47:15,  1.86it/s]  6%|▌         | 2680/48008 [23:05<6:33:11,  1.92it/s]  6%|▌         | 2681/48008 [23:06<6:33:49,  1.92it/s]  6%|▌         | 2682/48008 [23:06<6:10:07,  2.04it/s]  6%|▌         | 2683/48008 [23:07<6:51:36,  1.84it/s]  6%|▌         | 2684/48008 [23:08<9:31:13,  1.32it/s]  6%|▌         | 2685/48008 [23:09<8:13:15,  1.53it/s]  6%|▌         | 2686/48008 [23:09<7:34:24,  1.66it/s]  6%|▌         | 2687/48008 [23:10<7:07:10,  1.77it/s]  6%|▌         | 2688/48008 [23:10<6:52:38,  1.83it/s]  6%|▌         | 2689/48008 [23:11<6:42:02,  1.88it/s]  6%|▌         | 2690/48008 [23:11<6:38:23,  1.90it/s]  6%|▌         | 2691/48008 [23:12<7:12:14,  1.75it/s]  6%|▌         | 2692/48008 [23:12<6:51:23,  1.84it/s]  6%|▌         | 2693/48008 [23:13<6:45:36,  1.86it/s]  6%|▌         | 2694/48008 [23:13<6:37:42,  1.90it/s]  6%|▌         | 2695/48008 [23:14<7:11:12,  1.75it/s]  6%|▌         | 2696/48008 [23:14<6:35:48,  1.91it/s]  6%|▌         | 2697/48008 [23:15<6:35:31,  1.91it/s]  6%|▌         | 2698/48008 [23:16<7:55:08,  1.59it/s]  6%|▌         | 2699/48008 [23:16<7:26:01,  1.69it/s]  6%|▌         | 2700/48008 [23:17<7:44:25,  1.63it/s]                                                      {'loss': 4.4706, 'grad_norm': 0.7679710984230042, 'learning_rate': 0.00018875604065989003, 'epoch': 0.06}  6%|▌         | 2700/48008 [23:17<7:44:25,  1.63it/s]
  6%|▌         | 2701/48008 [23:18<7:14:06,  1.74it/s]  6%|▌         | 2702/48008 [23:18<6:38:21,  1.90it/s]  6%|▌         | 2703/48008 [23:18<6:13:17,  2.02it/s]  6%|▌         | 2704/48008 [23:19<6:15:54,  2.01it/s]  6%|▌         | 2705/48008 [23:19<6:17:17,  2.00it/s]  6%|▌         | 2706/48008 [23:20<6:12:53,  2.02it/s]  6%|▌         | 2707/48008 [23:20<6:10:19,  2.04it/s]  6%|▌         | 2708/48008 [23:21<6:07:54,  2.05it/s]  6%|▌         | 2709/48008 [23:21<6:06:50,  2.06it/s]  6%|▌         | 2710/48008 [23:22<5:51:31,  2.15it/s]  6%|▌         | 2711/48008 [23:22<6:03:00,  2.08it/s]  6%|▌         | 2712/48008 [23:23<6:02:59,  2.08it/s]  6%|▌         | 2713/48008 [23:23<6:03:49,  2.07it/s]  6%|▌         | 2714/48008 [23:24<6:15:57,  2.01it/s]  6%|▌         | 2715/48008 [23:24<6:54:49,  1.82it/s]  6%|▌         | 2716/48008 [23:25<6:41:43,  1.88it/s]  6%|▌         | 2717/48008 [23:25<6:15:16,  2.01it/s]  6%|▌         | 2718/48008 [23:26<6:19:45,  1.99it/s]  6%|▌         | 2719/48008 [23:26<6:14:38,  2.01it/s]  6%|▌         | 2720/48008 [23:27<6:11:49,  2.03it/s]  6%|▌         | 2721/48008 [23:27<6:17:59,  2.00it/s]  6%|▌         | 2722/48008 [23:28<6:13:40,  2.02it/s]  6%|▌         | 2723/48008 [23:28<6:09:02,  2.05it/s]  6%|▌         | 2724/48008 [23:29<6:15:41,  2.01it/s]  6%|▌         | 2725/48008 [23:29<6:10:24,  2.04it/s]  6%|▌         | 2726/48008 [23:30<6:16:59,  2.00it/s]  6%|▌         | 2727/48008 [23:30<6:12:16,  2.03it/s]  6%|▌         | 2728/48008 [23:31<6:15:22,  2.01it/s]  6%|▌         | 2729/48008 [23:31<6:11:44,  2.03it/s]  6%|▌         | 2730/48008 [23:32<6:14:00,  2.02it/s]  6%|▌         | 2731/48008 [23:32<6:10:45,  2.04it/s]  6%|▌         | 2732/48008 [23:33<5:53:36,  2.13it/s]  6%|▌         | 2733/48008 [23:33<5:55:28,  2.12it/s]  6%|▌         | 2734/48008 [23:34<6:40:49,  1.88it/s]  6%|▌         | 2735/48008 [23:34<6:29:09,  1.94it/s]  6%|▌         | 2736/48008 [23:35<6:30:19,  1.93it/s]  6%|▌         | 2737/48008 [23:35<6:22:04,  1.97it/s]  6%|▌         | 2738/48008 [23:36<7:44:54,  1.62it/s]  6%|▌         | 2739/48008 [23:37<7:14:23,  1.74it/s]  6%|▌         | 2740/48008 [23:37<6:58:23,  1.80it/s]  6%|▌         | 2741/48008 [23:38<6:51:00,  1.84it/s]  6%|▌         | 2742/48008 [23:38<6:36:20,  1.90it/s]  6%|▌         | 2743/48008 [23:39<6:38:59,  1.89it/s]  6%|▌         | 2744/48008 [23:39<6:28:38,  1.94it/s]  6%|▌         | 2745/48008 [23:40<7:51:37,  1.60it/s]  6%|▌         | 2746/48008 [23:41<7:28:18,  1.68it/s]  6%|▌         | 2747/48008 [23:41<7:01:52,  1.79it/s]  6%|▌         | 2748/48008 [23:42<9:39:40,  1.30it/s]  6%|▌         | 2749/48008 [23:43<8:40:39,  1.45it/s]  6%|▌         | 2750/48008 [23:43<7:57:23,  1.58it/s]                                                      {'loss': 4.4948, 'grad_norm': 0.9317119717597961, 'learning_rate': 0.00018854774204299284, 'epoch': 0.06}  6%|▌         | 2750/48008 [23:43<7:57:23,  1.58it/s]
  6%|▌         | 2751/48008 [23:44<7:29:52,  1.68it/s]  6%|▌         | 2752/48008 [23:44<7:04:12,  1.78it/s]  6%|▌         | 2753/48008 [23:45<6:46:02,  1.86it/s]  6%|▌         | 2754/48008 [23:45<6:18:14,  1.99it/s]  6%|▌         | 2755/48008 [23:46<6:12:43,  2.02it/s]  6%|▌         | 2756/48008 [23:47<7:38:44,  1.64it/s]  6%|▌         | 2757/48008 [23:47<6:55:15,  1.82it/s]  6%|▌         | 2758/48008 [23:47<6:45:03,  1.86it/s]  6%|▌         | 2759/48008 [23:48<6:18:20,  1.99it/s]  6%|▌         | 2760/48008 [23:48<6:20:18,  1.98it/s]  6%|▌         | 2761/48008 [23:49<6:16:10,  2.00it/s]  6%|▌         | 2762/48008 [23:49<6:13:20,  2.02it/s]  6%|▌         | 2763/48008 [23:50<6:19:11,  1.99it/s]  6%|▌         | 2764/48008 [23:50<6:18:55,  1.99it/s]  6%|▌         | 2765/48008 [23:51<5:51:44,  2.14it/s]  6%|▌         | 2766/48008 [23:51<5:55:19,  2.12it/s]  6%|▌         | 2767/48008 [23:52<6:02:07,  2.08it/s]  6%|▌         | 2768/48008 [23:52<5:48:26,  2.16it/s]  6%|▌         | 2769/48008 [23:53<5:59:02,  2.10it/s]  6%|▌         | 2770/48008 [23:53<5:45:51,  2.18it/s]  6%|▌         | 2771/48008 [23:54<5:51:34,  2.14it/s]  6%|▌         | 2772/48008 [23:54<5:55:34,  2.12it/s]  6%|▌         | 2773/48008 [23:54<5:43:29,  2.19it/s]  6%|▌         | 2774/48008 [23:55<5:54:42,  2.13it/s]  6%|▌         | 2775/48008 [23:56<6:03:27,  2.07it/s]  6%|▌         | 2776/48008 [23:56<6:13:12,  2.02it/s]  6%|▌         | 2777/48008 [23:57<6:15:12,  2.01it/s]  6%|▌         | 2778/48008 [23:57<6:17:15,  2.00it/s]  6%|▌         | 2779/48008 [23:57<5:56:53,  2.11it/s]  6%|▌         | 2780/48008 [23:58<5:59:42,  2.10it/s]  6%|▌         | 2781/48008 [23:58<6:05:45,  2.06it/s]  6%|▌         | 2782/48008 [23:59<5:49:36,  2.16it/s]  6%|▌         | 2783/48008 [23:59<5:39:15,  2.22it/s]  6%|▌         | 2784/48008 [24:00<5:56:23,  2.11it/s]  6%|▌         | 2785/48008 [24:00<5:59:31,  2.10it/s]  6%|▌         | 2786/48008 [24:01<5:44:56,  2.19it/s]  6%|▌         | 2787/48008 [24:01<5:51:18,  2.15it/s]  6%|▌         | 2788/48008 [24:02<8:50:24,  1.42it/s]  6%|▌         | 2789/48008 [24:03<8:08:52,  1.54it/s]  6%|▌         | 2790/48008 [24:03<7:39:58,  1.64it/s]  6%|▌         | 2791/48008 [24:04<7:09:57,  1.75it/s]  6%|▌         | 2792/48008 [24:04<6:55:15,  1.81it/s]  6%|▌         | 2793/48008 [24:05<6:40:42,  1.88it/s]  6%|▌         | 2794/48008 [24:05<6:16:03,  2.00it/s]  6%|▌         | 2795/48008 [24:06<6:25:43,  1.95it/s]  6%|▌         | 2796/48008 [24:06<6:18:44,  1.99it/s]  6%|▌         | 2797/48008 [24:07<6:13:21,  2.02it/s]  6%|▌         | 2798/48008 [24:07<6:10:54,  2.03it/s]  6%|▌         | 2799/48008 [24:08<6:13:41,  2.02it/s]  6%|▌         | 2800/48008 [24:08<6:09:29,  2.04it/s]                                                      {'loss': 4.4208, 'grad_norm': 0.8215885162353516, 'learning_rate': 0.00018833944342609566, 'epoch': 0.06}  6%|▌         | 2800/48008 [24:08<6:09:29,  2.04it/s]
  6%|▌         | 2801/48008 [24:09<6:22:18,  1.97it/s]  6%|▌         | 2802/48008 [24:09<6:21:16,  1.98it/s]  6%|▌         | 2803/48008 [24:10<6:16:28,  2.00it/s]  6%|▌         | 2804/48008 [24:10<5:58:40,  2.10it/s]  6%|▌         | 2805/48008 [24:11<6:00:32,  2.09it/s]  6%|▌         | 2806/48008 [24:11<6:00:11,  2.09it/s]  6%|▌         | 2807/48008 [24:12<6:01:36,  2.08it/s]  6%|▌         | 2808/48008 [24:12<6:16:24,  2.00it/s]  6%|▌         | 2809/48008 [24:13<6:11:02,  2.03it/s]  6%|▌         | 2810/48008 [24:13<6:08:34,  2.04it/s]  6%|▌         | 2811/48008 [24:14<6:06:33,  2.06it/s]  6%|▌         | 2812/48008 [24:14<5:50:59,  2.15it/s]  6%|▌         | 2813/48008 [24:15<5:40:21,  2.21it/s]  6%|▌         | 2814/48008 [24:15<5:46:44,  2.17it/s]  6%|▌         | 2815/48008 [24:16<7:21:31,  1.71it/s]  6%|▌         | 2816/48008 [24:16<6:43:59,  1.86it/s]  6%|▌         | 2817/48008 [24:17<6:17:31,  2.00it/s]  6%|▌         | 2818/48008 [24:17<6:18:14,  1.99it/s]  6%|▌         | 2819/48008 [24:18<5:58:33,  2.10it/s]  6%|▌         | 2820/48008 [24:18<6:12:52,  2.02it/s]  6%|▌         | 2821/48008 [24:19<6:09:39,  2.04it/s]  6%|▌         | 2822/48008 [24:19<6:06:21,  2.06it/s]  6%|▌         | 2823/48008 [24:20<6:05:07,  2.06it/s]  6%|▌         | 2824/48008 [24:20<5:51:13,  2.14it/s]  6%|▌         | 2825/48008 [24:21<5:54:07,  2.13it/s]  6%|▌         | 2826/48008 [24:21<6:07:13,  2.05it/s]  6%|▌         | 2827/48008 [24:22<6:05:11,  2.06it/s]  6%|▌         | 2828/48008 [24:22<5:50:46,  2.15it/s]  6%|▌         | 2829/48008 [24:23<6:08:51,  2.04it/s]  6%|▌         | 2830/48008 [24:23<6:07:07,  2.05it/s]  6%|▌         | 2831/48008 [24:24<6:14:40,  2.01it/s]  6%|▌         | 2832/48008 [24:24<6:55:35,  1.81it/s]  6%|▌         | 2833/48008 [24:25<6:24:05,  1.96it/s]  6%|▌         | 2834/48008 [24:25<6:26:22,  1.95it/s]  6%|▌         | 2835/48008 [24:26<6:04:05,  2.07it/s]  6%|▌         | 2836/48008 [24:26<6:09:19,  2.04it/s]  6%|▌         | 2837/48008 [24:27<6:17:21,  2.00it/s]  6%|▌         | 2838/48008 [24:27<6:12:54,  2.02it/s]  6%|▌         | 2839/48008 [24:28<6:09:18,  2.04it/s]  6%|▌         | 2840/48008 [24:28<6:21:49,  1.97it/s]  6%|▌         | 2841/48008 [24:29<6:25:38,  1.95it/s]  6%|▌         | 2842/48008 [24:29<6:03:16,  2.07it/s]  6%|▌         | 2843/48008 [24:30<6:03:33,  2.07it/s]  6%|▌         | 2844/48008 [24:30<6:04:08,  2.07it/s]  6%|▌         | 2845/48008 [24:31<6:08:37,  2.04it/s]  6%|▌         | 2846/48008 [24:31<6:10:52,  2.03it/s]  6%|▌         | 2847/48008 [24:32<6:14:27,  2.01it/s]  6%|▌         | 2848/48008 [24:32<5:55:23,  2.12it/s]  6%|▌         | 2849/48008 [24:32<6:01:45,  2.08it/s]  6%|▌         | 2850/48008 [24:33<6:01:10,  2.08it/s]                                                      {'loss': 4.4571, 'grad_norm': 0.776540994644165, 'learning_rate': 0.00018813114480919848, 'epoch': 0.06}
  6%|▌         | 2850/48008 [24:33<6:01:10,  2.08it/s]  6%|▌         | 2851/48008 [24:33<6:01:07,  2.08it/s]  6%|▌         | 2852/48008 [24:34<6:14:03,  2.01it/s]  6%|▌         | 2853/48008 [24:34<6:15:18,  2.01it/s]  6%|▌         | 2854/48008 [24:35<8:12:13,  1.53it/s]  6%|▌         | 2855/48008 [24:36<7:33:46,  1.66it/s]  6%|▌         | 2856/48008 [24:36<7:07:12,  1.76it/s]  6%|▌         | 2857/48008 [24:37<6:32:22,  1.92it/s]  6%|▌         | 2858/48008 [24:37<6:23:44,  1.96it/s]  6%|▌         | 2859/48008 [24:38<6:01:59,  2.08it/s]  6%|▌         | 2860/48008 [24:38<6:47:09,  1.85it/s]  6%|▌         | 2861/48008 [24:39<6:37:30,  1.89it/s]  6%|▌         | 2862/48008 [24:39<6:11:26,  2.03it/s]  6%|▌         | 2863/48008 [24:40<6:08:05,  2.04it/s]  6%|▌         | 2864/48008 [24:40<6:18:42,  1.99it/s]  6%|▌         | 2865/48008 [24:41<6:13:52,  2.01it/s]  6%|▌         | 2866/48008 [24:41<5:55:00,  2.12it/s]  6%|▌         | 2867/48008 [24:42<5:43:21,  2.19it/s]  6%|▌         | 2868/48008 [24:42<5:48:29,  2.16it/s]  6%|▌         | 2869/48008 [24:43<5:37:54,  2.23it/s]  6%|▌         | 2870/48008 [24:43<5:44:53,  2.18it/s]  6%|▌         | 2871/48008 [24:43<5:35:20,  2.24it/s]  6%|▌         | 2872/48008 [24:44<6:25:48,  1.95it/s]  6%|▌         | 2873/48008 [24:45<6:17:54,  1.99it/s]  6%|▌         | 2874/48008 [24:45<6:18:21,  1.99it/s]  6%|▌         | 2875/48008 [24:46<6:22:27,  1.97it/s]  6%|▌         | 2876/48008 [24:46<6:15:23,  2.00it/s]  6%|▌         | 2877/48008 [24:47<6:11:50,  2.02it/s]  6%|▌         | 2878/48008 [24:47<6:14:46,  2.01it/s]  6%|▌         | 2879/48008 [24:48<6:10:23,  2.03it/s]  6%|▌         | 2880/48008 [24:48<5:54:35,  2.12it/s]  6%|▌         | 2881/48008 [24:48<5:58:11,  2.10it/s]  6%|▌         | 2882/48008 [24:49<5:58:26,  2.10it/s]  6%|▌         | 2883/48008 [24:49<6:06:27,  2.05it/s]  6%|▌         | 2884/48008 [24:50<6:14:15,  2.01it/s]  6%|▌         | 2885/48008 [24:50<6:11:21,  2.03it/s]  6%|▌         | 2886/48008 [24:51<6:18:22,  1.99it/s]  6%|▌         | 2887/48008 [24:51<6:14:40,  2.01it/s]  6%|▌         | 2888/48008 [24:52<6:16:57,  1.99it/s]  6%|▌         | 2889/48008 [24:52<5:56:46,  2.11it/s]  6%|▌         | 2890/48008 [24:53<6:07:07,  2.05it/s]  6%|▌         | 2891/48008 [24:53<6:14:27,  2.01it/s]  6%|▌         | 2892/48008 [24:54<6:16:48,  2.00it/s]  6%|▌         | 2893/48008 [24:54<6:11:48,  2.02it/s]  6%|▌         | 2894/48008 [24:55<6:13:11,  2.01it/s]  6%|▌         | 2895/48008 [24:55<5:54:57,  2.12it/s]  6%|▌         | 2896/48008 [24:56<5:41:48,  2.20it/s]  6%|▌         | 2897/48008 [24:56<5:47:13,  2.17it/s]  6%|▌         | 2898/48008 [24:57<5:52:33,  2.13it/s]  6%|▌         | 2899/48008 [24:57<6:03:12,  2.07it/s]  6%|▌         | 2900/48008 [24:58<6:03:03,  2.07it/s]                                                      {'loss': 4.4222, 'grad_norm': 0.7908003330230713, 'learning_rate': 0.0001879228461923013, 'epoch': 0.06}
  6%|▌         | 2900/48008 [24:58<6:03:03,  2.07it/s]  6%|▌         | 2901/48008 [24:58<6:04:51,  2.06it/s]  6%|▌         | 2902/48008 [24:59<6:09:22,  2.04it/s]  6%|▌         | 2903/48008 [24:59<6:06:46,  2.05it/s]  6%|▌         | 2904/48008 [25:00<6:05:38,  2.06it/s]  6%|▌         | 2905/48008 [25:00<5:50:03,  2.15it/s]  6%|▌         | 2906/48008 [25:01<6:02:16,  2.07it/s]  6%|▌         | 2907/48008 [25:01<6:10:18,  2.03it/s]  6%|▌         | 2908/48008 [25:02<6:08:13,  2.04it/s]  6%|▌         | 2909/48008 [25:02<5:51:49,  2.14it/s]  6%|▌         | 2910/48008 [25:03<5:54:56,  2.12it/s]  6%|▌         | 2911/48008 [25:03<6:01:02,  2.08it/s]  6%|▌         | 2912/48008 [25:04<6:01:28,  2.08it/s]  6%|▌         | 2913/48008 [25:04<6:07:00,  2.05it/s]  6%|▌         | 2914/48008 [25:05<6:05:30,  2.06it/s]  6%|▌         | 2915/48008 [25:05<6:02:54,  2.07it/s]  6%|▌         | 2916/48008 [25:05<6:10:27,  2.03it/s]  6%|▌         | 2917/48008 [25:06<6:08:39,  2.04it/s]  6%|▌         | 2918/48008 [25:06<6:05:20,  2.06it/s]  6%|▌         | 2919/48008 [25:08<8:59:40,  1.39it/s]  6%|▌         | 2920/48008 [25:08<7:52:29,  1.59it/s]  6%|▌         | 2921/48008 [25:09<8:04:32,  1.55it/s]  6%|▌         | 2922/48008 [25:09<7:36:14,  1.65it/s]  6%|▌         | 2923/48008 [25:10<7:16:26,  1.72it/s]  6%|▌         | 2924/48008 [25:10<7:02:29,  1.78it/s]  6%|▌         | 2925/48008 [25:11<6:49:45,  1.83it/s]  6%|▌         | 2926/48008 [25:12<7:20:35,  1.71it/s]  6%|▌         | 2927/48008 [25:12<6:57:34,  1.80it/s]  6%|▌         | 2928/48008 [25:13<6:41:04,  1.87it/s]  6%|▌         | 2929/48008 [25:13<6:29:35,  1.93it/s]  6%|▌         | 2930/48008 [25:13<6:06:55,  2.05it/s]  6%|▌         | 2931/48008 [25:14<5:50:57,  2.14it/s]  6%|▌         | 2932/48008 [25:14<5:53:45,  2.12it/s]  6%|▌         | 2933/48008 [25:15<5:55:49,  2.11it/s]  6%|▌         | 2934/48008 [25:15<5:42:18,  2.19it/s]  6%|▌         | 2935/48008 [25:16<5:48:02,  2.16it/s]  6%|▌         | 2936/48008 [25:16<5:37:49,  2.22it/s]  6%|▌         | 2937/48008 [25:17<5:31:05,  2.27it/s]  6%|▌         | 2938/48008 [25:17<5:39:51,  2.21it/s]  6%|▌         | 2939/48008 [25:17<5:32:08,  2.26it/s]  6%|▌         | 2940/48008 [25:18<5:41:22,  2.20it/s]  6%|▌         | 2941/48008 [25:18<5:47:12,  2.16it/s]  6%|▌         | 2942/48008 [25:19<6:01:14,  2.08it/s]  6%|▌         | 2943/48008 [25:19<6:01:14,  2.08it/s]  6%|▌         | 2944/48008 [25:20<5:46:42,  2.17it/s]  6%|▌         | 2945/48008 [25:20<5:51:15,  2.14it/s]  6%|▌         | 2946/48008 [25:21<5:53:57,  2.12it/s]  6%|▌         | 2947/48008 [25:21<5:57:28,  2.10it/s]  6%|▌         | 2948/48008 [25:22<6:07:19,  2.04it/s]  6%|▌         | 2949/48008 [25:22<6:04:47,  2.06it/s]  6%|▌         | 2950/48008 [25:23<6:05:08,  2.06it/s]                                                      {'loss': 4.4026, 'grad_norm': 0.7084732055664062, 'learning_rate': 0.00018771454757540409, 'epoch': 0.06}
  6%|▌         | 2950/48008 [25:23<6:05:08,  2.06it/s]  6%|▌         | 2951/48008 [25:23<6:04:42,  2.06it/s]  6%|▌         | 2952/48008 [25:24<6:46:01,  1.85it/s]  6%|▌         | 2953/48008 [25:24<6:31:51,  1.92it/s]  6%|▌         | 2954/48008 [25:25<6:27:35,  1.94it/s]  6%|▌         | 2955/48008 [25:25<6:19:51,  1.98it/s]  6%|▌         | 2956/48008 [25:26<6:14:31,  2.00it/s]  6%|▌         | 2957/48008 [25:27<6:54:30,  1.81it/s]  6%|▌         | 2958/48008 [25:27<6:39:15,  1.88it/s]  6%|▌         | 2959/48008 [25:28<6:36:56,  1.89it/s]  6%|▌         | 2960/48008 [25:28<6:25:51,  1.95it/s]  6%|▌         | 2961/48008 [25:29<6:23:17,  1.96it/s]  6%|▌         | 2962/48008 [25:29<6:25:03,  1.95it/s]  6%|▌         | 2963/48008 [25:30<7:46:14,  1.61it/s]  6%|▌         | 2964/48008 [25:30<7:15:11,  1.73it/s]  6%|▌         | 2965/48008 [25:31<7:05:59,  1.76it/s]  6%|▌         | 2966/48008 [25:31<6:46:55,  1.84it/s]  6%|▌         | 2967/48008 [25:32<6:39:02,  1.88it/s]  6%|▌         | 2968/48008 [25:32<6:27:12,  1.94it/s]  6%|▌         | 2969/48008 [25:33<6:32:35,  1.91it/s]  6%|▌         | 2970/48008 [25:33<6:24:25,  1.95it/s]  6%|▌         | 2971/48008 [25:34<6:23:06,  1.96it/s]  6%|▌         | 2972/48008 [25:34<6:26:03,  1.94it/s]  6%|▌         | 2973/48008 [25:35<6:25:07,  1.95it/s]  6%|▌         | 2974/48008 [25:35<6:19:32,  1.98it/s]  6%|▌         | 2975/48008 [25:36<6:19:27,  1.98it/s]  6%|▌         | 2976/48008 [25:36<5:58:28,  2.09it/s]  6%|▌         | 2977/48008 [25:37<5:59:09,  2.09it/s]  6%|▌         | 2978/48008 [25:37<6:04:09,  2.06it/s]  6%|▌         | 2979/48008 [25:38<6:11:21,  2.02it/s]  6%|▌         | 2980/48008 [25:38<6:13:05,  2.01it/s]  6%|▌         | 2981/48008 [25:39<6:09:44,  2.03it/s]  6%|▌         | 2982/48008 [25:39<6:16:14,  1.99it/s]  6%|▌         | 2983/48008 [25:40<6:24:07,  1.95it/s]  6%|▌         | 2984/48008 [25:40<6:22:01,  1.96it/s]  6%|▌         | 2985/48008 [25:41<6:01:26,  2.08it/s]  6%|▌         | 2986/48008 [25:41<6:06:48,  2.05it/s]  6%|▌         | 2987/48008 [25:42<6:05:07,  2.06it/s]  6%|▌         | 2988/48008 [25:42<6:02:50,  2.07it/s]  6%|▌         | 2989/48008 [25:43<5:46:31,  2.17it/s]  6%|▌         | 2990/48008 [25:43<5:50:01,  2.14it/s]  6%|▌         | 2991/48008 [25:44<6:06:26,  2.05it/s]  6%|▌         | 2992/48008 [25:44<5:48:58,  2.15it/s]  6%|▌         | 2993/48008 [25:45<5:59:17,  2.09it/s]  6%|▌         | 2994/48008 [25:45<6:13:00,  2.01it/s]  6%|▌         | 2995/48008 [25:46<6:09:33,  2.03it/s]  6%|▌         | 2996/48008 [25:46<6:50:24,  1.83it/s]  6%|▌         | 2997/48008 [25:47<6:35:06,  1.90it/s]  6%|▌         | 2998/48008 [25:47<6:29:36,  1.93it/s]  6%|▌         | 2999/48008 [25:48<6:20:19,  1.97it/s]  6%|▌         | 3000/48008 [25:48<7:00:04,  1.79it/s]                                                      {'loss': 4.4757, 'grad_norm': 0.6682459115982056, 'learning_rate': 0.00018750624895850693, 'epoch': 0.06}
  6%|▌         | 3000/48008 [25:48<7:00:04,  1.79it/s]  6%|▋         | 3001/48008 [25:49<6:28:31,  1.93it/s]  6%|▋         | 3002/48008 [25:49<6:19:58,  1.97it/s]  6%|▋         | 3003/48008 [25:50<6:22:34,  1.96it/s]  6%|▋         | 3004/48008 [25:50<6:01:33,  2.07it/s]  6%|▋         | 3005/48008 [25:51<6:00:17,  2.08it/s]  6%|▋         | 3006/48008 [25:51<6:04:24,  2.06it/s]  6%|▋         | 3007/48008 [25:52<6:02:46,  2.07it/s]  6%|▋         | 3008/48008 [25:52<6:11:10,  2.02it/s]  6%|▋         | 3009/48008 [25:53<6:07:07,  2.04it/s]  6%|▋         | 3010/48008 [25:53<6:09:10,  2.03it/s]  6%|▋         | 3011/48008 [25:54<6:05:53,  2.05it/s]  6%|▋         | 3012/48008 [25:54<6:04:31,  2.06it/s]  6%|▋         | 3013/48008 [25:55<5:47:29,  2.16it/s]  6%|▋         | 3014/48008 [25:55<6:33:57,  1.90it/s]  6%|▋         | 3015/48008 [25:56<6:27:57,  1.93it/s]  6%|▋         | 3016/48008 [25:56<7:02:30,  1.77it/s]  6%|▋         | 3017/48008 [25:57<8:12:48,  1.52it/s]  6%|▋         | 3018/48008 [25:58<7:19:36,  1.71it/s]  6%|▋         | 3019/48008 [25:58<6:55:32,  1.80it/s]  6%|▋         | 3020/48008 [25:59<6:17:27,  1.99it/s]  6%|▋         | 3021/48008 [25:59<6:12:16,  2.01it/s]  6%|▋         | 3022/48008 [26:00<6:07:44,  2.04it/s]  6%|▋         | 3023/48008 [26:00<5:50:17,  2.14it/s]  6%|▋         | 3024/48008 [26:01<8:45:19,  1.43it/s]  6%|▋         | 3025/48008 [26:02<7:41:34,  1.62it/s]  6%|▋         | 3026/48008 [26:02<7:10:06,  1.74it/s]  6%|▋         | 3027/48008 [26:03<6:33:15,  1.91it/s]  6%|▋         | 3028/48008 [26:03<6:08:31,  2.03it/s]  6%|▋         | 3029/48008 [26:03<5:51:34,  2.13it/s]  6%|▋         | 3030/48008 [26:04<5:53:47,  2.12it/s]  6%|▋         | 3031/48008 [26:04<5:54:38,  2.11it/s]  6%|▋         | 3032/48008 [26:05<5:56:41,  2.10it/s]  6%|▋         | 3033/48008 [26:05<5:57:45,  2.10it/s]  6%|▋         | 3034/48008 [26:06<5:57:20,  2.10it/s]  6%|▋         | 3035/48008 [26:06<5:44:26,  2.18it/s]  6%|▋         | 3036/48008 [26:07<5:49:27,  2.14it/s]  6%|▋         | 3037/48008 [26:07<5:52:48,  2.12it/s]  6%|▋         | 3038/48008 [26:08<6:04:06,  2.06it/s]  6%|▋         | 3039/48008 [26:08<6:02:01,  2.07it/s]  6%|▋         | 3040/48008 [26:09<6:01:45,  2.07it/s]  6%|▋         | 3041/48008 [26:09<6:43:54,  1.86it/s]  6%|▋         | 3042/48008 [26:10<6:16:01,  1.99it/s]  6%|▋         | 3043/48008 [26:10<6:19:41,  1.97it/s]  6%|▋         | 3044/48008 [26:11<6:14:00,  2.00it/s]  6%|▋         | 3045/48008 [26:11<6:18:59,  1.98it/s]  6%|▋         | 3046/48008 [26:12<6:56:25,  1.80it/s]  6%|▋         | 3047/48008 [26:12<6:38:44,  1.88it/s]  6%|▋         | 3048/48008 [26:13<6:27:24,  1.93it/s]  6%|▋         | 3049/48008 [26:13<6:24:04,  1.95it/s]  6%|▋         | 3050/48008 [26:14<6:16:40,  1.99it/s]                                                      {'loss': 4.4197, 'grad_norm': 0.6029886603355408, 'learning_rate': 0.00018729795034160975, 'epoch': 0.06}
  6%|▋         | 3050/48008 [26:14<6:16:40,  1.99it/s]  6%|▋         | 3051/48008 [26:14<6:11:50,  2.02it/s]  6%|▋         | 3052/48008 [26:15<5:53:34,  2.12it/s]  6%|▋         | 3053/48008 [26:15<5:54:29,  2.11it/s]  6%|▋         | 3054/48008 [26:16<6:00:09,  2.08it/s]  6%|▋         | 3055/48008 [26:16<6:08:35,  2.03it/s]  6%|▋         | 3056/48008 [26:17<6:15:11,  2.00it/s]  6%|▋         | 3057/48008 [26:17<6:10:12,  2.02it/s]  6%|▋         | 3058/48008 [26:18<5:52:31,  2.13it/s]  6%|▋         | 3059/48008 [26:18<5:40:10,  2.20it/s]  6%|▋         | 3060/48008 [26:19<5:50:35,  2.14it/s]  6%|▋         | 3061/48008 [26:19<5:53:30,  2.12it/s]  6%|▋         | 3062/48008 [26:19<5:40:36,  2.20it/s]  6%|▋         | 3063/48008 [26:20<5:59:30,  2.08it/s]  6%|▋         | 3064/48008 [26:21<6:04:27,  2.06it/s]  6%|▋         | 3065/48008 [26:21<5:47:57,  2.15it/s]  6%|▋         | 3066/48008 [26:21<5:51:13,  2.13it/s]  6%|▋         | 3067/48008 [26:22<6:02:17,  2.07it/s]  6%|▋         | 3068/48008 [26:22<6:01:04,  2.07it/s]  6%|▋         | 3069/48008 [26:23<6:06:18,  2.04it/s]  6%|▋         | 3070/48008 [26:23<6:04:04,  2.06it/s]  6%|▋         | 3071/48008 [26:24<6:03:03,  2.06it/s]  6%|▋         | 3072/48008 [26:24<6:01:25,  2.07it/s]  6%|▋         | 3073/48008 [26:25<6:05:55,  2.05it/s]  6%|▋         | 3074/48008 [26:25<6:04:28,  2.05it/s]  6%|▋         | 3075/48008 [26:26<6:08:13,  2.03it/s]  6%|▋         | 3076/48008 [26:27<6:49:16,  1.83it/s]  6%|▋         | 3077/48008 [26:27<6:35:48,  1.89it/s]  6%|▋         | 3078/48008 [26:28<6:29:46,  1.92it/s]  6%|▋         | 3079/48008 [26:28<6:20:21,  1.97it/s]  6%|▋         | 3080/48008 [26:28<5:58:50,  2.09it/s]  6%|▋         | 3081/48008 [26:29<6:03:33,  2.06it/s]  6%|▋         | 3082/48008 [26:29<5:47:47,  2.15it/s]  6%|▋         | 3083/48008 [26:30<5:50:10,  2.14it/s]  6%|▋         | 3084/48008 [26:30<5:37:00,  2.22it/s]  6%|▋         | 3085/48008 [26:31<5:48:48,  2.15it/s]  6%|▋         | 3086/48008 [26:31<5:52:18,  2.13it/s]  6%|▋         | 3087/48008 [26:32<6:02:33,  2.07it/s]  6%|▋         | 3088/48008 [26:32<6:10:05,  2.02it/s]  6%|▋         | 3089/48008 [26:33<6:06:08,  2.04it/s]  6%|▋         | 3090/48008 [26:33<6:13:14,  2.01it/s]  6%|▋         | 3091/48008 [26:34<6:22:06,  1.96it/s]  6%|▋         | 3092/48008 [26:34<6:28:24,  1.93it/s]  6%|▋         | 3093/48008 [26:35<6:25:21,  1.94it/s]  6%|▋         | 3094/48008 [26:35<6:23:16,  1.95it/s]  6%|▋         | 3095/48008 [26:36<6:25:24,  1.94it/s]  6%|▋         | 3096/48008 [26:36<6:25:34,  1.94it/s]  6%|▋         | 3097/48008 [26:37<6:17:37,  1.98it/s]  6%|▋         | 3098/48008 [26:37<6:24:42,  1.95it/s]  6%|▋         | 3099/48008 [26:38<6:02:32,  2.06it/s]  6%|▋         | 3100/48008 [26:38<6:05:45,  2.05it/s]                                                      {'loss': 4.4049, 'grad_norm': 0.9094885587692261, 'learning_rate': 0.00018708965172471256, 'epoch': 0.06}
  6%|▋         | 3100/48008 [26:38<6:05:45,  2.05it/s]  6%|▋         | 3101/48008 [26:39<6:08:54,  2.03it/s]  6%|▋         | 3102/48008 [26:40<8:59:12,  1.39it/s]  6%|▋         | 3103/48008 [26:40<8:04:16,  1.55it/s]  6%|▋         | 3104/48008 [26:41<7:27:11,  1.67it/s]  6%|▋         | 3105/48008 [26:41<7:05:54,  1.76it/s]  6%|▋         | 3106/48008 [26:42<8:13:44,  1.52it/s]  6%|▋         | 3107/48008 [26:43<7:33:49,  1.65it/s]  6%|▋         | 3108/48008 [26:43<7:05:11,  1.76it/s]  6%|▋         | 3109/48008 [26:45<9:38:41,  1.29it/s]  6%|▋         | 3110/48008 [26:45<8:38:11,  1.44it/s]  6%|▋         | 3111/48008 [26:46<7:50:40,  1.59it/s]  6%|▋         | 3112/48008 [26:46<7:22:16,  1.69it/s]  6%|▋         | 3113/48008 [26:47<6:57:42,  1.79it/s]  6%|▋         | 3114/48008 [26:47<6:39:47,  1.87it/s]  6%|▋         | 3115/48008 [26:47<6:27:19,  1.93it/s]  6%|▋         | 3116/48008 [26:48<6:03:46,  2.06it/s]  6%|▋         | 3117/48008 [26:48<6:02:31,  2.06it/s]  6%|▋         | 3118/48008 [26:49<6:02:09,  2.07it/s]  6%|▋         | 3119/48008 [26:49<6:00:18,  2.08it/s]  6%|▋         | 3120/48008 [26:50<5:59:38,  2.08it/s]  7%|▋         | 3121/48008 [26:50<6:03:53,  2.06it/s]  7%|▋         | 3122/48008 [26:51<5:47:15,  2.15it/s]  7%|▋         | 3123/48008 [26:51<5:35:38,  2.23it/s]  7%|▋         | 3124/48008 [26:52<5:42:28,  2.18it/s]  7%|▋         | 3125/48008 [26:52<5:33:01,  2.25it/s]  7%|▋         | 3126/48008 [26:53<5:46:01,  2.16it/s]  7%|▋         | 3127/48008 [26:53<7:18:57,  1.70it/s]  7%|▋         | 3128/48008 [26:54<7:03:29,  1.77it/s]  7%|▋         | 3129/48008 [26:54<6:52:54,  1.81it/s]  7%|▋         | 3130/48008 [26:55<6:49:48,  1.83it/s]  7%|▋         | 3131/48008 [26:55<6:33:31,  1.90it/s]  7%|▋         | 3132/48008 [26:56<6:31:14,  1.91it/s]  7%|▋         | 3133/48008 [26:56<6:21:08,  1.96it/s]  7%|▋         | 3134/48008 [26:57<6:14:09,  2.00it/s]  7%|▋         | 3135/48008 [26:57<6:14:43,  2.00it/s]  7%|▋         | 3136/48008 [26:59<9:03:05,  1.38it/s]  7%|▋         | 3137/48008 [26:59<8:09:07,  1.53it/s]  7%|▋         | 3138/48008 [27:00<7:43:08,  1.61it/s]  7%|▋         | 3139/48008 [27:00<7:21:17,  1.69it/s]  7%|▋         | 3140/48008 [27:01<7:39:24,  1.63it/s]  7%|▋         | 3141/48008 [27:01<7:08:49,  1.74it/s]  7%|▋         | 3142/48008 [27:02<6:48:00,  1.83it/s]  7%|▋         | 3143/48008 [27:02<6:33:36,  1.90it/s]  7%|▋         | 3144/48008 [27:03<6:08:26,  2.03it/s]  7%|▋         | 3145/48008 [27:03<6:05:22,  2.05it/s]  7%|▋         | 3146/48008 [27:04<6:03:16,  2.06it/s]  7%|▋         | 3147/48008 [27:04<6:01:32,  2.07it/s]  7%|▋         | 3148/48008 [27:05<6:06:17,  2.04it/s]  7%|▋         | 3149/48008 [27:05<5:49:17,  2.14it/s]  7%|▋         | 3150/48008 [27:06<5:52:09,  2.12it/s]                                                      {'loss': 4.4303, 'grad_norm': 0.824459433555603, 'learning_rate': 0.00018688135310781538, 'epoch': 0.07}
  7%|▋         | 3150/48008 [27:06<5:52:09,  2.12it/s]  7%|▋         | 3151/48008 [27:06<5:39:03,  2.20it/s]  7%|▋         | 3152/48008 [27:07<5:45:15,  2.17it/s]  7%|▋         | 3153/48008 [27:07<5:57:15,  2.09it/s]  7%|▋         | 3154/48008 [27:07<5:57:28,  2.09it/s]  7%|▋         | 3155/48008 [27:08<5:43:21,  2.18it/s]  7%|▋         | 3156/48008 [27:09<6:30:55,  1.91it/s]  7%|▋         | 3157/48008 [27:09<6:33:52,  1.90it/s]  7%|▋         | 3158/48008 [27:10<7:52:10,  1.58it/s]  7%|▋         | 3159/48008 [27:10<7:17:15,  1.71it/s]  7%|▋         | 3160/48008 [27:11<6:53:33,  1.81it/s]  7%|▋         | 3161/48008 [27:11<6:37:35,  1.88it/s]  7%|▋         | 3162/48008 [27:12<6:25:29,  1.94it/s]  7%|▋         | 3163/48008 [27:12<6:02:55,  2.06it/s]  7%|▋         | 3164/48008 [27:13<6:01:11,  2.07it/s]  7%|▋         | 3165/48008 [27:13<5:59:41,  2.08it/s]  7%|▋         | 3166/48008 [27:14<5:59:43,  2.08it/s]  7%|▋         | 3167/48008 [27:14<5:43:44,  2.17it/s]  7%|▋         | 3168/48008 [27:15<5:48:10,  2.15it/s]  7%|▋         | 3169/48008 [27:15<5:50:21,  2.13it/s]  7%|▋         | 3170/48008 [27:16<6:05:22,  2.05it/s]  7%|▋         | 3171/48008 [27:16<6:02:49,  2.06it/s]  7%|▋         | 3172/48008 [27:17<6:01:53,  2.06it/s]  7%|▋         | 3173/48008 [27:17<6:05:31,  2.04it/s]  7%|▋         | 3174/48008 [27:18<6:03:01,  2.06it/s]  7%|▋         | 3175/48008 [27:18<6:14:45,  1.99it/s]  7%|▋         | 3176/48008 [27:19<6:17:57,  1.98it/s]  7%|▋         | 3177/48008 [27:19<6:11:38,  2.01it/s]  7%|▋         | 3178/48008 [27:20<6:06:49,  2.04it/s]  7%|▋         | 3179/48008 [27:20<6:04:32,  2.05it/s]  7%|▋         | 3180/48008 [27:21<6:45:17,  1.84it/s]  7%|▋         | 3181/48008 [27:21<6:31:04,  1.91it/s]  7%|▋         | 3182/48008 [27:22<6:06:09,  2.04it/s]  7%|▋         | 3183/48008 [27:22<6:03:51,  2.05it/s]  7%|▋         | 3184/48008 [27:23<6:06:29,  2.04it/s]  7%|▋         | 3185/48008 [27:23<6:47:31,  1.83it/s]  7%|▋         | 3186/48008 [27:24<6:38:10,  1.88it/s]  7%|▋         | 3187/48008 [27:24<6:32:19,  1.90it/s]  7%|▋         | 3188/48008 [27:25<7:05:34,  1.76it/s]  7%|▋         | 3189/48008 [27:26<6:54:44,  1.80it/s]  7%|▋         | 3190/48008 [27:26<6:42:37,  1.86it/s]  7%|▋         | 3191/48008 [27:26<6:15:31,  1.99it/s]  7%|▋         | 3192/48008 [27:27<6:09:57,  2.02it/s]  7%|▋         | 3193/48008 [27:27<6:06:25,  2.04it/s]  7%|▋         | 3194/48008 [27:28<6:04:34,  2.05it/s]  7%|▋         | 3195/48008 [27:28<6:02:25,  2.06it/s]  7%|▋         | 3196/48008 [27:29<6:01:13,  2.07it/s]  7%|▋         | 3197/48008 [27:29<6:00:20,  2.07it/s]  7%|▋         | 3198/48008 [27:30<6:10:02,  2.02it/s]  7%|▋         | 3199/48008 [27:30<6:06:45,  2.04it/s]  7%|▋         | 3200/48008 [27:31<6:03:24,  2.05it/s]                                                      {'loss': 4.3887, 'grad_norm': 0.7156298756599426, 'learning_rate': 0.0001866730544909182, 'epoch': 0.07}  7%|▋         | 3200/48008 [27:31<6:03:24,  2.05it/s]
  7%|▋         | 3201/48008 [27:31<6:01:24,  2.07it/s]  7%|▋         | 3202/48008 [27:32<6:01:02,  2.07it/s]  7%|▋         | 3203/48008 [27:32<6:44:46,  1.84it/s]  7%|▋         | 3204/48008 [27:33<6:39:41,  1.87it/s]  7%|▋         | 3205/48008 [27:33<6:12:28,  2.00it/s]  7%|▋         | 3206/48008 [27:34<6:08:30,  2.03it/s]  7%|▋         | 3207/48008 [27:34<6:10:00,  2.02it/s]  7%|▋         | 3208/48008 [27:35<6:12:26,  2.00it/s]  7%|▋         | 3209/48008 [27:35<6:13:01,  2.00it/s]  7%|▋         | 3210/48008 [27:36<6:13:35,  2.00it/s]  7%|▋         | 3211/48008 [27:36<6:08:45,  2.02it/s]  7%|▋         | 3212/48008 [27:37<6:05:22,  2.04it/s]  7%|▋         | 3213/48008 [27:37<6:03:54,  2.05it/s]  7%|▋         | 3214/48008 [27:38<6:10:21,  2.02it/s]  7%|▋         | 3215/48008 [27:38<6:06:24,  2.04it/s]  7%|▋         | 3216/48008 [27:39<6:09:10,  2.02it/s]  7%|▋         | 3217/48008 [27:39<5:51:55,  2.12it/s]  7%|▋         | 3218/48008 [27:40<5:54:15,  2.11it/s]  7%|▋         | 3219/48008 [27:40<5:56:00,  2.10it/s]  7%|▋         | 3220/48008 [27:41<6:05:17,  2.04it/s]  7%|▋         | 3221/48008 [27:41<6:13:02,  2.00it/s]  7%|▋         | 3222/48008 [27:42<5:53:58,  2.11it/s]  7%|▋         | 3223/48008 [27:42<6:00:48,  2.07it/s]  7%|▋         | 3224/48008 [27:43<8:53:10,  1.40it/s]  7%|▋         | 3225/48008 [27:44<8:08:50,  1.53it/s]  7%|▋         | 3226/48008 [27:44<7:29:45,  1.66it/s]  7%|▋         | 3227/48008 [27:45<6:47:46,  1.83it/s]  7%|▋         | 3228/48008 [27:45<6:10:10,  2.02it/s]  7%|▋         | 3229/48008 [27:46<6:19:15,  1.97it/s]  7%|▋         | 3230/48008 [27:47<9:05:25,  1.37it/s]  7%|▋         | 3231/48008 [27:47<8:13:25,  1.51it/s]  7%|▋         | 3232/48008 [27:48<7:33:07,  1.65it/s]  7%|▋         | 3233/48008 [27:48<7:03:41,  1.76it/s]  7%|▋         | 3234/48008 [27:49<6:43:59,  1.85it/s]  7%|▋         | 3235/48008 [27:49<6:29:54,  1.91it/s]  7%|▋         | 3236/48008 [27:50<6:19:59,  1.96it/s]  7%|▋         | 3237/48008 [27:50<6:13:50,  2.00it/s]  7%|▋         | 3238/48008 [27:51<6:08:49,  2.02it/s]  7%|▋         | 3239/48008 [27:51<6:04:58,  2.04it/s]  7%|▋         | 3240/48008 [27:52<6:07:43,  2.03it/s]  7%|▋         | 3241/48008 [27:52<6:04:32,  2.05it/s]  7%|▋         | 3242/48008 [27:53<6:07:39,  2.03it/s]  7%|▋         | 3243/48008 [27:53<6:10:06,  2.02it/s]  7%|▋         | 3244/48008 [27:54<6:15:15,  1.99it/s]  7%|▋         | 3245/48008 [27:54<6:10:06,  2.02it/s]  7%|▋         | 3246/48008 [27:55<6:05:18,  2.04it/s]  7%|▋         | 3247/48008 [27:55<6:02:40,  2.06it/s]  7%|▋         | 3248/48008 [27:56<6:01:30,  2.06it/s]  7%|▋         | 3249/48008 [27:56<6:05:29,  2.04it/s]  7%|▋         | 3250/48008 [27:57<6:07:42,  2.03it/s]                                                      {'loss': 4.4166, 'grad_norm': 0.658068835735321, 'learning_rate': 0.00018646475587402102, 'epoch': 0.07}  7%|▋         | 3250/48008 [27:57<6:07:42,  2.03it/s]
  7%|▋         | 3251/48008 [27:57<6:05:16,  2.04it/s]  7%|▋         | 3252/48008 [27:58<5:48:31,  2.14it/s]  7%|▋         | 3253/48008 [27:58<5:59:20,  2.08it/s]  7%|▋         | 3254/48008 [27:59<5:58:28,  2.08it/s]  7%|▋         | 3255/48008 [27:59<6:03:24,  2.05it/s]  7%|▋         | 3256/48008 [28:00<5:47:20,  2.15it/s]  7%|▋         | 3257/48008 [28:00<5:55:04,  2.10it/s]  7%|▋         | 3258/48008 [28:01<6:01:40,  2.06it/s]  7%|▋         | 3259/48008 [28:01<6:09:55,  2.02it/s]  7%|▋         | 3260/48008 [28:02<8:58:42,  1.38it/s]  7%|▋         | 3261/48008 [28:03<7:42:06,  1.61it/s]  7%|▋         | 3262/48008 [28:03<7:10:28,  1.73it/s]  7%|▋         | 3263/48008 [28:04<7:01:54,  1.77it/s]  7%|▋         | 3264/48008 [28:04<6:55:24,  1.80it/s]  7%|▋         | 3265/48008 [28:05<6:37:31,  1.88it/s]  7%|▋         | 3266/48008 [28:05<6:25:13,  1.94it/s]  7%|▋         | 3267/48008 [28:06<6:16:45,  1.98it/s]  7%|▋         | 3268/48008 [28:06<6:09:47,  2.02it/s]  7%|▋         | 3269/48008 [28:07<6:15:25,  1.99it/s]  7%|▋         | 3270/48008 [28:07<6:18:59,  1.97it/s]  7%|▋         | 3271/48008 [28:08<6:12:20,  2.00it/s]  7%|▋         | 3272/48008 [28:09<7:37:13,  1.63it/s]  7%|▋         | 3273/48008 [28:09<7:20:33,  1.69it/s]  7%|▋         | 3274/48008 [28:10<6:55:26,  1.79it/s]  7%|▋         | 3275/48008 [28:10<6:23:51,  1.94it/s]  7%|▋         | 3276/48008 [28:10<6:01:32,  2.06it/s]  7%|▋         | 3277/48008 [28:11<6:13:11,  2.00it/s]  7%|▋         | 3278/48008 [28:11<6:14:38,  1.99it/s]  7%|▋         | 3279/48008 [28:12<6:09:24,  2.02it/s]  7%|▋         | 3280/48008 [28:12<6:06:11,  2.04it/s]  7%|▋         | 3281/48008 [28:13<5:49:25,  2.13it/s]  7%|▋         | 3282/48008 [28:13<5:57:03,  2.09it/s]  7%|▋         | 3283/48008 [28:14<5:56:51,  2.09it/s]  7%|▋         | 3284/48008 [28:14<5:58:04,  2.08it/s]  7%|▋         | 3285/48008 [28:15<6:03:09,  2.05it/s]  7%|▋         | 3286/48008 [28:15<6:07:58,  2.03it/s]  7%|▋         | 3287/48008 [28:16<6:47:31,  1.83it/s]  7%|▋         | 3288/48008 [28:16<6:17:43,  1.97it/s]  7%|▋         | 3289/48008 [28:17<6:11:45,  2.00it/s]  7%|▋         | 3290/48008 [28:17<6:07:22,  2.03it/s]  7%|▋         | 3291/48008 [28:18<6:09:20,  2.02it/s]  7%|▋         | 3292/48008 [28:18<6:05:52,  2.04it/s]  7%|▋         | 3293/48008 [28:20<8:56:01,  1.39it/s]  7%|▋         | 3294/48008 [28:20<8:02:55,  1.54it/s]  7%|▋         | 3295/48008 [28:21<7:25:33,  1.67it/s]  7%|▋         | 3296/48008 [28:21<6:45:11,  1.84it/s]  7%|▋         | 3297/48008 [28:21<6:40:17,  1.86it/s]  7%|▋         | 3298/48008 [28:22<6:27:35,  1.92it/s]  7%|▋         | 3299/48008 [28:22<6:27:24,  1.92it/s]  7%|▋         | 3300/48008 [28:23<6:24:14,  1.94it/s]                                                      {'loss': 4.4343, 'grad_norm': 0.7672572135925293, 'learning_rate': 0.0001862564572571238, 'epoch': 0.07}  7%|▋         | 3300/48008 [28:23<6:24:14,  1.94it/s]
  7%|▋         | 3301/48008 [28:24<7:44:19,  1.60it/s]  7%|▋         | 3302/48008 [28:24<7:16:49,  1.71it/s]  7%|▋         | 3303/48008 [28:26<9:45:20,  1.27it/s]  7%|▋         | 3304/48008 [28:26<8:36:37,  1.44it/s]  7%|▋         | 3305/48008 [28:27<8:01:49,  1.55it/s]  7%|▋         | 3306/48008 [28:27<7:08:31,  1.74it/s]  7%|▋         | 3307/48008 [28:28<6:48:24,  1.82it/s]  7%|▋         | 3308/48008 [28:28<6:33:37,  1.89it/s]  7%|▋         | 3309/48008 [28:29<7:06:05,  1.75it/s]  7%|▋         | 3310/48008 [28:29<7:29:37,  1.66it/s]  7%|▋         | 3311/48008 [28:30<7:45:27,  1.60it/s]  7%|▋         | 3312/48008 [28:30<7:12:16,  1.72it/s]  7%|▋         | 3313/48008 [28:31<7:02:27,  1.76it/s]  7%|▋         | 3314/48008 [28:31<6:28:27,  1.92it/s]  7%|▋         | 3315/48008 [28:32<6:04:51,  2.04it/s]  7%|▋         | 3316/48008 [28:32<6:01:57,  2.06it/s]  7%|▋         | 3317/48008 [28:33<6:04:49,  2.04it/s]  7%|▋         | 3318/48008 [28:33<6:01:41,  2.06it/s]  7%|▋         | 3319/48008 [28:34<6:00:18,  2.07it/s]  7%|▋         | 3320/48008 [28:34<5:59:49,  2.07it/s]  7%|▋         | 3321/48008 [28:35<6:04:19,  2.04it/s]  7%|▋         | 3322/48008 [28:35<6:01:28,  2.06it/s]  7%|▋         | 3323/48008 [28:36<5:59:32,  2.07it/s]  7%|▋         | 3324/48008 [28:36<5:44:39,  2.16it/s]  7%|▋         | 3325/48008 [28:37<5:49:28,  2.13it/s]  7%|▋         | 3326/48008 [28:37<6:04:47,  2.04it/s]  7%|▋         | 3327/48008 [28:38<6:06:48,  2.03it/s]  7%|▋         | 3328/48008 [28:38<6:08:55,  2.02it/s]  7%|▋         | 3329/48008 [28:39<6:05:43,  2.04it/s]  7%|▋         | 3330/48008 [28:39<6:03:32,  2.05it/s]  7%|▋         | 3331/48008 [28:40<6:07:19,  2.03it/s]  7%|▋         | 3332/48008 [28:40<6:09:33,  2.01it/s]  7%|▋         | 3333/48008 [28:41<6:05:33,  2.04it/s]  7%|▋         | 3334/48008 [28:41<6:09:02,  2.02it/s]  7%|▋         | 3335/48008 [28:42<6:05:52,  2.03it/s]  7%|▋         | 3336/48008 [28:42<6:08:36,  2.02it/s]  7%|▋         | 3337/48008 [28:43<6:04:27,  2.04it/s]  7%|▋         | 3338/48008 [28:43<5:47:32,  2.14it/s]  7%|▋         | 3339/48008 [28:44<5:59:16,  2.07it/s]  7%|▋         | 3340/48008 [28:44<5:44:32,  2.16it/s]  7%|▋         | 3341/48008 [28:44<5:53:45,  2.10it/s]  7%|▋         | 3342/48008 [28:45<5:59:18,  2.07it/s]  7%|▋         | 3343/48008 [28:45<6:03:14,  2.05it/s]  7%|▋         | 3344/48008 [28:46<6:01:33,  2.06it/s]  7%|▋         | 3345/48008 [28:46<5:59:57,  2.07it/s]  7%|▋         | 3346/48008 [28:47<6:05:10,  2.04it/s]  7%|▋         | 3347/48008 [28:47<6:02:50,  2.05it/s]  7%|▋         | 3348/48008 [28:48<6:13:45,  1.99it/s]  7%|▋         | 3349/48008 [28:48<6:08:25,  2.02it/s]  7%|▋         | 3350/48008 [28:49<6:13:09,  1.99it/s]                                                      {'loss': 4.375, 'grad_norm': 0.7614337205886841, 'learning_rate': 0.00018604815864022665, 'epoch': 0.07}
  7%|▋         | 3350/48008 [28:49<6:13:09,  1.99it/s]  7%|▋         | 3351/48008 [28:49<6:07:56,  2.02it/s]  7%|▋         | 3352/48008 [28:50<6:09:43,  2.01it/s]  7%|▋         | 3353/48008 [28:50<5:52:00,  2.11it/s]  7%|▋         | 3354/48008 [28:51<5:53:25,  2.11it/s]  7%|▋         | 3355/48008 [28:51<5:55:31,  2.09it/s]  7%|▋         | 3356/48008 [28:52<5:55:22,  2.09it/s]  7%|▋         | 3357/48008 [28:52<5:41:12,  2.18it/s]  7%|▋         | 3358/48008 [28:53<5:51:10,  2.12it/s]  7%|▋         | 3359/48008 [28:53<5:30:52,  2.25it/s]  7%|▋         | 3360/48008 [28:54<5:51:10,  2.12it/s]  7%|▋         | 3361/48008 [28:54<5:52:52,  2.11it/s]  7%|▋         | 3362/48008 [28:54<5:39:40,  2.19it/s]  7%|▋         | 3363/48008 [28:55<5:22:35,  2.31it/s]  7%|▋         | 3364/48008 [28:55<5:18:15,  2.34it/s]  7%|▋         | 3365/48008 [28:56<5:35:12,  2.22it/s]  7%|▋         | 3366/48008 [28:56<5:42:06,  2.17it/s]  7%|▋         | 3367/48008 [28:57<5:59:29,  2.07it/s]  7%|▋         | 3368/48008 [28:57<5:58:32,  2.08it/s]  7%|▋         | 3369/48008 [28:58<6:03:11,  2.05it/s]  7%|▋         | 3370/48008 [28:58<6:06:56,  2.03it/s]  7%|▋         | 3371/48008 [28:59<6:05:02,  2.04it/s]  7%|▋         | 3372/48008 [28:59<5:48:21,  2.14it/s]  7%|▋         | 3373/48008 [29:00<5:36:45,  2.21it/s]  7%|▋         | 3374/48008 [29:00<5:42:24,  2.17it/s]  7%|▋         | 3375/48008 [29:01<6:30:09,  1.91it/s]  7%|▋         | 3376/48008 [29:01<6:19:57,  1.96it/s]  7%|▋         | 3377/48008 [29:02<6:13:29,  1.99it/s]  7%|▋         | 3378/48008 [29:02<6:09:23,  2.01it/s]  7%|▋         | 3379/48008 [29:03<6:04:49,  2.04it/s]  7%|▋         | 3380/48008 [29:03<6:02:46,  2.05it/s]  7%|▋         | 3381/48008 [29:04<6:13:38,  1.99it/s]  7%|▋         | 3382/48008 [29:05<7:35:56,  1.63it/s]  7%|▋         | 3383/48008 [29:05<7:06:50,  1.74it/s]  7%|▋         | 3384/48008 [29:06<6:50:39,  1.81it/s]  7%|▋         | 3385/48008 [29:06<6:42:58,  1.85it/s]  7%|▋         | 3386/48008 [29:07<6:35:03,  1.88it/s]  7%|▋         | 3387/48008 [29:07<6:08:47,  2.02it/s]  7%|▋         | 3388/48008 [29:07<6:04:58,  2.04it/s]  7%|▋         | 3389/48008 [29:08<6:47:10,  1.83it/s]  7%|▋         | 3390/48008 [29:09<6:36:25,  1.88it/s]  7%|▋         | 3391/48008 [29:09<6:25:12,  1.93it/s]  7%|▋         | 3392/48008 [29:10<6:17:05,  1.97it/s]  7%|▋         | 3393/48008 [29:10<6:24:12,  1.94it/s]  7%|▋         | 3394/48008 [29:11<6:22:18,  1.94it/s]  7%|▋         | 3395/48008 [29:11<6:14:39,  1.98it/s]  7%|▋         | 3396/48008 [29:12<6:08:10,  2.02it/s]  7%|▋         | 3397/48008 [29:12<6:05:25,  2.03it/s]  7%|▋         | 3398/48008 [29:13<6:09:35,  2.01it/s]  7%|▋         | 3399/48008 [29:13<5:51:45,  2.11it/s]  7%|▋         | 3400/48008 [29:14<5:58:53,  2.07it/s]                                                      {'loss': 4.3664, 'grad_norm': 0.7422786355018616, 'learning_rate': 0.00018583986002332944, 'epoch': 0.07}
  7%|▋         | 3400/48008 [29:14<5:58:53,  2.07it/s]  7%|▋         | 3401/48008 [29:14<5:43:50,  2.16it/s]  7%|▋         | 3402/48008 [29:14<5:47:01,  2.14it/s]  7%|▋         | 3403/48008 [29:15<5:35:35,  2.22it/s]  7%|▋         | 3404/48008 [29:15<5:42:32,  2.17it/s]  7%|▋         | 3405/48008 [29:16<5:46:55,  2.14it/s]  7%|▋         | 3406/48008 [29:16<5:55:05,  2.09it/s]  7%|▋         | 3407/48008 [29:17<5:55:45,  2.09it/s]  7%|▋         | 3408/48008 [29:18<8:49:48,  1.40it/s]  7%|▋         | 3409/48008 [29:19<7:56:41,  1.56it/s]  7%|▋         | 3410/48008 [29:19<7:25:32,  1.67it/s]  7%|▋         | 3411/48008 [29:20<7:04:05,  1.75it/s]  7%|▋         | 3412/48008 [29:20<6:44:02,  1.84it/s]  7%|▋         | 3413/48008 [29:20<6:29:40,  1.91it/s]  7%|▋         | 3414/48008 [29:21<6:19:30,  1.96it/s]  7%|▋         | 3415/48008 [29:21<6:11:55,  2.00it/s]  7%|▋         | 3416/48008 [29:22<6:07:40,  2.02it/s]  7%|▋         | 3417/48008 [29:22<6:09:39,  2.01it/s]  7%|▋         | 3418/48008 [29:23<6:04:58,  2.04it/s]  7%|▋         | 3419/48008 [29:23<5:48:45,  2.13it/s]  7%|▋         | 3420/48008 [29:24<5:51:10,  2.12it/s]  7%|▋         | 3421/48008 [29:24<5:38:15,  2.20it/s]  7%|▋         | 3422/48008 [29:25<7:11:06,  1.72it/s]  7%|▋         | 3423/48008 [29:25<6:33:48,  1.89it/s]  7%|▋         | 3424/48008 [29:26<6:28:12,  1.91it/s]  7%|▋         | 3425/48008 [29:26<6:18:19,  1.96it/s]  7%|▋         | 3426/48008 [29:27<6:24:51,  1.93it/s]  7%|▋         | 3427/48008 [29:28<6:29:38,  1.91it/s]  7%|▋         | 3428/48008 [29:28<6:28:44,  1.91it/s]  7%|▋         | 3429/48008 [29:29<6:19:21,  1.96it/s]  7%|▋         | 3430/48008 [29:29<6:18:26,  1.96it/s]  7%|▋         | 3431/48008 [29:30<6:20:05,  1.95it/s]  7%|▋         | 3432/48008 [29:30<6:18:14,  1.96it/s]  7%|▋         | 3433/48008 [29:31<6:11:40,  2.00it/s]  7%|▋         | 3434/48008 [29:31<6:11:41,  2.00it/s]  7%|▋         | 3435/48008 [29:32<6:11:25,  2.00it/s]  7%|▋         | 3436/48008 [29:32<6:19:21,  1.96it/s]  7%|▋         | 3437/48008 [29:33<5:58:23,  2.07it/s]  7%|▋         | 3438/48008 [29:33<7:26:24,  1.66it/s]  7%|▋         | 3439/48008 [29:34<7:07:45,  1.74it/s]  7%|▋         | 3440/48008 [29:34<6:51:22,  1.81it/s]  7%|▋         | 3441/48008 [29:35<6:39:54,  1.86it/s]  7%|▋         | 3442/48008 [29:35<6:26:37,  1.92it/s]  7%|▋         | 3443/48008 [29:36<6:23:15,  1.94it/s]  7%|▋         | 3444/48008 [29:36<6:00:26,  2.06it/s]  7%|▋         | 3445/48008 [29:37<5:59:22,  2.07it/s]  7%|▋         | 3446/48008 [29:37<6:40:47,  1.85it/s]  7%|▋         | 3447/48008 [29:38<6:27:10,  1.92it/s]  7%|▋         | 3448/48008 [29:38<6:04:57,  2.03it/s]  7%|▋         | 3449/48008 [29:39<7:29:40,  1.65it/s]  7%|▋         | 3450/48008 [29:40<7:16:22,  1.70it/s]                                                      {'loss': 4.4093, 'grad_norm': 0.6877869367599487, 'learning_rate': 0.0001856315614064323, 'epoch': 0.07}
  7%|▋         | 3450/48008 [29:40<7:16:22,  1.70it/s]  7%|▋         | 3451/48008 [29:40<6:51:50,  1.80it/s]  7%|▋         | 3452/48008 [29:41<6:20:15,  1.95it/s]  7%|▋         | 3453/48008 [29:41<6:25:15,  1.93it/s]  7%|▋         | 3454/48008 [29:42<6:17:05,  1.97it/s]  7%|▋         | 3455/48008 [29:42<6:16:47,  1.97it/s]  7%|▋         | 3456/48008 [29:43<6:15:06,  1.98it/s]  7%|▋         | 3457/48008 [29:44<7:37:26,  1.62it/s]  7%|▋         | 3458/48008 [29:44<7:07:02,  1.74it/s]  7%|▋         | 3459/48008 [29:45<6:46:14,  1.83it/s]  7%|▋         | 3460/48008 [29:45<6:35:46,  1.88it/s]  7%|▋         | 3461/48008 [29:46<6:24:08,  1.93it/s]  7%|▋         | 3462/48008 [29:46<6:15:37,  1.98it/s]  7%|▋         | 3463/48008 [29:46<6:09:17,  2.01it/s]  7%|▋         | 3464/48008 [29:47<6:05:03,  2.03it/s]  7%|▋         | 3465/48008 [29:47<6:10:47,  2.00it/s]  7%|▋         | 3466/48008 [29:48<6:11:06,  2.00it/s]  7%|▋         | 3467/48008 [29:48<6:17:33,  1.97it/s]  7%|▋         | 3468/48008 [29:49<6:11:18,  2.00it/s]  7%|▋         | 3469/48008 [29:49<6:06:45,  2.02it/s]  7%|▋         | 3470/48008 [29:50<6:08:01,  2.02it/s]  7%|▋         | 3471/48008 [29:50<6:09:41,  2.01it/s]  7%|▋         | 3472/48008 [29:51<6:14:21,  1.98it/s]  7%|▋         | 3473/48008 [29:51<5:53:55,  2.10it/s]  7%|▋         | 3474/48008 [29:52<6:00:21,  2.06it/s]  7%|▋         | 3475/48008 [29:52<5:46:20,  2.14it/s]  7%|▋         | 3476/48008 [29:53<5:48:06,  2.13it/s]  7%|▋         | 3477/48008 [29:53<5:56:08,  2.08it/s]  7%|▋         | 3478/48008 [29:54<5:55:52,  2.09it/s]  7%|▋         | 3479/48008 [29:54<5:41:04,  2.18it/s]  7%|▋         | 3480/48008 [29:55<5:31:00,  2.24it/s]  7%|▋         | 3481/48008 [29:55<5:41:31,  2.17it/s]  7%|▋         | 3482/48008 [29:56<5:50:43,  2.12it/s]  7%|▋         | 3483/48008 [29:56<5:51:46,  2.11it/s]  7%|▋         | 3484/48008 [29:57<6:36:22,  1.87it/s]  7%|▋         | 3485/48008 [29:57<6:28:23,  1.91it/s]  7%|▋         | 3486/48008 [29:58<6:20:46,  1.95it/s]  7%|▋         | 3487/48008 [29:58<6:18:41,  1.96it/s]  7%|▋         | 3488/48008 [29:59<6:12:21,  1.99it/s]  7%|▋         | 3489/48008 [29:59<6:07:09,  2.02it/s]  7%|▋         | 3490/48008 [30:00<6:08:57,  2.01it/s]  7%|▋         | 3491/48008 [30:00<5:52:38,  2.10it/s]  7%|▋         | 3492/48008 [30:01<6:06:12,  2.03it/s]  7%|▋         | 3493/48008 [30:01<6:02:51,  2.04it/s]  7%|▋         | 3494/48008 [30:02<6:03:27,  2.04it/s]  7%|▋         | 3495/48008 [30:02<6:13:27,  1.99it/s]  7%|▋         | 3496/48008 [30:03<6:07:10,  2.02it/s]  7%|▋         | 3497/48008 [30:03<6:11:40,  2.00it/s]  7%|▋         | 3498/48008 [30:04<6:15:18,  1.98it/s]  7%|▋         | 3499/48008 [30:04<6:09:41,  2.01it/s]  7%|▋         | 3500/48008 [30:05<6:47:58,  1.82it/s]                                                      {'loss': 4.3747, 'grad_norm': 0.6536494493484497, 'learning_rate': 0.00018542326278953508, 'epoch': 0.07}
  7%|▋         | 3500/48008 [30:05<6:47:58,  1.82it/s]  7%|▋         | 3501/48008 [30:05<6:38:35,  1.86it/s]  7%|▋         | 3502/48008 [30:06<7:54:05,  1.56it/s]  7%|▋         | 3503/48008 [30:07<9:24:34,  1.31it/s]  7%|▋         | 3504/48008 [30:08<8:24:27,  1.47it/s]  7%|▋         | 3505/48008 [30:08<7:40:04,  1.61it/s]  7%|▋         | 3506/48008 [30:09<7:11:18,  1.72it/s]  7%|▋         | 3507/48008 [30:09<6:48:36,  1.82it/s]  7%|▋         | 3508/48008 [30:10<6:37:56,  1.86it/s]  7%|▋         | 3509/48008 [30:10<6:34:08,  1.88it/s]  7%|▋         | 3510/48008 [30:11<7:05:38,  1.74it/s]  7%|▋         | 3511/48008 [30:11<6:43:57,  1.84it/s]  7%|▋         | 3512/48008 [30:12<6:29:31,  1.90it/s]  7%|▋         | 3513/48008 [30:12<6:18:37,  1.96it/s]  7%|▋         | 3514/48008 [30:13<6:15:49,  1.97it/s]  7%|▋         | 3515/48008 [30:13<6:22:56,  1.94it/s]  7%|▋         | 3516/48008 [30:14<6:20:21,  1.95it/s]  7%|▋         | 3517/48008 [30:14<5:57:43,  2.07it/s]  7%|▋         | 3518/48008 [30:15<5:57:02,  2.08it/s]  7%|▋         | 3519/48008 [30:15<5:43:38,  2.16it/s]  7%|▋         | 3520/48008 [30:16<5:59:59,  2.06it/s]  7%|▋         | 3521/48008 [30:16<6:06:52,  2.02it/s]  7%|▋         | 3522/48008 [30:17<6:03:45,  2.04it/s]  7%|▋         | 3523/48008 [30:18<7:32:29,  1.64it/s]  7%|▋         | 3524/48008 [30:18<7:02:59,  1.75it/s]  7%|▋         | 3525/48008 [30:18<6:27:29,  1.91it/s]  7%|▋         | 3526/48008 [30:19<7:00:54,  1.76it/s]  7%|▋         | 3527/48008 [30:20<6:41:46,  1.85it/s]  7%|▋         | 3528/48008 [30:20<6:27:45,  1.91it/s]  7%|▋         | 3529/48008 [30:21<6:19:54,  1.95it/s]  7%|▋         | 3530/48008 [30:21<6:12:02,  1.99it/s]  7%|▋         | 3531/48008 [30:22<6:05:48,  2.03it/s]  7%|▋         | 3532/48008 [30:22<6:10:04,  2.00it/s]  7%|▋         | 3533/48008 [30:23<6:06:14,  2.02it/s]  7%|▋         | 3534/48008 [30:23<6:15:41,  1.97it/s]  7%|▋         | 3535/48008 [30:24<6:18:15,  1.96it/s]  7%|▋         | 3536/48008 [30:24<6:11:52,  1.99it/s]  7%|▋         | 3537/48008 [30:25<6:06:42,  2.02it/s]  7%|▋         | 3538/48008 [30:25<6:13:18,  1.99it/s]  7%|▋         | 3539/48008 [30:26<5:53:07,  2.10it/s]  7%|▋         | 3540/48008 [30:26<6:36:07,  1.87it/s]  7%|▋         | 3541/48008 [30:27<6:23:20,  1.93it/s]  7%|▋         | 3542/48008 [30:27<6:23:56,  1.93it/s]  7%|▋         | 3543/48008 [30:28<6:19:59,  1.95it/s]  7%|▋         | 3544/48008 [30:28<6:13:00,  1.99it/s]  7%|▋         | 3545/48008 [30:29<5:52:57,  2.10it/s]  7%|▋         | 3546/48008 [30:29<5:53:31,  2.10it/s]  7%|▋         | 3547/48008 [30:30<6:02:58,  2.04it/s]  7%|▋         | 3548/48008 [30:30<5:47:18,  2.13it/s]  7%|▋         | 3549/48008 [30:31<5:57:39,  2.07it/s]  7%|▋         | 3550/48008 [30:32<8:48:25,  1.40it/s]                                                      {'loss': 4.3746, 'grad_norm': 0.5976036787033081, 'learning_rate': 0.0001852149641726379, 'epoch': 0.07}
  7%|▋         | 3550/48008 [30:32<8:48:25,  1.40it/s]  7%|▋         | 3551/48008 [30:32<8:01:26,  1.54it/s]  7%|▋         | 3552/48008 [30:33<7:26:21,  1.66it/s]  7%|▋         | 3553/48008 [30:34<10:26:18,  1.18it/s]  7%|▋         | 3554/48008 [30:35<9:06:14,  1.36it/s]   7%|▋         | 3555/48008 [30:35<8:08:46,  1.52it/s]  7%|▋         | 3556/48008 [30:36<7:13:54,  1.71it/s]  7%|▋         | 3557/48008 [30:36<6:36:33,  1.87it/s]  7%|▋         | 3558/48008 [30:36<6:10:02,  2.00it/s]  7%|▋         | 3559/48008 [30:38<9:19:24,  1.32it/s]  7%|▋         | 3560/48008 [30:38<8:29:41,  1.45it/s]  7%|▋         | 3561/48008 [30:39<7:47:34,  1.58it/s]  7%|▋         | 3562/48008 [30:39<6:58:53,  1.77it/s]  7%|▋         | 3563/48008 [30:40<6:39:22,  1.85it/s]  7%|▋         | 3564/48008 [30:40<6:26:22,  1.92it/s]  7%|▋         | 3565/48008 [30:41<6:02:00,  2.05it/s]  7%|▋         | 3566/48008 [30:41<5:45:59,  2.14it/s]  7%|▋         | 3567/48008 [30:41<5:57:37,  2.07it/s]  7%|▋         | 3568/48008 [30:42<5:56:45,  2.08it/s]  7%|▋         | 3569/48008 [30:42<6:02:15,  2.04it/s]  7%|▋         | 3570/48008 [30:43<6:04:35,  2.03it/s]  7%|▋         | 3571/48008 [30:43<6:01:53,  2.05it/s]  7%|▋         | 3572/48008 [30:44<6:01:01,  2.05it/s]  7%|▋         | 3573/48008 [30:44<6:07:18,  2.02it/s]  7%|▋         | 3574/48008 [30:45<6:03:27,  2.04it/s]  7%|▋         | 3575/48008 [30:45<6:14:12,  1.98it/s]  7%|▋         | 3576/48008 [30:46<5:55:06,  2.09it/s]  7%|▋         | 3577/48008 [30:46<5:40:55,  2.17it/s]  7%|▋         | 3578/48008 [30:47<5:51:52,  2.10it/s]  7%|▋         | 3579/48008 [30:47<5:30:24,  2.24it/s]  7%|▋         | 3580/48008 [30:48<5:44:19,  2.15it/s]  7%|▋         | 3581/48008 [30:48<5:56:09,  2.08it/s]  7%|▋         | 3582/48008 [30:49<6:00:51,  2.05it/s]  7%|▋         | 3583/48008 [30:49<5:45:29,  2.14it/s]  7%|▋         | 3584/48008 [30:50<5:49:07,  2.12it/s]  7%|▋         | 3585/48008 [30:50<6:03:39,  2.04it/s]  7%|▋         | 3586/48008 [30:51<6:09:25,  2.00it/s]  7%|▋         | 3587/48008 [30:52<7:32:24,  1.64it/s]  7%|▋         | 3588/48008 [30:52<7:12:24,  1.71it/s]  7%|▋         | 3589/48008 [30:53<6:49:53,  1.81it/s]  7%|▋         | 3590/48008 [30:53<6:18:10,  1.96it/s]  7%|▋         | 3591/48008 [30:53<6:10:18,  2.00it/s]  7%|▋         | 3592/48008 [30:54<6:06:08,  2.02it/s]  7%|▋         | 3593/48008 [30:54<6:02:22,  2.04it/s]  7%|▋         | 3594/48008 [30:55<6:06:22,  2.02it/s]  7%|▋         | 3595/48008 [30:56<6:45:31,  1.83it/s]  7%|▋         | 3596/48008 [30:56<7:12:47,  1.71it/s]  7%|▋         | 3597/48008 [30:57<6:48:48,  1.81it/s]  7%|▋         | 3598/48008 [30:57<7:15:06,  1.70it/s]  7%|▋         | 3599/48008 [30:58<7:00:29,  1.76it/s]  7%|▋         | 3600/48008 [30:58<6:42:19,  1.84it/s]                                                      {'loss': 4.3148, 'grad_norm': 0.7001354098320007, 'learning_rate': 0.0001850066655557407, 'epoch': 0.07}
  7%|▋         | 3600/48008 [30:58<6:42:19,  1.84it/s]  8%|▊         | 3601/48008 [30:59<6:28:15,  1.91it/s]  8%|▊         | 3602/48008 [30:59<6:19:10,  1.95it/s]  8%|▊         | 3603/48008 [31:00<6:17:10,  1.96it/s]  8%|▊         | 3604/48008 [31:00<5:57:27,  2.07it/s]  8%|▊         | 3605/48008 [31:01<5:55:57,  2.08it/s]  8%|▊         | 3606/48008 [31:01<5:55:38,  2.08it/s]  8%|▊         | 3607/48008 [31:02<5:56:19,  2.08it/s]  8%|▊         | 3608/48008 [31:02<5:56:28,  2.08it/s]  8%|▊         | 3609/48008 [31:03<6:08:31,  2.01it/s]  8%|▊         | 3610/48008 [31:03<6:17:54,  1.96it/s]  8%|▊         | 3611/48008 [31:04<6:10:11,  2.00it/s]  8%|▊         | 3612/48008 [31:04<5:50:15,  2.11it/s]  8%|▊         | 3613/48008 [31:05<5:51:27,  2.11it/s]  8%|▊         | 3614/48008 [31:05<5:53:34,  2.09it/s]  8%|▊         | 3615/48008 [31:06<5:58:06,  2.07it/s]  8%|▊         | 3616/48008 [31:06<5:56:28,  2.08it/s]  8%|▊         | 3617/48008 [31:07<8:46:03,  1.41it/s]  8%|▊         | 3618/48008 [31:08<8:39:00,  1.43it/s]  8%|▊         | 3619/48008 [31:09<8:02:08,  1.53it/s]  8%|▊         | 3620/48008 [31:09<7:28:54,  1.65it/s]  8%|▊         | 3621/48008 [31:10<7:10:29,  1.72it/s]  8%|▊         | 3622/48008 [31:10<6:48:06,  1.81it/s]  8%|▊         | 3623/48008 [31:11<6:41:00,  1.84it/s]  8%|▊         | 3624/48008 [31:11<6:33:30,  1.88it/s]  8%|▊         | 3625/48008 [31:12<6:22:34,  1.93it/s]  8%|▊         | 3626/48008 [31:12<6:14:21,  1.98it/s]  8%|▊         | 3627/48008 [31:13<6:09:14,  2.00it/s]  8%|▊         | 3628/48008 [31:13<5:51:20,  2.11it/s]  8%|▊         | 3629/48008 [31:13<5:56:57,  2.07it/s]  8%|▊         | 3630/48008 [31:14<5:55:27,  2.08it/s]  8%|▊         | 3631/48008 [31:14<6:00:42,  2.05it/s]  8%|▊         | 3632/48008 [31:16<8:49:04,  1.40it/s]  8%|▊         | 3633/48008 [31:16<7:56:39,  1.55it/s]  8%|▊         | 3634/48008 [31:17<7:28:14,  1.65it/s]  8%|▊         | 3635/48008 [31:17<6:45:48,  1.82it/s]  8%|▊         | 3636/48008 [31:18<6:38:11,  1.86it/s]  8%|▊         | 3637/48008 [31:18<6:24:14,  1.92it/s]  8%|▊         | 3638/48008 [31:19<6:15:53,  1.97it/s]  8%|▊         | 3639/48008 [31:19<6:15:08,  1.97it/s]  8%|▊         | 3640/48008 [31:20<6:15:05,  1.97it/s]  8%|▊         | 3641/48008 [31:20<6:18:21,  1.95it/s]  8%|▊         | 3642/48008 [31:21<6:16:16,  1.97it/s]  8%|▊         | 3643/48008 [31:21<6:22:19,  1.93it/s]  8%|▊         | 3644/48008 [31:22<6:13:08,  1.98it/s]  8%|▊         | 3645/48008 [31:22<6:08:38,  2.01it/s]  8%|▊         | 3646/48008 [31:23<5:50:14,  2.11it/s]  8%|▊         | 3647/48008 [31:23<5:37:24,  2.19it/s]  8%|▊         | 3648/48008 [31:23<5:42:43,  2.16it/s]  8%|▊         | 3649/48008 [31:24<5:55:04,  2.08it/s]  8%|▊         | 3650/48008 [31:25<8:45:23,  1.41it/s]                                                      {'loss': 4.3567, 'grad_norm': 0.620047926902771, 'learning_rate': 0.00018479836693884353, 'epoch': 0.08}
  8%|▊         | 3650/48008 [31:25<8:45:23,  1.41it/s]  8%|▊         | 3651/48008 [31:26<7:55:03,  1.56it/s]  8%|▊         | 3652/48008 [31:26<7:05:01,  1.74it/s]  8%|▊         | 3653/48008 [31:27<6:44:49,  1.83it/s]  8%|▊         | 3654/48008 [31:27<6:28:29,  1.90it/s]  8%|▊         | 3655/48008 [31:28<6:18:39,  1.95it/s]  8%|▊         | 3656/48008 [31:28<6:12:23,  1.99it/s]  8%|▊         | 3657/48008 [31:29<7:36:21,  1.62it/s]  8%|▊         | 3658/48008 [31:29<7:18:38,  1.69it/s]  8%|▊         | 3659/48008 [31:30<6:54:39,  1.78it/s]  8%|▊         | 3660/48008 [31:30<6:37:44,  1.86it/s]  8%|▊         | 3661/48008 [31:31<6:24:57,  1.92it/s]  8%|▊         | 3662/48008 [31:31<6:21:46,  1.94it/s]  8%|▊         | 3663/48008 [31:32<6:13:13,  1.98it/s]  8%|▊         | 3664/48008 [31:32<5:53:13,  2.09it/s]  8%|▊         | 3665/48008 [31:33<5:53:47,  2.09it/s]  8%|▊         | 3666/48008 [31:33<5:58:52,  2.06it/s]  8%|▊         | 3667/48008 [31:34<6:04:16,  2.03it/s]  8%|▊         | 3668/48008 [31:34<6:06:24,  2.02it/s]  8%|▊         | 3669/48008 [31:35<5:48:36,  2.12it/s]  8%|▊         | 3670/48008 [31:35<5:36:09,  2.20it/s]  8%|▊         | 3671/48008 [31:36<5:47:33,  2.13it/s]  8%|▊         | 3672/48008 [31:36<5:57:32,  2.07it/s]  8%|▊         | 3673/48008 [31:37<5:55:55,  2.08it/s]  8%|▊         | 3674/48008 [31:37<5:41:03,  2.17it/s]  8%|▊         | 3675/48008 [31:37<5:31:23,  2.23it/s]  8%|▊         | 3676/48008 [31:38<5:38:19,  2.18it/s]  8%|▊         | 3677/48008 [31:39<7:10:39,  1.72it/s]  8%|▊         | 3678/48008 [31:39<6:47:04,  1.81it/s]  8%|▊         | 3679/48008 [31:40<6:16:42,  1.96it/s]  8%|▊         | 3680/48008 [31:40<6:53:39,  1.79it/s]  8%|▊         | 3681/48008 [31:41<6:21:49,  1.93it/s]  8%|▊         | 3682/48008 [31:41<6:17:54,  1.95it/s]  8%|▊         | 3683/48008 [31:42<6:15:17,  1.97it/s]  8%|▊         | 3684/48008 [31:42<5:55:09,  2.08it/s]  8%|▊         | 3685/48008 [31:43<5:40:33,  2.17it/s]  8%|▊         | 3686/48008 [31:43<5:31:11,  2.23it/s]  8%|▊         | 3687/48008 [31:44<5:43:34,  2.15it/s]  8%|▊         | 3688/48008 [31:44<5:47:26,  2.13it/s]  8%|▊         | 3689/48008 [31:45<5:53:37,  2.09it/s]  8%|▊         | 3690/48008 [31:45<5:53:16,  2.09it/s]  8%|▊         | 3691/48008 [31:46<5:59:33,  2.05it/s]  8%|▊         | 3692/48008 [31:46<5:57:06,  2.07it/s]  8%|▊         | 3693/48008 [31:46<5:41:50,  2.16it/s]  8%|▊         | 3694/48008 [31:47<5:54:27,  2.08it/s]  8%|▊         | 3695/48008 [31:48<6:37:44,  1.86it/s]  8%|▊         | 3696/48008 [31:48<6:24:59,  1.92it/s]  8%|▊         | 3697/48008 [31:49<6:58:10,  1.77it/s]  8%|▊         | 3698/48008 [31:50<9:30:44,  1.29it/s]  8%|▊         | 3699/48008 [31:51<8:35:24,  1.43it/s]  8%|▊         | 3700/48008 [31:51<7:33:21,  1.63it/s]                                                      {'loss': 4.3658, 'grad_norm': 0.7397087812423706, 'learning_rate': 0.00018459006832194635, 'epoch': 0.08}
  8%|▊         | 3700/48008 [31:51<7:33:21,  1.63it/s]  8%|▊         | 3701/48008 [31:51<7:03:46,  1.74it/s]  8%|▊         | 3702/48008 [31:52<6:48:48,  1.81it/s]  8%|▊         | 3703/48008 [31:52<6:42:27,  1.83it/s]  8%|▊         | 3704/48008 [31:53<6:14:17,  1.97it/s]  8%|▊         | 3705/48008 [31:53<6:08:46,  2.00it/s]  8%|▊         | 3706/48008 [31:54<6:05:03,  2.02it/s]  8%|▊         | 3707/48008 [31:54<6:09:40,  2.00it/s]  8%|▊         | 3708/48008 [31:55<6:48:20,  1.81it/s]  8%|▊         | 3709/48008 [31:56<6:33:17,  1.88it/s]  8%|▊         | 3710/48008 [31:56<6:20:33,  1.94it/s]  8%|▊         | 3711/48008 [31:56<6:18:40,  1.95it/s]  8%|▊         | 3712/48008 [31:57<6:15:20,  1.97it/s]  8%|▊         | 3713/48008 [31:58<9:01:46,  1.36it/s]  8%|▊         | 3714/48008 [31:59<8:05:51,  1.52it/s]  8%|▊         | 3715/48008 [31:59<7:12:26,  1.71it/s]  8%|▊         | 3716/48008 [32:00<6:49:24,  1.80it/s]  8%|▊         | 3717/48008 [32:00<6:32:26,  1.88it/s]  8%|▊         | 3718/48008 [32:01<6:27:15,  1.91it/s]  8%|▊         | 3719/48008 [32:01<6:21:58,  1.93it/s]  8%|▊         | 3720/48008 [32:02<6:13:29,  1.98it/s]  8%|▊         | 3721/48008 [32:02<6:07:28,  2.01it/s]  8%|▊         | 3722/48008 [32:03<6:03:55,  2.03it/s]  8%|▊         | 3723/48008 [32:03<6:07:46,  2.01it/s]  8%|▊         | 3724/48008 [32:04<7:32:34,  1.63it/s]  8%|▊         | 3725/48008 [32:04<7:04:13,  1.74it/s]  8%|▊         | 3726/48008 [32:05<6:44:08,  1.83it/s]  8%|▊         | 3727/48008 [32:05<6:14:02,  1.97it/s]  8%|▊         | 3728/48008 [32:06<6:07:58,  2.01it/s]  8%|▊         | 3729/48008 [32:06<6:03:16,  2.03it/s]  8%|▊         | 3730/48008 [32:07<6:00:22,  2.05it/s]  8%|▊         | 3731/48008 [32:07<5:57:51,  2.06it/s]  8%|▊         | 3732/48008 [32:08<6:09:14,  2.00it/s]  8%|▊         | 3733/48008 [32:08<6:05:28,  2.02it/s]  8%|▊         | 3734/48008 [32:09<5:47:54,  2.12it/s]  8%|▊         | 3735/48008 [32:09<5:49:15,  2.11it/s]  8%|▊         | 3736/48008 [32:10<5:49:57,  2.11it/s]  8%|▊         | 3737/48008 [32:10<5:50:50,  2.10it/s]  8%|▊         | 3738/48008 [32:11<5:37:18,  2.19it/s]  8%|▊         | 3739/48008 [32:11<5:42:21,  2.16it/s]  8%|▊         | 3740/48008 [32:11<5:31:43,  2.22it/s]  8%|▊         | 3741/48008 [32:12<5:47:16,  2.12it/s]  8%|▊         | 3742/48008 [32:12<5:35:51,  2.20it/s]  8%|▊         | 3743/48008 [32:13<5:50:09,  2.11it/s]  8%|▊         | 3744/48008 [32:13<6:01:04,  2.04it/s]  8%|▊         | 3745/48008 [32:14<5:58:25,  2.06it/s]  8%|▊         | 3746/48008 [32:14<5:56:27,  2.07it/s]  8%|▊         | 3747/48008 [32:15<5:41:08,  2.16it/s]  8%|▊         | 3748/48008 [32:15<5:55:01,  2.08it/s]  8%|▊         | 3749/48008 [32:16<5:40:16,  2.17it/s]  8%|▊         | 3750/48008 [32:16<5:56:47,  2.07it/s]                                                      {'loss': 4.3655, 'grad_norm': 0.7162604928016663, 'learning_rate': 0.00018438176970504916, 'epoch': 0.08}
  8%|▊         | 3750/48008 [32:16<5:56:47,  2.07it/s]  8%|▊         | 3751/48008 [32:17<5:41:52,  2.16it/s]  8%|▊         | 3752/48008 [32:17<5:46:05,  2.13it/s]  8%|▊         | 3753/48008 [32:18<5:35:11,  2.20it/s]  8%|▊         | 3754/48008 [32:18<5:40:46,  2.16it/s]  8%|▊         | 3755/48008 [32:18<5:29:24,  2.24it/s]  8%|▊         | 3756/48008 [32:19<5:42:45,  2.15it/s]  8%|▊         | 3757/48008 [32:19<5:48:52,  2.11it/s]  8%|▊         | 3758/48008 [32:20<5:28:58,  2.24it/s]  8%|▊         | 3759/48008 [32:20<5:49:14,  2.11it/s]  8%|▊         | 3760/48008 [32:21<5:50:25,  2.10it/s]  8%|▊         | 3761/48008 [32:21<5:51:14,  2.10it/s]  8%|▊         | 3762/48008 [32:22<5:51:54,  2.10it/s]  8%|▊         | 3763/48008 [32:22<5:38:05,  2.18it/s]  8%|▊         | 3764/48008 [32:23<5:55:25,  2.07it/s]  8%|▊         | 3765/48008 [32:23<5:55:35,  2.07it/s]  8%|▊         | 3766/48008 [32:24<5:54:43,  2.08it/s]  8%|▊         | 3767/48008 [32:24<5:53:58,  2.08it/s]  8%|▊         | 3768/48008 [32:25<5:54:29,  2.08it/s]  8%|▊         | 3769/48008 [32:25<5:54:36,  2.08it/s]  8%|▊         | 3770/48008 [32:26<5:54:35,  2.08it/s]  8%|▊         | 3771/48008 [32:26<5:59:37,  2.05it/s]  8%|▊         | 3772/48008 [32:27<6:41:22,  1.84it/s]  8%|▊         | 3773/48008 [32:27<6:32:51,  1.88it/s]  8%|▊         | 3774/48008 [32:28<6:21:02,  1.93it/s]  8%|▊         | 3775/48008 [32:28<6:12:53,  1.98it/s]  8%|▊         | 3776/48008 [32:29<7:36:07,  1.62it/s]  8%|▊         | 3777/48008 [32:30<7:05:35,  1.73it/s]  8%|▊         | 3778/48008 [32:30<6:30:03,  1.89it/s]  8%|▊         | 3779/48008 [32:31<6:23:31,  1.92it/s]  8%|▊         | 3780/48008 [32:32<9:05:41,  1.35it/s]  8%|▊         | 3781/48008 [32:32<8:13:15,  1.49it/s]  8%|▊         | 3782/48008 [32:33<7:36:50,  1.61it/s]  8%|▊         | 3783/48008 [32:33<7:11:41,  1.71it/s]  8%|▊         | 3784/48008 [32:34<7:31:24,  1.63it/s]  8%|▊         | 3785/48008 [32:34<6:47:58,  1.81it/s]  8%|▊         | 3786/48008 [32:35<6:31:18,  1.88it/s]  8%|▊         | 3787/48008 [32:35<6:05:24,  2.02it/s]  8%|▊         | 3788/48008 [32:36<6:15:03,  1.97it/s]  8%|▊         | 3789/48008 [32:36<6:17:04,  1.95it/s]  8%|▊         | 3790/48008 [32:37<6:15:09,  1.96it/s]  8%|▊         | 3791/48008 [32:37<6:13:25,  1.97it/s]  8%|▊         | 3792/48008 [32:38<6:07:54,  2.00it/s]  8%|▊         | 3793/48008 [32:38<6:02:49,  2.03it/s]  8%|▊         | 3794/48008 [32:39<5:45:59,  2.13it/s]  8%|▊         | 3795/48008 [32:39<5:48:15,  2.12it/s]  8%|▊         | 3796/48008 [32:40<5:55:52,  2.07it/s]  8%|▊         | 3797/48008 [32:40<5:55:03,  2.08it/s]  8%|▊         | 3798/48008 [32:41<5:58:50,  2.05it/s]  8%|▊         | 3799/48008 [32:41<5:56:24,  2.07it/s]  8%|▊         | 3800/48008 [32:42<6:00:20,  2.04it/s]                                                      {'loss': 4.3614, 'grad_norm': 0.6019216179847717, 'learning_rate': 0.00018417347108815198, 'epoch': 0.08}  8%|▊         | 3800/48008 [32:42<6:00:20,  2.04it/s]
  8%|▊         | 3801/48008 [32:42<6:03:28,  2.03it/s]  8%|▊         | 3802/48008 [32:43<6:00:26,  2.04it/s]  8%|▊         | 3803/48008 [32:43<6:06:19,  2.01it/s]  8%|▊         | 3804/48008 [32:44<5:47:51,  2.12it/s]  8%|▊         | 3805/48008 [32:44<5:50:02,  2.10it/s]  8%|▊         | 3806/48008 [32:45<5:51:36,  2.10it/s]  8%|▊         | 3807/48008 [32:45<6:00:12,  2.05it/s]  8%|▊         | 3808/48008 [32:46<6:10:31,  1.99it/s]  8%|▊         | 3809/48008 [32:46<6:18:40,  1.95it/s]  8%|▊         | 3810/48008 [32:47<6:11:38,  1.98it/s]  8%|▊         | 3811/48008 [32:47<6:12:10,  1.98it/s]  8%|▊         | 3812/48008 [32:48<6:15:11,  1.96it/s]  8%|▊         | 3813/48008 [32:49<8:59:15,  1.37it/s]  8%|▊         | 3814/48008 [32:49<8:16:56,  1.48it/s]  8%|▊         | 3815/48008 [32:50<7:19:35,  1.68it/s]  8%|▊         | 3816/48008 [32:50<6:58:01,  1.76it/s]  8%|▊         | 3817/48008 [32:51<6:42:57,  1.83it/s]  8%|▊         | 3818/48008 [32:51<6:39:58,  1.84it/s]  8%|▊         | 3819/48008 [32:52<6:11:28,  1.98it/s]  8%|▊         | 3820/48008 [32:52<6:05:58,  2.01it/s]  8%|▊         | 3821/48008 [32:53<6:07:10,  2.01it/s]  8%|▊         | 3822/48008 [32:53<6:02:53,  2.03it/s]  8%|▊         | 3823/48008 [32:54<6:05:11,  2.02it/s]  8%|▊         | 3824/48008 [32:54<6:06:48,  2.01it/s]  8%|▊         | 3825/48008 [32:55<5:48:20,  2.11it/s]  8%|▊         | 3826/48008 [32:55<5:58:38,  2.05it/s]  8%|▊         | 3827/48008 [32:56<6:05:43,  2.01it/s]  8%|▊         | 3828/48008 [32:56<6:07:01,  2.01it/s]  8%|▊         | 3829/48008 [32:57<6:03:23,  2.03it/s]  8%|▊         | 3830/48008 [32:58<8:51:14,  1.39it/s]  8%|▊         | 3831/48008 [32:58<7:58:10,  1.54it/s]  8%|▊         | 3832/48008 [32:59<7:28:51,  1.64it/s]  8%|▊         | 3833/48008 [32:59<6:59:10,  1.76it/s]  8%|▊         | 3834/48008 [33:00<6:40:09,  1.84it/s]  8%|▊         | 3835/48008 [33:00<6:25:26,  1.91it/s]  8%|▊         | 3836/48008 [33:01<6:15:50,  1.96it/s]  8%|▊         | 3837/48008 [33:02<7:36:56,  1.61it/s]  8%|▊         | 3838/48008 [33:02<7:05:46,  1.73it/s]  8%|▊         | 3839/48008 [33:03<6:44:11,  1.82it/s]  8%|▊         | 3840/48008 [33:03<6:42:29,  1.83it/s]  8%|▊         | 3841/48008 [33:04<6:36:13,  1.86it/s]  8%|▊         | 3842/48008 [33:04<6:27:48,  1.90it/s]  8%|▊         | 3843/48008 [33:05<6:30:40,  1.88it/s]  8%|▊         | 3844/48008 [33:05<6:24:31,  1.91it/s]  8%|▊         | 3845/48008 [33:06<6:23:50,  1.92it/s]  8%|▊         | 3846/48008 [33:06<6:23:56,  1.92it/s]  8%|▊         | 3847/48008 [33:07<5:59:15,  2.05it/s]  8%|▊         | 3848/48008 [33:07<6:09:59,  1.99it/s]  8%|▊         | 3849/48008 [33:08<6:09:59,  1.99it/s]  8%|▊         | 3850/48008 [33:08<6:10:23,  1.99it/s]                                                      {'loss': 4.4009, 'grad_norm': 0.7461376190185547, 'learning_rate': 0.0001839651724712548, 'epoch': 0.08}  8%|▊         | 3850/48008 [33:08<6:10:23,  1.99it/s]
  8%|▊         | 3851/48008 [33:09<5:51:14,  2.10it/s]  8%|▊         | 3852/48008 [33:09<5:51:54,  2.09it/s]  8%|▊         | 3853/48008 [33:10<5:52:52,  2.09it/s]  8%|▊         | 3854/48008 [33:10<5:39:13,  2.17it/s]  8%|▊         | 3855/48008 [33:11<5:50:58,  2.10it/s]  8%|▊         | 3856/48008 [33:11<5:51:15,  2.09it/s]  8%|▊         | 3857/48008 [33:12<5:37:39,  2.18it/s]  8%|▊         | 3858/48008 [33:12<5:47:32,  2.12it/s]  8%|▊         | 3859/48008 [33:13<6:01:34,  2.04it/s]  8%|▊         | 3860/48008 [33:13<6:41:55,  1.83it/s]  8%|▊         | 3861/48008 [33:14<6:40:47,  1.84it/s]  8%|▊         | 3862/48008 [33:14<6:32:21,  1.88it/s]  8%|▊         | 3863/48008 [33:15<6:29:02,  1.89it/s]  8%|▊         | 3864/48008 [33:15<6:03:27,  2.02it/s]  8%|▊         | 3865/48008 [33:16<5:46:15,  2.12it/s]  8%|▊         | 3866/48008 [33:16<5:48:14,  2.11it/s]  8%|▊         | 3867/48008 [33:17<5:54:43,  2.07it/s]  8%|▊         | 3868/48008 [33:17<5:59:18,  2.05it/s]  8%|▊         | 3869/48008 [33:18<6:09:55,  1.99it/s]  8%|▊         | 3870/48008 [33:18<5:51:03,  2.10it/s]  8%|▊         | 3871/48008 [33:19<5:51:27,  2.09it/s]  8%|▊         | 3872/48008 [33:19<5:56:53,  2.06it/s]  8%|▊         | 3873/48008 [33:20<7:21:59,  1.66it/s]  8%|▊         | 3874/48008 [33:20<6:54:33,  1.77it/s]  8%|▊         | 3875/48008 [33:21<6:36:03,  1.86it/s]  8%|▊         | 3876/48008 [33:21<6:22:27,  1.92it/s]  8%|▊         | 3877/48008 [33:22<5:59:19,  2.05it/s]  8%|▊         | 3878/48008 [33:22<5:42:33,  2.15it/s]  8%|▊         | 3879/48008 [33:23<5:58:57,  2.05it/s]  8%|▊         | 3880/48008 [33:23<6:03:01,  2.03it/s]  8%|▊         | 3881/48008 [33:24<5:45:40,  2.13it/s]  8%|▊         | 3882/48008 [33:24<5:48:19,  2.11it/s]  8%|▊         | 3883/48008 [33:25<5:56:00,  2.07it/s]  8%|▊         | 3884/48008 [33:25<5:55:20,  2.07it/s]  8%|▊         | 3885/48008 [33:26<5:54:16,  2.08it/s]  8%|▊         | 3886/48008 [33:26<5:53:32,  2.08it/s]  8%|▊         | 3887/48008 [33:27<5:54:33,  2.07it/s]  8%|▊         | 3888/48008 [33:27<6:36:37,  1.85it/s]  8%|▊         | 3889/48008 [33:28<6:09:36,  1.99it/s]  8%|▊         | 3890/48008 [33:28<6:13:03,  1.97it/s]  8%|▊         | 3891/48008 [33:29<6:18:59,  1.94it/s]  8%|▊         | 3892/48008 [33:29<6:17:22,  1.95it/s]  8%|▊         | 3893/48008 [33:30<6:15:28,  1.96it/s]  8%|▊         | 3894/48008 [33:30<6:15:05,  1.96it/s]  8%|▊         | 3895/48008 [33:31<6:08:27,  2.00it/s]  8%|▊         | 3896/48008 [33:31<6:09:05,  1.99it/s]  8%|▊         | 3897/48008 [33:32<6:09:14,  1.99it/s]  8%|▊         | 3898/48008 [33:32<6:05:41,  2.01it/s]  8%|▊         | 3899/48008 [33:33<6:10:12,  1.99it/s]  8%|▊         | 3900/48008 [33:33<6:09:14,  1.99it/s]                                                      {'loss': 4.3568, 'grad_norm': 0.8270905017852783, 'learning_rate': 0.00018375687385435762, 'epoch': 0.08}  8%|▊         | 3900/48008 [33:33<6:09:14,  1.99it/s]
  8%|▊         | 3901/48008 [33:34<6:04:30,  2.02it/s]  8%|▊         | 3902/48008 [33:34<6:01:29,  2.03it/s]  8%|▊         | 3903/48008 [33:35<6:07:54,  2.00it/s]  8%|▊         | 3904/48008 [33:35<6:07:42,  2.00it/s]  8%|▊         | 3905/48008 [33:36<6:05:07,  2.01it/s]  8%|▊         | 3906/48008 [33:36<5:47:02,  2.12it/s]  8%|▊         | 3907/48008 [33:37<5:48:23,  2.11it/s]  8%|▊         | 3908/48008 [33:37<5:36:08,  2.19it/s]  8%|▊         | 3909/48008 [33:37<5:26:22,  2.25it/s]  8%|▊         | 3910/48008 [33:38<5:41:58,  2.15it/s]  8%|▊         | 3911/48008 [33:38<5:44:16,  2.13it/s]  8%|▊         | 3912/48008 [33:39<6:30:35,  1.88it/s]  8%|▊         | 3913/48008 [33:40<6:19:33,  1.94it/s]  8%|▊         | 3914/48008 [33:40<6:15:48,  1.96it/s]  8%|▊         | 3915/48008 [33:41<6:07:52,  2.00it/s]  8%|▊         | 3916/48008 [33:41<6:11:47,  1.98it/s]  8%|▊         | 3917/48008 [33:42<6:06:28,  2.01it/s]  8%|▊         | 3918/48008 [33:42<6:07:26,  2.00it/s]  8%|▊         | 3919/48008 [33:42<5:48:52,  2.11it/s]  8%|▊         | 3920/48008 [33:43<5:51:13,  2.09it/s]  8%|▊         | 3921/48008 [33:43<5:56:49,  2.06it/s]  8%|▊         | 3922/48008 [33:44<6:00:53,  2.04it/s]  8%|▊         | 3923/48008 [33:44<6:02:55,  2.02it/s]  8%|▊         | 3924/48008 [33:45<6:05:46,  2.01it/s]  8%|▊         | 3925/48008 [33:45<6:06:53,  2.00it/s]  8%|▊         | 3926/48008 [33:46<6:02:48,  2.02it/s]  8%|▊         | 3927/48008 [33:46<5:58:52,  2.05it/s]  8%|▊         | 3928/48008 [33:47<5:55:43,  2.07it/s]  8%|▊         | 3929/48008 [33:47<5:40:30,  2.16it/s]  8%|▊         | 3930/48008 [33:48<5:29:19,  2.23it/s]  8%|▊         | 3931/48008 [33:49<7:02:39,  1.74it/s]  8%|▊         | 3932/48008 [33:49<6:46:07,  1.81it/s]  8%|▊         | 3933/48008 [33:50<6:29:46,  1.88it/s]  8%|▊         | 3934/48008 [33:50<6:27:04,  1.90it/s]  8%|▊         | 3935/48008 [33:51<6:21:20,  1.93it/s]  8%|▊         | 3936/48008 [33:52<9:01:41,  1.36it/s]  8%|▊         | 3937/48008 [33:52<8:17:06,  1.48it/s]  8%|▊         | 3938/48008 [33:53<7:41:30,  1.59it/s]  8%|▊         | 3939/48008 [33:53<7:22:02,  1.66it/s]  8%|▊         | 3940/48008 [33:54<6:41:01,  1.83it/s]  8%|▊         | 3941/48008 [33:54<6:32:02,  1.87it/s]  8%|▊         | 3942/48008 [33:55<6:06:04,  2.01it/s]  8%|▊         | 3943/48008 [33:55<6:06:55,  2.00it/s]  8%|▊         | 3944/48008 [33:56<6:02:16,  2.03it/s]  8%|▊         | 3945/48008 [33:56<6:03:56,  2.02it/s]  8%|▊         | 3946/48008 [33:57<6:00:01,  2.04it/s]  8%|▊         | 3947/48008 [33:58<7:27:20,  1.64it/s]  8%|▊         | 3948/48008 [33:58<7:03:54,  1.73it/s]  8%|▊         | 3949/48008 [33:59<6:42:57,  1.82it/s]  8%|▊         | 3950/48008 [33:59<6:27:40,  1.89it/s]                                                      {'loss': 4.3689, 'grad_norm': 0.5767192244529724, 'learning_rate': 0.00018354857523746043, 'epoch': 0.08}
  8%|▊         | 3950/48008 [33:59<6:27:40,  1.89it/s]  8%|▊         | 3951/48008 [34:00<6:25:53,  1.90it/s]  8%|▊         | 3952/48008 [34:00<6:15:53,  1.95it/s]  8%|▊         | 3953/48008 [34:01<6:21:54,  1.92it/s]  8%|▊         | 3954/48008 [34:01<6:18:35,  1.94it/s]  8%|▊         | 3955/48008 [34:02<5:56:46,  2.06it/s]  8%|▊         | 3956/48008 [34:02<5:40:16,  2.16it/s]  8%|▊         | 3957/48008 [34:03<5:56:47,  2.06it/s]  8%|▊         | 3958/48008 [34:03<7:22:52,  1.66it/s]  8%|▊         | 3959/48008 [34:04<7:38:22,  1.60it/s]  8%|▊         | 3960/48008 [34:04<6:51:59,  1.78it/s]  8%|▊         | 3961/48008 [34:05<6:19:53,  1.93it/s]  8%|▊         | 3962/48008 [34:05<6:21:08,  1.93it/s]  8%|▊         | 3963/48008 [34:06<6:24:46,  1.91it/s]  8%|▊         | 3964/48008 [34:06<6:00:34,  2.04it/s]  8%|▊         | 3965/48008 [34:07<5:43:31,  2.14it/s]  8%|▊         | 3966/48008 [34:07<5:31:24,  2.21it/s]  8%|▊         | 3967/48008 [34:08<5:38:31,  2.17it/s]  8%|▊         | 3968/48008 [34:09<7:09:10,  1.71it/s]  8%|▊         | 3969/48008 [34:09<6:45:47,  1.81it/s]  8%|▊         | 3970/48008 [34:10<6:30:20,  1.88it/s]  8%|▊         | 3971/48008 [34:10<6:28:25,  1.89it/s]  8%|▊         | 3972/48008 [34:11<6:25:31,  1.90it/s]  8%|▊         | 3973/48008 [34:11<6:20:21,  1.93it/s]  8%|▊         | 3974/48008 [34:12<6:11:40,  1.97it/s]  8%|▊         | 3975/48008 [34:12<6:04:47,  2.01it/s]  8%|▊         | 3976/48008 [34:13<7:27:24,  1.64it/s]  8%|▊         | 3977/48008 [34:13<6:58:42,  1.75it/s]  8%|▊         | 3978/48008 [34:14<6:39:05,  1.84it/s]  8%|▊         | 3979/48008 [34:14<6:31:17,  1.88it/s]  8%|▊         | 3980/48008 [34:15<6:19:33,  1.93it/s]  8%|▊         | 3981/48008 [34:16<7:37:25,  1.60it/s]  8%|▊         | 3982/48008 [34:16<7:10:07,  1.71it/s]  8%|▊         | 3983/48008 [34:17<6:47:01,  1.80it/s]  8%|▊         | 3984/48008 [34:17<6:35:39,  1.85it/s]  8%|▊         | 3985/48008 [34:18<6:28:00,  1.89it/s]  8%|▊         | 3986/48008 [34:18<6:17:40,  1.94it/s]  8%|▊         | 3987/48008 [34:19<5:55:50,  2.06it/s]  8%|▊         | 3988/48008 [34:19<5:54:50,  2.07it/s]  8%|▊         | 3989/48008 [34:20<6:02:48,  2.02it/s]  8%|▊         | 3990/48008 [34:20<5:59:05,  2.04it/s]  8%|▊         | 3991/48008 [34:21<6:05:33,  2.01it/s]  8%|▊         | 3992/48008 [34:21<6:00:31,  2.03it/s]  8%|▊         | 3993/48008 [34:22<6:05:42,  2.01it/s]  8%|▊         | 3994/48008 [34:22<6:06:42,  2.00it/s]  8%|▊         | 3995/48008 [34:23<6:10:58,  1.98it/s]  8%|▊         | 3996/48008 [34:23<6:05:59,  2.00it/s]  8%|▊         | 3997/48008 [34:24<6:07:41,  1.99it/s]  8%|▊         | 3998/48008 [34:24<6:02:28,  2.02it/s]  8%|▊         | 3999/48008 [34:25<6:03:46,  2.02it/s]  8%|▊         | 4000/48008 [34:25<6:13:19,  1.96it/s]                                                      {'loss': 4.3407, 'grad_norm': 0.6203513741493225, 'learning_rate': 0.00018334027662056325, 'epoch': 0.08}
  8%|▊         | 4000/48008 [34:25<6:13:19,  1.96it/s]  8%|▊         | 4001/48008 [34:26<6:07:01,  2.00it/s]  8%|▊         | 4002/48008 [34:26<6:02:59,  2.02it/s]  8%|▊         | 4003/48008 [34:27<5:59:49,  2.04it/s]  8%|▊         | 4004/48008 [34:27<5:43:41,  2.13it/s]  8%|▊         | 4005/48008 [34:28<6:28:55,  1.89it/s]  8%|▊         | 4006/48008 [34:28<6:17:34,  1.94it/s]  8%|▊         | 4007/48008 [34:29<6:08:30,  1.99it/s]  8%|▊         | 4008/48008 [34:29<5:49:06,  2.10it/s]  8%|▊         | 4009/48008 [34:29<5:35:19,  2.19it/s]  8%|▊         | 4010/48008 [34:30<5:39:59,  2.16it/s]  8%|▊         | 4011/48008 [34:31<6:26:10,  1.90it/s]  8%|▊         | 4012/48008 [34:31<6:27:42,  1.89it/s]  8%|▊         | 4013/48008 [34:32<7:44:44,  1.58it/s]  8%|▊         | 4014/48008 [34:32<6:56:48,  1.76it/s]  8%|▊         | 4015/48008 [34:34<9:25:54,  1.30it/s]  8%|▊         | 4016/48008 [34:35<9:48:02,  1.25it/s]  8%|▊         | 4017/48008 [34:35<8:22:32,  1.46it/s]  8%|▊         | 4018/48008 [34:35<7:37:45,  1.60it/s]  8%|▊         | 4019/48008 [34:36<7:14:35,  1.69it/s]  8%|▊         | 4020/48008 [34:36<6:50:41,  1.79it/s]  8%|▊         | 4021/48008 [34:37<6:32:55,  1.87it/s]  8%|▊         | 4022/48008 [34:37<6:26:01,  1.90it/s]  8%|▊         | 4023/48008 [34:38<6:01:07,  2.03it/s]  8%|▊         | 4024/48008 [34:38<5:58:16,  2.05it/s]  8%|▊         | 4025/48008 [34:39<5:56:20,  2.06it/s]  8%|▊         | 4026/48008 [34:39<5:59:24,  2.04it/s]  8%|▊         | 4027/48008 [34:40<5:56:19,  2.06it/s]  8%|▊         | 4028/48008 [34:40<5:54:46,  2.07it/s]  8%|▊         | 4029/48008 [34:41<6:02:01,  2.02it/s]  8%|▊         | 4030/48008 [34:41<5:59:34,  2.04it/s]  8%|▊         | 4031/48008 [34:42<6:02:21,  2.02it/s]  8%|▊         | 4032/48008 [34:42<6:41:40,  1.82it/s]  8%|▊         | 4033/48008 [34:43<6:31:36,  1.87it/s]  8%|▊         | 4034/48008 [34:43<6:19:22,  1.93it/s]  8%|▊         | 4035/48008 [34:44<6:19:05,  1.93it/s]  8%|▊         | 4036/48008 [34:44<6:16:03,  1.95it/s]  8%|▊         | 4037/48008 [34:45<6:08:39,  1.99it/s]  8%|▊         | 4038/48008 [34:45<6:08:56,  1.99it/s]  8%|▊         | 4039/48008 [34:46<6:11:33,  1.97it/s]  8%|▊         | 4040/48008 [34:46<6:10:31,  1.98it/s]  8%|▊         | 4041/48008 [34:47<6:18:08,  1.94it/s]  8%|▊         | 4042/48008 [34:47<6:15:31,  1.95it/s]  8%|▊         | 4043/48008 [34:48<6:08:50,  1.99it/s]  8%|▊         | 4044/48008 [34:48<6:09:23,  1.98it/s]  8%|▊         | 4045/48008 [34:49<5:49:53,  2.09it/s]  8%|▊         | 4046/48008 [34:49<5:50:27,  2.09it/s]  8%|▊         | 4047/48008 [34:50<5:51:03,  2.09it/s]  8%|▊         | 4048/48008 [34:50<5:52:08,  2.08it/s]  8%|▊         | 4049/48008 [34:51<5:51:07,  2.09it/s]  8%|▊         | 4050/48008 [34:51<6:00:54,  2.03it/s]                                                      {'loss': 4.3917, 'grad_norm': 0.6216593384742737, 'learning_rate': 0.00018313197800366607, 'epoch': 0.08}
  8%|▊         | 4050/48008 [34:51<6:00:54,  2.03it/s]  8%|▊         | 4051/48008 [34:52<6:04:20,  2.01it/s]  8%|▊         | 4052/48008 [34:52<6:08:10,  1.99it/s]  8%|▊         | 4053/48008 [34:53<7:29:41,  1.63it/s]  8%|▊         | 4054/48008 [34:54<7:06:09,  1.72it/s]  8%|▊         | 4055/48008 [34:54<6:43:39,  1.81it/s]  8%|▊         | 4056/48008 [34:55<6:13:28,  1.96it/s]  8%|▊         | 4057/48008 [34:55<6:06:50,  2.00it/s]  8%|▊         | 4058/48008 [34:55<5:47:57,  2.11it/s]  8%|▊         | 4059/48008 [34:56<5:53:53,  2.07it/s]  8%|▊         | 4060/48008 [34:57<8:41:16,  1.41it/s]  8%|▊         | 4061/48008 [34:58<7:36:24,  1.60it/s]  8%|▊         | 4062/48008 [34:58<7:05:26,  1.72it/s]  8%|▊         | 4063/48008 [34:59<6:47:28,  1.80it/s]  8%|▊         | 4064/48008 [34:59<6:16:37,  1.94it/s]  8%|▊         | 4065/48008 [35:00<6:16:55,  1.94it/s]  8%|▊         | 4066/48008 [35:00<6:08:56,  1.99it/s]  8%|▊         | 4067/48008 [35:00<5:49:26,  2.10it/s]  8%|▊         | 4068/48008 [35:01<5:49:29,  2.10it/s]  8%|▊         | 4069/48008 [35:01<5:51:13,  2.08it/s]  8%|▊         | 4070/48008 [35:02<6:05:07,  2.01it/s]  8%|▊         | 4071/48008 [35:02<6:00:57,  2.03it/s]  8%|▊         | 4072/48008 [35:03<6:06:07,  2.00it/s]  8%|▊         | 4073/48008 [35:03<6:02:06,  2.02it/s]  8%|▊         | 4074/48008 [35:04<6:04:34,  2.01it/s]  8%|▊         | 4075/48008 [35:04<6:00:22,  2.03it/s]  8%|▊         | 4076/48008 [35:05<6:03:19,  2.02it/s]  8%|▊         | 4077/48008 [35:05<6:07:37,  1.99it/s]  8%|▊         | 4078/48008 [35:06<6:08:01,  1.99it/s]  8%|▊         | 4079/48008 [35:06<5:48:52,  2.10it/s]  8%|▊         | 4080/48008 [35:07<5:49:24,  2.10it/s]  9%|▊         | 4081/48008 [35:07<5:58:48,  2.04it/s]  9%|▊         | 4082/48008 [35:08<5:42:10,  2.14it/s]  9%|▊         | 4083/48008 [35:08<5:50:28,  2.09it/s]  9%|▊         | 4084/48008 [35:09<5:50:55,  2.09it/s]  9%|▊         | 4085/48008 [35:09<6:33:08,  1.86it/s]  9%|▊         | 4086/48008 [35:10<6:24:47,  1.90it/s]  9%|▊         | 4087/48008 [35:10<6:26:46,  1.89it/s]  9%|▊         | 4088/48008 [35:11<6:00:58,  2.03it/s]  9%|▊         | 4089/48008 [35:11<5:43:49,  2.13it/s]  9%|▊         | 4090/48008 [35:12<5:45:33,  2.12it/s]  9%|▊         | 4091/48008 [35:12<5:33:13,  2.20it/s]  9%|▊         | 4092/48008 [35:13<5:43:32,  2.13it/s]  9%|▊         | 4093/48008 [35:13<5:54:02,  2.07it/s]  9%|▊         | 4094/48008 [35:14<8:44:07,  1.40it/s]  9%|▊         | 4095/48008 [35:15<7:38:44,  1.60it/s]  9%|▊         | 4096/48008 [35:15<7:06:29,  1.72it/s]  9%|▊         | 4097/48008 [35:16<6:48:42,  1.79it/s]  9%|▊         | 4098/48008 [35:16<6:39:47,  1.83it/s]  9%|▊         | 4099/48008 [35:17<6:24:57,  1.90it/s]  9%|▊         | 4100/48008 [35:17<6:14:42,  1.95it/s]                                                      {'loss': 4.3592, 'grad_norm': 0.6093273758888245, 'learning_rate': 0.00018292367938676889, 'epoch': 0.09}  9%|▊         | 4100/48008 [35:17<6:14:42,  1.95it/s]
  9%|▊         | 4101/48008 [35:18<6:20:12,  1.92it/s]  9%|▊         | 4102/48008 [35:18<5:57:27,  2.05it/s]  9%|▊         | 4103/48008 [35:19<5:56:17,  2.05it/s]  9%|▊         | 4104/48008 [35:19<5:59:34,  2.03it/s]  9%|▊         | 4105/48008 [35:20<7:23:07,  1.65it/s]  9%|▊         | 4106/48008 [35:21<7:00:05,  1.74it/s]  9%|▊         | 4107/48008 [35:21<6:39:57,  1.83it/s]  9%|▊         | 4108/48008 [35:22<6:25:42,  1.90it/s]  9%|▊         | 4109/48008 [35:22<6:20:25,  1.92it/s]  9%|▊         | 4110/48008 [35:23<6:15:49,  1.95it/s]  9%|▊         | 4111/48008 [35:23<5:53:05,  2.07it/s]  9%|▊         | 4112/48008 [35:23<5:37:49,  2.17it/s]  9%|▊         | 4113/48008 [35:24<5:41:26,  2.14it/s]  9%|▊         | 4114/48008 [35:24<5:30:07,  2.22it/s]  9%|▊         | 4115/48008 [35:25<5:42:31,  2.14it/s]  9%|▊         | 4116/48008 [35:25<5:45:38,  2.12it/s]  9%|▊         | 4117/48008 [35:26<5:55:57,  2.06it/s]  9%|▊         | 4118/48008 [35:27<6:36:44,  1.84it/s]  9%|▊         | 4119/48008 [35:28<9:12:11,  1.32it/s]  9%|▊         | 4120/48008 [35:28<8:11:15,  1.49it/s]  9%|▊         | 4121/48008 [35:29<7:38:21,  1.60it/s]  9%|▊         | 4122/48008 [35:29<7:48:44,  1.56it/s]  9%|▊         | 4123/48008 [35:30<7:12:23,  1.69it/s]  9%|▊         | 4124/48008 [35:30<6:52:52,  1.77it/s]  9%|▊         | 4125/48008 [35:31<6:19:57,  1.92it/s]  9%|▊         | 4126/48008 [35:31<6:10:48,  1.97it/s]  9%|▊         | 4127/48008 [35:32<6:04:36,  2.01it/s]  9%|▊         | 4128/48008 [35:32<6:12:48,  1.96it/s]  9%|▊         | 4129/48008 [35:33<6:07:02,  1.99it/s]  9%|▊         | 4130/48008 [35:33<5:48:04,  2.10it/s]  9%|▊         | 4131/48008 [35:34<5:48:50,  2.10it/s]  9%|▊         | 4132/48008 [35:34<5:53:34,  2.07it/s]  9%|▊         | 4133/48008 [35:35<5:38:08,  2.16it/s]  9%|▊         | 4134/48008 [35:35<5:54:49,  2.06it/s]  9%|▊         | 4135/48008 [35:36<7:20:39,  1.66it/s]  9%|▊         | 4136/48008 [35:37<7:01:43,  1.73it/s]  9%|▊         | 4137/48008 [35:37<6:53:21,  1.77it/s]  9%|▊         | 4138/48008 [35:38<9:22:49,  1.30it/s]  9%|▊         | 4139/48008 [35:39<8:19:38,  1.46it/s]  9%|▊         | 4140/48008 [35:40<9:00:58,  1.35it/s]  9%|▊         | 4141/48008 [35:40<8:12:15,  1.49it/s]  9%|▊         | 4142/48008 [35:41<7:29:19,  1.63it/s]  9%|▊         | 4143/48008 [35:41<7:03:46,  1.73it/s]  9%|▊         | 4144/48008 [35:42<6:46:01,  1.80it/s]  9%|▊         | 4145/48008 [35:42<6:34:25,  1.85it/s]  9%|▊         | 4146/48008 [35:43<6:21:42,  1.92it/s]  9%|▊         | 4147/48008 [35:44<9:00:25,  1.35it/s]  9%|▊         | 4148/48008 [35:44<7:49:11,  1.56it/s]  9%|▊         | 4149/48008 [35:45<7:19:31,  1.66it/s]  9%|▊         | 4150/48008 [35:45<6:53:40,  1.77it/s]                                                      {'loss': 4.3848, 'grad_norm': 0.5953485369682312, 'learning_rate': 0.0001827153807698717, 'epoch': 0.09}
  9%|▊         | 4150/48008 [35:45<6:53:40,  1.77it/s]  9%|▊         | 4151/48008 [35:46<6:42:54,  1.81it/s]  9%|▊         | 4152/48008 [35:46<6:36:30,  1.84it/s]  9%|▊         | 4153/48008 [35:47<6:26:50,  1.89it/s]  9%|▊         | 4154/48008 [35:47<6:22:12,  1.91it/s]  9%|▊         | 4155/48008 [35:48<6:18:28,  1.93it/s]  9%|▊         | 4156/48008 [35:48<6:10:22,  1.97it/s]  9%|▊         | 4157/48008 [35:49<6:04:09,  2.01it/s]  9%|▊         | 4158/48008 [35:49<5:46:13,  2.11it/s]  9%|▊         | 4159/48008 [35:50<5:48:06,  2.10it/s]  9%|▊         | 4160/48008 [35:50<5:53:31,  2.07it/s]  9%|▊         | 4161/48008 [35:51<5:57:36,  2.04it/s]  9%|▊         | 4162/48008 [35:51<5:59:44,  2.03it/s]  9%|▊         | 4163/48008 [35:52<6:01:21,  2.02it/s]  9%|▊         | 4164/48008 [35:53<7:24:22,  1.64it/s]  9%|▊         | 4165/48008 [35:53<6:41:30,  1.82it/s]  9%|▊         | 4166/48008 [35:54<9:14:02,  1.32it/s]  9%|▊         | 4167/48008 [35:55<8:20:31,  1.46it/s]  9%|▊         | 4168/48008 [35:55<7:40:03,  1.59it/s]  9%|▊         | 4169/48008 [35:56<6:52:55,  1.77it/s]  9%|▊         | 4170/48008 [35:56<6:42:19,  1.82it/s]  9%|▊         | 4171/48008 [35:57<6:12:38,  1.96it/s]  9%|▊         | 4172/48008 [35:57<6:18:17,  1.93it/s]  9%|▊         | 4173/48008 [35:58<6:10:31,  1.97it/s]  9%|▊         | 4174/48008 [35:58<6:08:56,  1.98it/s]  9%|▊         | 4175/48008 [35:59<6:16:35,  1.94it/s]  9%|▊         | 4176/48008 [35:59<6:08:35,  1.98it/s]  9%|▊         | 4177/48008 [36:00<5:48:52,  2.09it/s]  9%|▊         | 4178/48008 [36:00<5:34:30,  2.18it/s]  9%|▊         | 4179/48008 [36:00<5:44:33,  2.12it/s]  9%|▊         | 4180/48008 [36:01<5:51:48,  2.08it/s]  9%|▊         | 4181/48008 [36:01<5:37:06,  2.17it/s]  9%|▊         | 4182/48008 [36:02<5:41:19,  2.14it/s]  9%|▊         | 4183/48008 [36:02<5:49:48,  2.09it/s]  9%|▊         | 4184/48008 [36:03<5:58:37,  2.04it/s]  9%|▊         | 4185/48008 [36:03<5:55:38,  2.05it/s]  9%|▊         | 4186/48008 [36:04<5:54:22,  2.06it/s]  9%|▊         | 4187/48008 [36:04<5:52:31,  2.07it/s]  9%|▊         | 4188/48008 [36:05<5:52:17,  2.07it/s]  9%|▊         | 4189/48008 [36:05<5:37:33,  2.16it/s]  9%|▊         | 4190/48008 [36:06<5:49:21,  2.09it/s]  9%|▊         | 4191/48008 [36:06<5:55:02,  2.06it/s]  9%|▊         | 4192/48008 [36:07<5:53:43,  2.06it/s]  9%|▊         | 4193/48008 [36:07<5:39:01,  2.15it/s]  9%|▊         | 4194/48008 [36:08<5:46:34,  2.11it/s]  9%|▊         | 4195/48008 [36:08<6:30:26,  1.87it/s]  9%|▊         | 4196/48008 [36:09<6:23:19,  1.90it/s]  9%|▊         | 4197/48008 [36:09<6:13:08,  1.96it/s]  9%|▊         | 4198/48008 [36:10<6:05:50,  2.00it/s]  9%|▊         | 4199/48008 [36:10<6:06:29,  1.99it/s]  9%|▊         | 4200/48008 [36:11<6:44:29,  1.81it/s]                                                      {'loss': 4.3452, 'grad_norm': 0.5133686661720276, 'learning_rate': 0.00018250708215297452, 'epoch': 0.09}  9%|▊         | 4200/48008 [36:11<6:44:29,  1.81it/s]
  9%|▉         | 4201/48008 [36:11<6:33:24,  1.86it/s]  9%|▉         | 4202/48008 [36:13<10:40:36,  1.14it/s]  9%|▉         | 4203/48008 [36:14<8:58:46,  1.36it/s]   9%|▉         | 4204/48008 [36:14<8:08:03,  1.50it/s]  9%|▉         | 4205/48008 [36:14<7:13:17,  1.68it/s]  9%|▉         | 4206/48008 [36:15<6:49:18,  1.78it/s]  9%|▉         | 4207/48008 [36:15<6:31:22,  1.87it/s]  9%|▉         | 4208/48008 [36:17<9:39:24,  1.26it/s]  9%|▉         | 4209/48008 [36:17<8:39:49,  1.40it/s]  9%|▉         | 4210/48008 [36:18<7:48:55,  1.56it/s]  9%|▉         | 4211/48008 [36:18<7:18:32,  1.66it/s]  9%|▉         | 4212/48008 [36:19<6:52:46,  1.77it/s]  9%|▉         | 4213/48008 [36:19<6:38:54,  1.83it/s]  9%|▉         | 4214/48008 [36:20<6:28:55,  1.88it/s]  9%|▉         | 4215/48008 [36:20<6:22:59,  1.91it/s]  9%|▉         | 4216/48008 [36:21<6:13:08,  1.96it/s]  9%|▉         | 4217/48008 [36:21<6:06:16,  1.99it/s]  9%|▉         | 4218/48008 [36:22<5:47:21,  2.10it/s]  9%|▉         | 4219/48008 [36:22<5:48:53,  2.09it/s]  9%|▉         | 4220/48008 [36:23<5:57:48,  2.04it/s]  9%|▉         | 4221/48008 [36:24<7:22:18,  1.65it/s]  9%|▉         | 4222/48008 [36:24<7:03:43,  1.72it/s]  9%|▉         | 4223/48008 [36:25<6:41:22,  1.82it/s]  9%|▉         | 4224/48008 [36:25<6:25:17,  1.89it/s]  9%|▉         | 4225/48008 [36:26<6:19:01,  1.93it/s]  9%|▉         | 4226/48008 [36:26<6:10:02,  1.97it/s]  9%|▉         | 4227/48008 [36:27<6:10:03,  1.97it/s]  9%|▉         | 4228/48008 [36:27<6:08:59,  1.98it/s]  9%|▉         | 4229/48008 [36:28<6:03:51,  2.01it/s]  9%|▉         | 4230/48008 [36:28<5:58:58,  2.03it/s]  9%|▉         | 4231/48008 [36:29<7:22:04,  1.65it/s]  9%|▉         | 4232/48008 [36:29<6:53:44,  1.76it/s]  9%|▉         | 4233/48008 [36:30<7:17:19,  1.67it/s]  9%|▉         | 4234/48008 [36:31<6:56:25,  1.75it/s]  9%|▉         | 4235/48008 [36:31<6:37:16,  1.84it/s]  9%|▉         | 4236/48008 [36:32<6:22:50,  1.91it/s]  9%|▉         | 4237/48008 [36:32<6:54:37,  1.76it/s]  9%|▉         | 4238/48008 [36:33<6:41:28,  1.82it/s]  9%|▉         | 4239/48008 [36:33<6:26:46,  1.89it/s]  9%|▉         | 4240/48008 [36:34<6:23:27,  1.90it/s]  9%|▉         | 4241/48008 [36:34<6:27:23,  1.88it/s]  9%|▉         | 4242/48008 [36:35<6:20:13,  1.92it/s]  9%|▉         | 4243/48008 [36:35<5:56:31,  2.05it/s]  9%|▉         | 4244/48008 [36:36<5:54:39,  2.06it/s]  9%|▉         | 4245/48008 [36:36<7:19:05,  1.66it/s]  9%|▉         | 4246/48008 [36:37<6:53:05,  1.77it/s]  9%|▉         | 4247/48008 [36:37<6:39:09,  1.83it/s]  9%|▉         | 4248/48008 [36:38<6:24:13,  1.90it/s]  9%|▉         | 4249/48008 [36:38<5:59:14,  2.03it/s]  9%|▉         | 4250/48008 [36:39<5:57:07,  2.04it/s]                                                      {'loss': 4.3867, 'grad_norm': 0.6574908494949341, 'learning_rate': 0.0001822987835360773, 'epoch': 0.09}
  9%|▉         | 4250/48008 [36:39<5:57:07,  2.04it/s]  9%|▉         | 4251/48008 [36:39<6:00:00,  2.03it/s]  9%|▉         | 4252/48008 [36:40<6:02:07,  2.01it/s]  9%|▉         | 4253/48008 [36:40<5:44:53,  2.11it/s]  9%|▉         | 4254/48008 [36:41<5:55:25,  2.05it/s]  9%|▉         | 4255/48008 [36:41<5:54:07,  2.06it/s]  9%|▉         | 4256/48008 [36:42<5:59:01,  2.03it/s]  9%|▉         | 4257/48008 [36:42<5:55:15,  2.05it/s]  9%|▉         | 4258/48008 [36:44<8:41:27,  1.40it/s]  9%|▉         | 4259/48008 [36:44<7:35:53,  1.60it/s]  9%|▉         | 4260/48008 [36:44<6:49:41,  1.78it/s]  9%|▉         | 4261/48008 [36:45<6:36:36,  1.84it/s]  9%|▉         | 4262/48008 [36:45<6:32:22,  1.86it/s]  9%|▉         | 4263/48008 [36:46<6:20:16,  1.92it/s]  9%|▉         | 4264/48008 [36:46<6:23:54,  1.90it/s]  9%|▉         | 4265/48008 [36:47<6:17:52,  1.93it/s]  9%|▉         | 4266/48008 [36:47<6:09:14,  1.97it/s]  9%|▉         | 4267/48008 [36:48<5:48:47,  2.09it/s]  9%|▉         | 4268/48008 [36:49<8:39:08,  1.40it/s]  9%|▉         | 4269/48008 [36:50<7:56:50,  1.53it/s]  9%|▉         | 4270/48008 [36:50<7:27:11,  1.63it/s]  9%|▉         | 4271/48008 [36:51<7:11:31,  1.69it/s]  9%|▉         | 4272/48008 [36:51<6:52:13,  1.77it/s]  9%|▉         | 4273/48008 [36:52<6:33:59,  1.85it/s]  9%|▉         | 4274/48008 [36:52<6:25:02,  1.89it/s]  9%|▉         | 4275/48008 [36:53<6:20:16,  1.92it/s]  9%|▉         | 4276/48008 [36:53<6:10:54,  1.97it/s]  9%|▉         | 4277/48008 [36:53<5:49:24,  2.09it/s]  9%|▉         | 4278/48008 [36:54<6:31:17,  1.86it/s]  9%|▉         | 4279/48008 [36:55<6:19:28,  1.92it/s]  9%|▉         | 4280/48008 [36:55<6:10:18,  1.97it/s]  9%|▉         | 4281/48008 [36:56<6:47:30,  1.79it/s]  9%|▉         | 4282/48008 [36:56<6:29:54,  1.87it/s]  9%|▉         | 4283/48008 [36:57<6:18:36,  1.92it/s]  9%|▉         | 4284/48008 [36:57<6:21:40,  1.91it/s]  9%|▉         | 4285/48008 [36:58<5:57:29,  2.04it/s]  9%|▉         | 4286/48008 [36:58<5:54:26,  2.06it/s]  9%|▉         | 4287/48008 [36:59<5:52:37,  2.07it/s]  9%|▉         | 4288/48008 [36:59<5:57:07,  2.04it/s]  9%|▉         | 4289/48008 [37:00<5:54:30,  2.06it/s]  9%|▉         | 4290/48008 [37:00<5:38:47,  2.15it/s]  9%|▉         | 4291/48008 [37:01<5:47:45,  2.10it/s]  9%|▉         | 4292/48008 [37:01<5:49:09,  2.09it/s]  9%|▉         | 4293/48008 [37:01<5:35:25,  2.17it/s]  9%|▉         | 4294/48008 [37:02<5:39:24,  2.15it/s]  9%|▉         | 4295/48008 [37:02<5:28:34,  2.22it/s]  9%|▉         | 4296/48008 [37:03<5:34:58,  2.17it/s]  9%|▉         | 4297/48008 [37:03<5:25:22,  2.24it/s]  9%|▉         | 4298/48008 [37:04<5:37:44,  2.16it/s]  9%|▉         | 4299/48008 [37:04<5:41:39,  2.13it/s]  9%|▉         | 4300/48008 [37:05<5:44:06,  2.12it/s]                                                      {'loss': 4.3385, 'grad_norm': 0.9264498353004456, 'learning_rate': 0.00018209048491918015, 'epoch': 0.09}
  9%|▉         | 4300/48008 [37:05<5:44:06,  2.12it/s]  9%|▉         | 4301/48008 [37:05<5:45:46,  2.11it/s]  9%|▉         | 4302/48008 [37:06<5:51:57,  2.07it/s]  9%|▉         | 4303/48008 [37:06<5:55:35,  2.05it/s]  9%|▉         | 4304/48008 [37:07<6:00:04,  2.02it/s]  9%|▉         | 4305/48008 [37:07<5:42:40,  2.13it/s]  9%|▉         | 4306/48008 [37:08<5:43:45,  2.12it/s]  9%|▉         | 4307/48008 [37:08<5:45:54,  2.11it/s]  9%|▉         | 4308/48008 [37:09<5:46:46,  2.10it/s]  9%|▉         | 4309/48008 [37:09<5:52:42,  2.06it/s]  9%|▉         | 4310/48008 [37:10<8:38:58,  1.40it/s]  9%|▉         | 4311/48008 [37:11<7:52:43,  1.54it/s]  9%|▉         | 4312/48008 [37:11<7:15:33,  1.67it/s]  9%|▉         | 4313/48008 [37:12<6:55:49,  1.75it/s]  9%|▉         | 4314/48008 [37:12<6:35:39,  1.84it/s]  9%|▉         | 4315/48008 [37:13<6:07:46,  1.98it/s]  9%|▉         | 4316/48008 [37:14<7:28:00,  1.63it/s]  9%|▉         | 4317/48008 [37:14<7:02:48,  1.72it/s]  9%|▉         | 4318/48008 [37:15<6:41:13,  1.81it/s]  9%|▉         | 4319/48008 [37:15<6:26:40,  1.88it/s]  9%|▉         | 4320/48008 [37:16<6:24:16,  1.89it/s]  9%|▉         | 4321/48008 [37:16<6:12:53,  1.95it/s]  9%|▉         | 4322/48008 [37:17<6:17:57,  1.93it/s]  9%|▉         | 4323/48008 [37:17<6:17:24,  1.93it/s]  9%|▉         | 4324/48008 [37:18<6:21:20,  1.91it/s]  9%|▉         | 4325/48008 [37:18<6:16:46,  1.93it/s]  9%|▉         | 4326/48008 [37:19<6:14:19,  1.94it/s]  9%|▉         | 4327/48008 [37:19<6:07:30,  1.98it/s]  9%|▉         | 4328/48008 [37:20<6:10:08,  1.97it/s]  9%|▉         | 4329/48008 [37:20<6:03:29,  2.00it/s]  9%|▉         | 4330/48008 [37:21<7:24:49,  1.64it/s]  9%|▉         | 4331/48008 [37:21<6:57:06,  1.75it/s]  9%|▉         | 4332/48008 [37:22<6:22:46,  1.90it/s]  9%|▉         | 4333/48008 [37:22<6:13:11,  1.95it/s]  9%|▉         | 4334/48008 [37:23<6:11:33,  1.96it/s]  9%|▉         | 4335/48008 [37:23<6:04:42,  2.00it/s]  9%|▉         | 4336/48008 [37:24<6:03:57,  2.00it/s]  9%|▉         | 4337/48008 [37:25<6:41:56,  1.81it/s]  9%|▉         | 4338/48008 [37:25<6:31:00,  1.86it/s]  9%|▉         | 4339/48008 [37:26<6:24:10,  1.89it/s]  9%|▉         | 4340/48008 [37:26<6:22:15,  1.90it/s]  9%|▉         | 4341/48008 [37:27<6:12:46,  1.95it/s]  9%|▉         | 4342/48008 [37:27<5:51:54,  2.07it/s]  9%|▉         | 4343/48008 [37:27<5:37:28,  2.16it/s]  9%|▉         | 4344/48008 [37:28<5:44:53,  2.11it/s]  9%|▉         | 4345/48008 [37:29<8:34:39,  1.41it/s]  9%|▉         | 4346/48008 [37:30<10:32:38,  1.15it/s]  9%|▉         | 4347/48008 [37:31<9:07:36,  1.33it/s]   9%|▉         | 4348/48008 [37:31<7:54:05,  1.53it/s]  9%|▉         | 4349/48008 [37:32<7:24:36,  1.64it/s]  9%|▉         | 4350/48008 [37:32<6:56:09,  1.75it/s]                                                      {'loss': 4.3553, 'grad_norm': 0.5993931889533997, 'learning_rate': 0.00018188218630228294, 'epoch': 0.09}
  9%|▉         | 4350/48008 [37:32<6:56:09,  1.75it/s]  9%|▉         | 4351/48008 [37:33<6:42:09,  1.81it/s]  9%|▉         | 4352/48008 [37:33<6:40:02,  1.82it/s]  9%|▉         | 4353/48008 [37:34<6:30:39,  1.86it/s]  9%|▉         | 4354/48008 [37:34<6:17:28,  1.93it/s]  9%|▉         | 4355/48008 [37:35<6:17:27,  1.93it/s]  9%|▉         | 4356/48008 [37:35<6:13:17,  1.95it/s]  9%|▉         | 4357/48008 [37:36<6:06:02,  1.99it/s]  9%|▉         | 4358/48008 [37:36<6:01:33,  2.01it/s]  9%|▉         | 4359/48008 [37:37<6:02:39,  2.01it/s]  9%|▉         | 4360/48008 [37:37<5:59:28,  2.02it/s]  9%|▉         | 4361/48008 [37:38<6:00:17,  2.02it/s]  9%|▉         | 4362/48008 [37:38<6:04:37,  2.00it/s]  9%|▉         | 4363/48008 [37:39<6:00:35,  2.02it/s]  9%|▉         | 4364/48008 [37:39<5:57:07,  2.04it/s]  9%|▉         | 4365/48008 [37:40<5:59:54,  2.02it/s]  9%|▉         | 4366/48008 [37:40<6:05:25,  1.99it/s]  9%|▉         | 4367/48008 [37:41<6:13:24,  1.95it/s]  9%|▉         | 4368/48008 [37:42<8:54:41,  1.36it/s]  9%|▉         | 4369/48008 [37:42<7:45:02,  1.56it/s]  9%|▉         | 4370/48008 [37:43<7:09:14,  1.69it/s]  9%|▉         | 4371/48008 [37:43<6:45:12,  1.79it/s]  9%|▉         | 4372/48008 [37:44<6:28:06,  1.87it/s]  9%|▉         | 4373/48008 [37:44<6:21:29,  1.91it/s]  9%|▉         | 4374/48008 [37:45<6:11:06,  1.96it/s]  9%|▉         | 4375/48008 [37:45<6:04:26,  2.00it/s]  9%|▉         | 4376/48008 [37:46<6:05:25,  1.99it/s]  9%|▉         | 4377/48008 [37:46<6:05:46,  1.99it/s]  9%|▉         | 4378/48008 [37:48<8:47:48,  1.38it/s]  9%|▉         | 4379/48008 [37:48<8:03:01,  1.51it/s]  9%|▉         | 4380/48008 [37:49<7:08:25,  1.70it/s]  9%|▉         | 4381/48008 [37:49<6:30:10,  1.86it/s]  9%|▉         | 4382/48008 [37:49<6:17:39,  1.93it/s]  9%|▉         | 4383/48008 [37:50<6:09:03,  1.97it/s]  9%|▉         | 4384/48008 [37:50<5:48:48,  2.08it/s]  9%|▉         | 4385/48008 [37:51<5:47:53,  2.09it/s]  9%|▉         | 4386/48008 [37:51<5:48:03,  2.09it/s]  9%|▉         | 4387/48008 [37:52<5:47:32,  2.09it/s]  9%|▉         | 4388/48008 [37:52<5:47:43,  2.09it/s]  9%|▉         | 4389/48008 [37:53<5:33:37,  2.18it/s]  9%|▉         | 4390/48008 [37:53<5:43:13,  2.12it/s]  9%|▉         | 4391/48008 [37:54<5:50:37,  2.07it/s]  9%|▉         | 4392/48008 [37:54<5:55:06,  2.05it/s]  9%|▉         | 4393/48008 [37:55<5:57:36,  2.03it/s]  9%|▉         | 4394/48008 [37:55<5:40:58,  2.13it/s]  9%|▉         | 4395/48008 [37:56<5:29:54,  2.20it/s]  9%|▉         | 4396/48008 [37:56<5:41:39,  2.13it/s]  9%|▉         | 4397/48008 [37:56<5:43:34,  2.12it/s]  9%|▉         | 4398/48008 [37:57<5:53:24,  2.06it/s]  9%|▉         | 4399/48008 [37:58<5:57:09,  2.04it/s]  9%|▉         | 4400/48008 [37:58<5:59:21,  2.02it/s]                                                      {'loss': 4.3528, 'grad_norm': 0.6576988697052002, 'learning_rate': 0.0001816738876853858, 'epoch': 0.09}
  9%|▉         | 4400/48008 [37:58<5:59:21,  2.02it/s]  9%|▉         | 4401/48008 [37:59<8:44:41,  1.39it/s]  9%|▉         | 4402/48008 [38:00<7:52:59,  1.54it/s]  9%|▉         | 4403/48008 [38:00<7:16:08,  1.67it/s]  9%|▉         | 4404/48008 [38:01<6:50:21,  1.77it/s]  9%|▉         | 4405/48008 [38:01<6:17:48,  1.92it/s]  9%|▉         | 4406/48008 [38:02<6:09:42,  1.97it/s]  9%|▉         | 4407/48008 [38:02<6:07:24,  1.98it/s]  9%|▉         | 4408/48008 [38:03<5:47:40,  2.09it/s]  9%|▉         | 4409/48008 [38:03<7:14:13,  1.67it/s]  9%|▉         | 4410/48008 [38:04<6:48:11,  1.78it/s]  9%|▉         | 4411/48008 [38:04<6:16:35,  1.93it/s]  9%|▉         | 4412/48008 [38:05<6:51:18,  1.77it/s]  9%|▉         | 4413/48008 [38:05<6:33:25,  1.85it/s]  9%|▉         | 4414/48008 [38:06<6:28:03,  1.87it/s]  9%|▉         | 4415/48008 [38:06<6:02:43,  2.00it/s]  9%|▉         | 4416/48008 [38:07<7:23:59,  1.64it/s]  9%|▉         | 4417/48008 [38:08<7:08:55,  1.69it/s]  9%|▉         | 4418/48008 [38:08<6:44:32,  1.80it/s]  9%|▉         | 4419/48008 [38:09<6:36:31,  1.83it/s]  9%|▉         | 4420/48008 [38:09<6:22:22,  1.90it/s]  9%|▉         | 4421/48008 [38:10<6:20:56,  1.91it/s]  9%|▉         | 4422/48008 [38:10<5:56:45,  2.04it/s]  9%|▉         | 4423/48008 [38:11<5:53:41,  2.05it/s]  9%|▉         | 4424/48008 [38:11<5:59:57,  2.02it/s]  9%|▉         | 4425/48008 [38:12<5:42:27,  2.12it/s]  9%|▉         | 4426/48008 [38:12<6:25:45,  1.88it/s]  9%|▉         | 4427/48008 [38:13<5:53:08,  2.06it/s]  9%|▉         | 4428/48008 [38:13<5:50:59,  2.07it/s]  9%|▉         | 4429/48008 [38:14<6:31:38,  1.85it/s]  9%|▉         | 4430/48008 [38:14<6:18:11,  1.92it/s]  9%|▉         | 4431/48008 [38:15<6:08:52,  1.97it/s]  9%|▉         | 4432/48008 [38:15<6:07:19,  1.98it/s]  9%|▉         | 4433/48008 [38:16<6:02:24,  2.00it/s]  9%|▉         | 4434/48008 [38:16<5:57:58,  2.03it/s]  9%|▉         | 4435/48008 [38:17<5:41:17,  2.13it/s]  9%|▉         | 4436/48008 [38:17<5:49:22,  2.08it/s]  9%|▉         | 4437/48008 [38:18<5:35:04,  2.17it/s]  9%|▉         | 4438/48008 [38:18<5:44:16,  2.11it/s]  9%|▉         | 4439/48008 [38:19<5:54:44,  2.05it/s]  9%|▉         | 4440/48008 [38:19<5:51:58,  2.06it/s]  9%|▉         | 4441/48008 [38:20<5:50:50,  2.07it/s]  9%|▉         | 4442/48008 [38:20<5:36:09,  2.16it/s]  9%|▉         | 4443/48008 [38:20<5:47:31,  2.09it/s]  9%|▉         | 4444/48008 [38:21<7:13:30,  1.67it/s]  9%|▉         | 4445/48008 [38:22<6:53:35,  1.76it/s]  9%|▉         | 4446/48008 [38:22<6:19:45,  1.91it/s]  9%|▉         | 4447/48008 [38:23<6:15:01,  1.94it/s]  9%|▉         | 4448/48008 [38:23<6:06:53,  1.98it/s]  9%|▉         | 4449/48008 [38:24<5:46:37,  2.09it/s]  9%|▉         | 4450/48008 [38:24<6:01:16,  2.01it/s]                                                      {'loss': 4.3499, 'grad_norm': 0.5290323495864868, 'learning_rate': 0.00018146558906848858, 'epoch': 0.09}
  9%|▉         | 4450/48008 [38:24<6:01:16,  2.01it/s]  9%|▉         | 4451/48008 [38:25<5:57:32,  2.03it/s]  9%|▉         | 4452/48008 [38:25<6:00:24,  2.01it/s]  9%|▉         | 4453/48008 [38:26<6:00:55,  2.01it/s]  9%|▉         | 4454/48008 [38:26<6:02:19,  2.00it/s]  9%|▉         | 4455/48008 [38:27<6:06:07,  1.98it/s]  9%|▉         | 4456/48008 [38:27<6:06:40,  1.98it/s]  9%|▉         | 4457/48008 [38:28<6:10:48,  1.96it/s]  9%|▉         | 4458/48008 [38:28<6:10:00,  1.96it/s]  9%|▉         | 4459/48008 [38:30<8:51:08,  1.37it/s]  9%|▉         | 4460/48008 [38:30<7:57:03,  1.52it/s]  9%|▉         | 4461/48008 [38:30<7:04:21,  1.71it/s]  9%|▉         | 4462/48008 [38:31<6:46:13,  1.79it/s]  9%|▉         | 4463/48008 [38:31<6:42:51,  1.80it/s]  9%|▉         | 4464/48008 [38:32<6:26:29,  1.88it/s]  9%|▉         | 4465/48008 [38:32<6:01:29,  2.01it/s]  9%|▉         | 4466/48008 [38:33<6:10:06,  1.96it/s]  9%|▉         | 4467/48008 [38:33<6:15:49,  1.93it/s]  9%|▉         | 4468/48008 [38:34<5:53:04,  2.06it/s]  9%|▉         | 4469/48008 [38:34<5:37:31,  2.15it/s]  9%|▉         | 4470/48008 [38:35<5:41:30,  2.12it/s]  9%|▉         | 4471/48008 [38:35<5:42:48,  2.12it/s]  9%|▉         | 4472/48008 [38:36<7:09:44,  1.69it/s]  9%|▉         | 4473/48008 [38:37<6:50:51,  1.77it/s]  9%|▉         | 4474/48008 [38:37<6:41:12,  1.81it/s]  9%|▉         | 4475/48008 [38:38<6:31:12,  1.85it/s]  9%|▉         | 4476/48008 [38:38<6:18:41,  1.92it/s]  9%|▉         | 4477/48008 [38:39<6:08:32,  1.97it/s]  9%|▉         | 4478/48008 [38:39<6:08:11,  1.97it/s]  9%|▉         | 4479/48008 [38:40<6:02:20,  2.00it/s]  9%|▉         | 4480/48008 [38:40<5:58:39,  2.02it/s]  9%|▉         | 4481/48008 [38:41<6:37:08,  1.83it/s]  9%|▉         | 4482/48008 [38:41<6:22:32,  1.90it/s]  9%|▉         | 4483/48008 [38:42<6:13:10,  1.94it/s]  9%|▉         | 4484/48008 [38:42<5:51:41,  2.06it/s]  9%|▉         | 4485/48008 [38:43<5:50:56,  2.07it/s]  9%|▉         | 4486/48008 [38:43<5:50:11,  2.07it/s]  9%|▉         | 4487/48008 [38:44<6:02:22,  2.00it/s]  9%|▉         | 4488/48008 [38:44<6:04:13,  1.99it/s]  9%|▉         | 4489/48008 [38:45<5:59:51,  2.02it/s]  9%|▉         | 4490/48008 [38:45<5:56:05,  2.04it/s]  9%|▉         | 4491/48008 [38:46<6:36:21,  1.83it/s]  9%|▉         | 4492/48008 [38:46<6:26:50,  1.87it/s]  9%|▉         | 4493/48008 [38:47<6:15:18,  1.93it/s]  9%|▉         | 4494/48008 [38:47<6:06:54,  1.98it/s]  9%|▉         | 4495/48008 [38:48<6:06:05,  1.98it/s]  9%|▉         | 4496/48008 [38:49<8:48:25,  1.37it/s]  9%|▉         | 4497/48008 [38:49<7:53:53,  1.53it/s]  9%|▉         | 4498/48008 [38:50<7:16:28,  1.66it/s]  9%|▉         | 4499/48008 [38:50<6:49:48,  1.77it/s]  9%|▉         | 4500/48008 [38:51<6:44:25,  1.79it/s]                                                      {'loss': 4.3717, 'grad_norm': 0.49705612659454346, 'learning_rate': 0.0001812572904515914, 'epoch': 0.09}  9%|▉         | 4500/48008 [38:51<6:44:25,  1.79it/s]
  9%|▉         | 4501/48008 [38:51<6:13:48,  1.94it/s]  9%|▉         | 4502/48008 [38:52<6:10:20,  1.96it/s]  9%|▉         | 4503/48008 [38:52<5:49:07,  2.08it/s]  9%|▉         | 4504/48008 [38:53<5:53:41,  2.05it/s]  9%|▉         | 4505/48008 [38:53<5:52:33,  2.06it/s]  9%|▉         | 4506/48008 [38:54<5:51:18,  2.06it/s]  9%|▉         | 4507/48008 [38:54<5:56:09,  2.04it/s]  9%|▉         | 4508/48008 [38:55<5:53:16,  2.05it/s]  9%|▉         | 4509/48008 [38:55<6:03:58,  1.99it/s]  9%|▉         | 4510/48008 [38:56<5:59:25,  2.02it/s]  9%|▉         | 4511/48008 [38:56<5:56:08,  2.04it/s]  9%|▉         | 4512/48008 [38:57<6:05:49,  1.98it/s]  9%|▉         | 4513/48008 [38:57<5:59:42,  2.02it/s]  9%|▉         | 4514/48008 [38:58<6:00:25,  2.01it/s]  9%|▉         | 4515/48008 [38:58<6:02:14,  2.00it/s]  9%|▉         | 4516/48008 [38:59<5:43:32,  2.11it/s]  9%|▉         | 4517/48008 [38:59<5:57:36,  2.03it/s]  9%|▉         | 4518/48008 [39:00<6:07:14,  1.97it/s]  9%|▉         | 4519/48008 [39:00<5:47:16,  2.09it/s]  9%|▉         | 4520/48008 [39:01<5:53:00,  2.05it/s]  9%|▉         | 4521/48008 [39:01<5:57:12,  2.03it/s]  9%|▉         | 4522/48008 [39:02<5:58:41,  2.02it/s]  9%|▉         | 4523/48008 [39:02<5:55:49,  2.04it/s]  9%|▉         | 4524/48008 [39:03<6:34:57,  1.83it/s]  9%|▉         | 4525/48008 [39:04<9:08:32,  1.32it/s]  9%|▉         | 4526/48008 [39:05<8:15:54,  1.46it/s]  9%|▉         | 4527/48008 [39:05<7:17:59,  1.65it/s]  9%|▉         | 4528/48008 [39:06<8:18:02,  1.46it/s]  9%|▉         | 4529/48008 [39:06<7:32:55,  1.60it/s]  9%|▉         | 4530/48008 [39:07<6:47:15,  1.78it/s]  9%|▉         | 4531/48008 [39:07<6:38:42,  1.82it/s]  9%|▉         | 4532/48008 [39:08<6:27:41,  1.87it/s]  9%|▉         | 4533/48008 [39:08<6:23:54,  1.89it/s]  9%|▉         | 4534/48008 [39:09<5:58:53,  2.02it/s]  9%|▉         | 4535/48008 [39:09<5:40:50,  2.13it/s]  9%|▉         | 4536/48008 [39:10<5:29:24,  2.20it/s]  9%|▉         | 4537/48008 [39:10<5:35:35,  2.16it/s]  9%|▉         | 4538/48008 [39:11<8:28:17,  1.43it/s]  9%|▉         | 4539/48008 [39:12<7:48:31,  1.55it/s]  9%|▉         | 4540/48008 [39:12<7:17:34,  1.66it/s]  9%|▉         | 4541/48008 [39:13<6:50:13,  1.77it/s]  9%|▉         | 4542/48008 [39:13<6:40:00,  1.81it/s]  9%|▉         | 4543/48008 [39:14<6:23:50,  1.89it/s]  9%|▉         | 4544/48008 [39:14<6:12:26,  1.94it/s]  9%|▉         | 4545/48008 [39:15<6:04:53,  1.99it/s]  9%|▉         | 4546/48008 [39:15<6:07:47,  1.97it/s]  9%|▉         | 4547/48008 [39:16<6:05:59,  1.98it/s]  9%|▉         | 4548/48008 [39:16<6:04:34,  1.99it/s]  9%|▉         | 4549/48008 [39:17<6:05:49,  1.98it/s]  9%|▉         | 4550/48008 [39:17<6:00:20,  2.01it/s]                                                      {'loss': 4.3362, 'grad_norm': 0.5290183424949646, 'learning_rate': 0.00018104899183469424, 'epoch': 0.09}
  9%|▉         | 4550/48008 [39:17<6:00:20,  2.01it/s]  9%|▉         | 4551/48008 [39:18<6:01:48,  2.00it/s]  9%|▉         | 4552/48008 [39:18<6:06:57,  1.97it/s]  9%|▉         | 4553/48008 [39:19<6:00:44,  2.01it/s]  9%|▉         | 4554/48008 [39:19<6:09:23,  1.96it/s]  9%|▉         | 4555/48008 [39:20<6:02:38,  2.00it/s]  9%|▉         | 4556/48008 [39:20<6:07:28,  1.97it/s]  9%|▉         | 4557/48008 [39:21<6:02:01,  2.00it/s]  9%|▉         | 4558/48008 [39:21<5:43:16,  2.11it/s]  9%|▉         | 4559/48008 [39:22<5:56:56,  2.03it/s]  9%|▉         | 4560/48008 [39:22<5:53:23,  2.05it/s] 10%|▉         | 4561/48008 [39:23<5:38:02,  2.14it/s] 10%|▉         | 4562/48008 [39:24<8:29:41,  1.42it/s] 10%|▉         | 4563/48008 [39:24<7:41:22,  1.57it/s] 10%|▉         | 4564/48008 [39:25<7:07:04,  1.70it/s] 10%|▉         | 4565/48008 [39:25<6:51:23,  1.76it/s] 10%|▉         | 4566/48008 [39:26<6:37:55,  1.82it/s] 10%|▉         | 4567/48008 [39:26<6:23:31,  1.89it/s] 10%|▉         | 4568/48008 [39:27<6:20:26,  1.90it/s] 10%|▉         | 4569/48008 [39:28<7:36:46,  1.59it/s] 10%|▉         | 4570/48008 [39:28<7:05:22,  1.70it/s] 10%|▉         | 4571/48008 [39:29<6:54:10,  1.75it/s] 10%|▉         | 4572/48008 [39:29<6:34:38,  1.83it/s] 10%|▉         | 4573/48008 [39:30<6:19:38,  1.91it/s] 10%|▉         | 4574/48008 [39:30<6:10:14,  1.96it/s] 10%|▉         | 4575/48008 [39:31<6:07:37,  1.97it/s] 10%|▉         | 4576/48008 [39:31<6:10:26,  1.95it/s] 10%|▉         | 4577/48008 [39:32<6:03:31,  1.99it/s] 10%|▉         | 4578/48008 [39:32<5:58:23,  2.02it/s] 10%|▉         | 4579/48008 [39:33<6:00:05,  2.01it/s] 10%|▉         | 4580/48008 [39:33<6:00:36,  2.01it/s] 10%|▉         | 4581/48008 [39:34<5:56:05,  2.03it/s] 10%|▉         | 4582/48008 [39:34<6:36:03,  1.83it/s] 10%|▉         | 4583/48008 [39:35<6:27:19,  1.87it/s] 10%|▉         | 4584/48008 [39:35<6:20:54,  1.90it/s] 10%|▉         | 4585/48008 [39:36<6:10:39,  1.95it/s] 10%|▉         | 4586/48008 [39:36<6:04:40,  1.98it/s] 10%|▉         | 4587/48008 [39:37<6:05:46,  1.98it/s] 10%|▉         | 4588/48008 [39:37<6:09:57,  1.96it/s] 10%|▉         | 4589/48008 [39:38<5:49:17,  2.07it/s] 10%|▉         | 4590/48008 [39:38<5:49:32,  2.07it/s] 10%|▉         | 4591/48008 [39:39<5:53:54,  2.04it/s] 10%|▉         | 4592/48008 [39:39<6:00:17,  2.01it/s] 10%|▉         | 4593/48008 [39:40<5:56:29,  2.03it/s] 10%|▉         | 4594/48008 [39:40<5:39:54,  2.13it/s] 10%|▉         | 4595/48008 [39:41<5:42:23,  2.11it/s] 10%|▉         | 4596/48008 [39:41<5:48:44,  2.07it/s] 10%|▉         | 4597/48008 [39:42<6:29:40,  1.86it/s] 10%|▉         | 4598/48008 [39:42<6:16:53,  1.92it/s] 10%|▉         | 4599/48008 [39:43<6:08:03,  1.97it/s] 10%|▉         | 4600/48008 [39:44<8:49:08,  1.37it/s]                                                      {'loss': 4.3444, 'grad_norm': 0.4381333887577057, 'learning_rate': 0.00018084069321779703, 'epoch': 0.1}
 10%|▉         | 4600/48008 [39:44<8:49:08,  1.37it/s] 10%|▉         | 4601/48008 [39:45<8:03:25,  1.50it/s] 10%|▉         | 4602/48008 [39:45<7:34:57,  1.59it/s] 10%|▉         | 4603/48008 [39:46<7:44:19,  1.56it/s] 10%|▉         | 4604/48008 [39:46<7:08:14,  1.69it/s] 10%|▉         | 4605/48008 [39:47<6:43:59,  1.79it/s] 10%|▉         | 4606/48008 [39:47<6:11:42,  1.95it/s] 10%|▉         | 4607/48008 [39:48<6:09:10,  1.96it/s] 10%|▉         | 4608/48008 [39:48<6:06:40,  1.97it/s] 10%|▉         | 4609/48008 [39:49<6:00:52,  2.00it/s] 10%|▉         | 4610/48008 [39:49<5:57:12,  2.02it/s] 10%|▉         | 4611/48008 [39:50<5:54:41,  2.04it/s] 10%|▉         | 4612/48008 [39:50<5:57:11,  2.02it/s] 10%|▉         | 4613/48008 [39:51<5:53:59,  2.04it/s] 10%|▉         | 4614/48008 [39:51<5:51:43,  2.06it/s] 10%|▉         | 4615/48008 [39:52<7:17:50,  1.65it/s] 10%|▉         | 4616/48008 [39:53<9:37:12,  1.25it/s] 10%|▉         | 4617/48008 [39:54<8:32:56,  1.41it/s] 10%|▉         | 4618/48008 [39:54<7:21:17,  1.64it/s] 10%|▉         | 4619/48008 [39:55<6:57:56,  1.73it/s] 10%|▉         | 4620/48008 [39:55<6:36:17,  1.82it/s] 10%|▉         | 4621/48008 [39:55<6:07:16,  1.97it/s] 10%|▉         | 4622/48008 [39:56<6:00:20,  2.01it/s] 10%|▉         | 4623/48008 [39:56<6:01:57,  2.00it/s] 10%|▉         | 4624/48008 [39:57<5:57:09,  2.02it/s] 10%|▉         | 4625/48008 [39:57<6:01:56,  2.00it/s] 10%|▉         | 4626/48008 [39:58<6:07:04,  1.97it/s] 10%|▉         | 4627/48008 [39:58<6:10:52,  1.95it/s] 10%|▉         | 4628/48008 [39:59<5:49:20,  2.07it/s] 10%|▉         | 4629/48008 [39:59<5:52:48,  2.05it/s] 10%|▉         | 4630/48008 [40:00<5:50:18,  2.06it/s] 10%|▉         | 4631/48008 [40:00<5:48:14,  2.08it/s] 10%|▉         | 4632/48008 [40:01<5:34:04,  2.16it/s] 10%|▉         | 4633/48008 [40:01<6:19:23,  1.91it/s] 10%|▉         | 4634/48008 [40:02<6:08:44,  1.96it/s] 10%|▉         | 4635/48008 [40:02<6:10:09,  1.95it/s] 10%|▉         | 4636/48008 [40:03<6:15:17,  1.93it/s] 10%|▉         | 4637/48008 [40:03<6:11:20,  1.95it/s] 10%|▉         | 4638/48008 [40:04<6:03:53,  1.99it/s] 10%|▉         | 4639/48008 [40:04<6:03:04,  1.99it/s] 10%|▉         | 4640/48008 [40:05<5:58:12,  2.02it/s] 10%|▉         | 4641/48008 [40:05<5:40:59,  2.12it/s] 10%|▉         | 4642/48008 [40:06<5:43:31,  2.10it/s] 10%|▉         | 4643/48008 [40:07<7:38:16,  1.58it/s] 10%|▉         | 4644/48008 [40:07<7:05:40,  1.70it/s] 10%|▉         | 4645/48008 [40:08<6:46:14,  1.78it/s] 10%|▉         | 4646/48008 [40:08<6:34:24,  1.83it/s] 10%|▉         | 4647/48008 [40:09<6:25:57,  1.87it/s] 10%|▉         | 4648/48008 [40:09<6:13:46,  1.93it/s] 10%|▉         | 4649/48008 [40:10<6:11:04,  1.95it/s] 10%|▉         | 4650/48008 [40:10<6:03:33,  1.99it/s]                                                      {'loss': 4.3069, 'grad_norm': 0.42535996437072754, 'learning_rate': 0.00018063239460089988, 'epoch': 0.1} 10%|▉         | 4650/48008 [40:10<6:03:33,  1.99it/s]
 10%|▉         | 4651/48008 [40:11<5:59:35,  2.01it/s] 10%|▉         | 4652/48008 [40:11<5:57:00,  2.02it/s] 10%|▉         | 4653/48008 [40:13<8:41:12,  1.39it/s] 10%|▉         | 4654/48008 [40:13<7:48:43,  1.54it/s] 10%|▉         | 4655/48008 [40:13<7:12:14,  1.67it/s] 10%|▉         | 4656/48008 [40:14<7:00:05,  1.72it/s] 10%|▉         | 4657/48008 [40:14<6:23:57,  1.88it/s] 10%|▉         | 4658/48008 [40:15<6:12:40,  1.94it/s] 10%|▉         | 4659/48008 [40:15<5:50:03,  2.06it/s] 10%|▉         | 4660/48008 [40:16<6:30:29,  1.85it/s] 10%|▉         | 4661/48008 [40:16<6:17:06,  1.92it/s] 10%|▉         | 4662/48008 [40:17<6:13:57,  1.93it/s] 10%|▉         | 4663/48008 [40:17<6:15:19,  1.92it/s] 10%|▉         | 4664/48008 [40:18<6:07:45,  1.96it/s] 10%|▉         | 4665/48008 [40:18<6:05:42,  1.98it/s] 10%|▉         | 4666/48008 [40:19<6:12:04,  1.94it/s] 10%|▉         | 4667/48008 [40:19<6:04:52,  1.98it/s] 10%|▉         | 4668/48008 [40:20<5:59:56,  2.01it/s] 10%|▉         | 4669/48008 [40:20<6:00:47,  2.00it/s] 10%|▉         | 4670/48008 [40:21<5:43:10,  2.10it/s] 10%|▉         | 4671/48008 [40:21<5:52:22,  2.05it/s] 10%|▉         | 4672/48008 [40:22<5:56:24,  2.03it/s] 10%|▉         | 4673/48008 [40:22<5:39:39,  2.13it/s] 10%|▉         | 4674/48008 [40:23<5:41:33,  2.11it/s] 10%|▉         | 4675/48008 [40:24<8:29:05,  1.42it/s] 10%|▉         | 4676/48008 [40:25<7:46:04,  1.55it/s] 10%|▉         | 4677/48008 [40:25<8:35:40,  1.40it/s] 10%|▉         | 4678/48008 [40:26<7:45:09,  1.55it/s] 10%|▉         | 4679/48008 [40:26<7:19:13,  1.64it/s] 10%|▉         | 4680/48008 [40:27<7:32:30,  1.60it/s] 10%|▉         | 4681/48008 [40:28<7:05:14,  1.70it/s] 10%|▉         | 4682/48008 [40:28<6:42:39,  1.79it/s] 10%|▉         | 4683/48008 [40:29<6:31:25,  1.84it/s] 10%|▉         | 4684/48008 [40:29<6:23:39,  1.88it/s] 10%|▉         | 4685/48008 [40:30<5:58:00,  2.02it/s] 10%|▉         | 4686/48008 [40:30<6:00:47,  2.00it/s] 10%|▉         | 4687/48008 [40:31<7:21:27,  1.64it/s] 10%|▉         | 4688/48008 [40:31<6:53:01,  1.75it/s] 10%|▉         | 4689/48008 [40:32<6:38:47,  1.81it/s] 10%|▉         | 4690/48008 [40:32<6:23:42,  1.88it/s] 10%|▉         | 4691/48008 [40:33<6:53:50,  1.74it/s] 10%|▉         | 4692/48008 [40:34<6:32:41,  1.84it/s] 10%|▉         | 4693/48008 [40:34<6:19:23,  1.90it/s] 10%|▉         | 4694/48008 [40:34<6:09:37,  1.95it/s] 10%|▉         | 4695/48008 [40:35<5:49:37,  2.06it/s] 10%|▉         | 4696/48008 [40:36<7:13:35,  1.66it/s] 10%|▉         | 4697/48008 [40:36<6:26:39,  1.87it/s] 10%|▉         | 4698/48008 [40:37<6:19:29,  1.90it/s] 10%|▉         | 4699/48008 [40:37<6:08:58,  1.96it/s] 10%|▉         | 4700/48008 [40:38<6:03:28,  1.99it/s]                                                      {'loss': 4.3465, 'grad_norm': 0.4973065257072449, 'learning_rate': 0.00018042409598400267, 'epoch': 0.1}
 10%|▉         | 4700/48008 [40:38<6:03:28,  1.99it/s] 10%|▉         | 4701/48008 [40:38<6:03:37,  1.98it/s] 10%|▉         | 4702/48008 [40:39<5:58:59,  2.01it/s] 10%|▉         | 4703/48008 [40:40<8:41:06,  1.39it/s] 10%|▉         | 4704/48008 [40:40<7:48:43,  1.54it/s] 10%|▉         | 4705/48008 [40:41<7:19:50,  1.64it/s] 10%|▉         | 4706/48008 [40:42<9:39:01,  1.25it/s] 10%|▉         | 4707/48008 [40:43<8:28:49,  1.42it/s] 10%|▉         | 4708/48008 [40:43<7:54:13,  1.52it/s] 10%|▉         | 4709/48008 [40:44<7:23:49,  1.63it/s] 10%|▉         | 4710/48008 [40:44<7:02:36,  1.71it/s] 10%|▉         | 4711/48008 [40:45<6:44:47,  1.78it/s] 10%|▉         | 4712/48008 [40:45<6:35:32,  1.82it/s] 10%|▉         | 4713/48008 [40:46<6:27:09,  1.86it/s] 10%|▉         | 4714/48008 [40:46<6:20:32,  1.90it/s] 10%|▉         | 4715/48008 [40:47<6:16:00,  1.92it/s] 10%|▉         | 4716/48008 [40:47<6:11:18,  1.94it/s] 10%|▉         | 4717/48008 [40:48<6:04:04,  1.98it/s] 10%|▉         | 4718/48008 [40:48<6:04:27,  1.98it/s] 10%|▉         | 4719/48008 [40:49<8:46:18,  1.37it/s] 10%|▉         | 4720/48008 [40:50<7:38:45,  1.57it/s] 10%|▉         | 4721/48008 [40:50<7:04:13,  1.70it/s] 10%|▉         | 4722/48008 [40:51<6:41:18,  1.80it/s] 10%|▉         | 4723/48008 [40:51<6:25:05,  1.87it/s] 10%|▉         | 4724/48008 [40:52<6:54:39,  1.74it/s] 10%|▉         | 4725/48008 [40:52<6:34:43,  1.83it/s] 10%|▉         | 4726/48008 [40:53<6:19:58,  1.90it/s] 10%|▉         | 4727/48008 [40:54<6:52:11,  1.75it/s] 10%|▉         | 4728/48008 [40:54<6:18:18,  1.91it/s] 10%|▉         | 4729/48008 [40:55<6:19:02,  1.90it/s] 10%|▉         | 4730/48008 [40:55<6:09:01,  1.95it/s] 10%|▉         | 4731/48008 [40:56<6:08:04,  1.96it/s] 10%|▉         | 4732/48008 [40:56<6:07:07,  1.96it/s] 10%|▉         | 4733/48008 [40:57<6:43:27,  1.79it/s] 10%|▉         | 4734/48008 [40:57<6:35:56,  1.82it/s] 10%|▉         | 4735/48008 [40:58<6:07:01,  1.97it/s] 10%|▉         | 4736/48008 [40:58<6:45:38,  1.78it/s] 10%|▉         | 4737/48008 [40:59<6:28:12,  1.86it/s] 10%|▉         | 4738/48008 [40:59<6:22:31,  1.89it/s] 10%|▉         | 4739/48008 [41:00<6:12:52,  1.93it/s] 10%|▉         | 4740/48008 [41:00<6:05:56,  1.97it/s] 10%|▉         | 4741/48008 [41:01<5:59:39,  2.01it/s] 10%|▉         | 4742/48008 [41:01<5:55:34,  2.03it/s] 10%|▉         | 4743/48008 [41:02<6:03:10,  1.99it/s] 10%|▉         | 4744/48008 [41:02<5:56:56,  2.02it/s] 10%|▉         | 4745/48008 [41:03<5:54:31,  2.03it/s] 10%|▉         | 4746/48008 [41:03<5:52:23,  2.05it/s] 10%|▉         | 4747/48008 [41:04<5:55:27,  2.03it/s] 10%|▉         | 4748/48008 [41:04<5:52:13,  2.05it/s] 10%|▉         | 4749/48008 [41:05<5:55:08,  2.03it/s] 10%|▉         | 4750/48008 [41:05<6:01:17,  2.00it/s]                                                      {'loss': 4.3618, 'grad_norm': 0.47917640209198, 'learning_rate': 0.0001802157973671055, 'epoch': 0.1} 10%|▉         | 4750/48008 [41:05<6:01:17,  2.00it/s]
 10%|▉         | 4751/48008 [41:06<6:09:08,  1.95it/s] 10%|▉         | 4752/48008 [41:06<6:06:31,  1.97it/s] 10%|▉         | 4753/48008 [41:07<6:05:32,  1.97it/s] 10%|▉         | 4754/48008 [41:07<6:03:59,  1.98it/s] 10%|▉         | 4755/48008 [41:08<6:04:18,  1.98it/s] 10%|▉         | 4756/48008 [41:08<6:04:14,  1.98it/s] 10%|▉         | 4757/48008 [41:09<6:10:54,  1.94it/s] 10%|▉         | 4758/48008 [41:09<6:12:58,  1.93it/s] 10%|▉         | 4759/48008 [41:10<6:05:16,  1.97it/s] 10%|▉         | 4760/48008 [41:10<6:00:03,  2.00it/s] 10%|▉         | 4761/48008 [41:11<5:54:58,  2.03it/s] 10%|▉         | 4762/48008 [41:11<5:37:03,  2.14it/s] 10%|▉         | 4763/48008 [41:12<5:39:38,  2.12it/s] 10%|▉         | 4764/48008 [41:12<5:47:05,  2.08it/s] 10%|▉         | 4765/48008 [41:13<5:46:35,  2.08it/s] 10%|▉         | 4766/48008 [41:13<5:33:05,  2.16it/s] 10%|▉         | 4767/48008 [41:14<5:36:57,  2.14it/s] 10%|▉         | 4768/48008 [41:14<5:25:30,  2.21it/s] 10%|▉         | 4769/48008 [41:15<5:40:07,  2.12it/s] 10%|▉         | 4770/48008 [41:15<5:42:54,  2.10it/s] 10%|▉         | 4771/48008 [41:16<5:52:59,  2.04it/s] 10%|▉         | 4772/48008 [41:16<5:51:02,  2.05it/s] 10%|▉         | 4773/48008 [41:16<5:49:53,  2.06it/s] 10%|▉         | 4774/48008 [41:17<5:56:33,  2.02it/s] 10%|▉         | 4775/48008 [41:17<5:54:34,  2.03it/s] 10%|▉         | 4776/48008 [41:18<5:51:30,  2.05it/s] 10%|▉         | 4777/48008 [41:18<5:50:22,  2.06it/s] 10%|▉         | 4778/48008 [41:19<5:50:24,  2.06it/s] 10%|▉         | 4779/48008 [41:19<5:48:23,  2.07it/s] 10%|▉         | 4780/48008 [41:20<5:48:26,  2.07it/s] 10%|▉         | 4781/48008 [41:20<5:26:35,  2.21it/s] 10%|▉         | 4782/48008 [41:21<5:32:11,  2.17it/s] 10%|▉         | 4783/48008 [41:21<5:36:16,  2.14it/s] 10%|▉         | 4784/48008 [41:22<5:43:32,  2.10it/s] 10%|▉         | 4785/48008 [41:22<5:43:39,  2.10it/s] 10%|▉         | 4786/48008 [41:23<5:58:04,  2.01it/s] 10%|▉         | 4787/48008 [41:23<5:40:00,  2.12it/s] 10%|▉         | 4788/48008 [41:24<5:43:12,  2.10it/s] 10%|▉         | 4789/48008 [41:24<5:44:04,  2.09it/s] 10%|▉         | 4790/48008 [41:25<5:45:35,  2.08it/s] 10%|▉         | 4791/48008 [41:25<5:46:15,  2.08it/s] 10%|▉         | 4792/48008 [41:26<5:32:39,  2.17it/s] 10%|▉         | 4793/48008 [41:26<5:22:38,  2.23it/s] 10%|▉         | 4794/48008 [41:26<5:34:56,  2.15it/s] 10%|▉         | 4795/48008 [41:27<6:20:45,  1.89it/s] 10%|▉         | 4796/48008 [41:28<7:36:48,  1.58it/s] 10%|▉         | 4797/48008 [41:29<7:12:48,  1.66it/s] 10%|▉         | 4798/48008 [41:29<6:52:15,  1.75it/s] 10%|▉         | 4799/48008 [41:30<6:31:40,  1.84it/s] 10%|▉         | 4800/48008 [41:30<6:23:25,  1.88it/s]                                                      {'loss': 4.3298, 'grad_norm': 0.5370852947235107, 'learning_rate': 0.0001800074987502083, 'epoch': 0.1}
 10%|▉         | 4800/48008 [41:30<6:23:25,  1.88it/s] 10%|█         | 4801/48008 [41:30<5:59:17,  2.00it/s] 10%|█         | 4802/48008 [41:31<6:04:28,  1.98it/s] 10%|█         | 4803/48008 [41:31<6:11:35,  1.94it/s] 10%|█         | 4804/48008 [41:32<5:50:48,  2.05it/s] 10%|█         | 4805/48008 [41:32<5:53:39,  2.04it/s] 10%|█         | 4806/48008 [41:33<6:04:17,  1.98it/s] 10%|█         | 4807/48008 [41:33<5:59:12,  2.00it/s] 10%|█         | 4808/48008 [41:34<5:59:10,  2.00it/s] 10%|█         | 4809/48008 [41:34<6:01:22,  1.99it/s] 10%|█         | 4810/48008 [41:35<5:43:03,  2.10it/s] 10%|█         | 4811/48008 [41:35<5:49:51,  2.06it/s] 10%|█         | 4812/48008 [41:36<5:48:02,  2.07it/s] 10%|█         | 4813/48008 [41:36<5:46:54,  2.08it/s] 10%|█         | 4814/48008 [41:37<5:51:01,  2.05it/s] 10%|█         | 4815/48008 [41:37<5:49:33,  2.06it/s] 10%|█         | 4816/48008 [41:38<5:48:29,  2.07it/s] 10%|█         | 4817/48008 [41:38<5:47:45,  2.07it/s] 10%|█         | 4818/48008 [41:39<5:32:51,  2.16it/s] 10%|█         | 4819/48008 [41:39<5:22:15,  2.23it/s] 10%|█         | 4820/48008 [41:40<5:34:02,  2.15it/s] 10%|█         | 4821/48008 [41:40<5:37:43,  2.13it/s] 10%|█         | 4822/48008 [41:41<5:45:44,  2.08it/s] 10%|█         | 4823/48008 [41:41<5:45:45,  2.08it/s] 10%|█         | 4824/48008 [41:42<5:51:25,  2.05it/s] 10%|█         | 4825/48008 [41:42<5:49:31,  2.06it/s] 10%|█         | 4826/48008 [41:43<5:48:37,  2.06it/s] 10%|█         | 4827/48008 [41:43<5:56:19,  2.02it/s] 10%|█         | 4828/48008 [41:44<5:53:40,  2.03it/s] 10%|█         | 4829/48008 [41:44<5:36:44,  2.14it/s] 10%|█         | 4830/48008 [41:44<5:43:53,  2.09it/s] 10%|█         | 4831/48008 [41:45<5:49:46,  2.06it/s] 10%|█         | 4832/48008 [41:45<5:52:39,  2.04it/s] 10%|█         | 4833/48008 [41:46<5:59:01,  2.00it/s] 10%|█         | 4834/48008 [41:46<5:40:52,  2.11it/s] 10%|█         | 4835/48008 [41:47<5:41:57,  2.10it/s] 10%|█         | 4836/48008 [41:47<5:49:02,  2.06it/s] 10%|█         | 4837/48008 [41:48<5:48:23,  2.07it/s] 10%|█         | 4838/48008 [41:48<5:56:14,  2.02it/s] 10%|█         | 4839/48008 [41:49<5:39:00,  2.12it/s] 10%|█         | 4840/48008 [41:49<5:27:03,  2.20it/s] 10%|█         | 4841/48008 [41:50<6:57:14,  1.72it/s] 10%|█         | 4842/48008 [41:51<6:36:32,  1.81it/s] 10%|█         | 4843/48008 [41:51<6:21:31,  1.89it/s] 10%|█         | 4844/48008 [41:52<6:10:53,  1.94it/s] 10%|█         | 4845/48008 [41:52<6:03:27,  1.98it/s] 10%|█         | 4846/48008 [41:52<5:58:12,  2.01it/s] 10%|█         | 4847/48008 [41:53<5:58:36,  2.01it/s] 10%|█         | 4848/48008 [41:53<5:59:29,  2.00it/s] 10%|█         | 4849/48008 [41:54<6:05:22,  1.97it/s] 10%|█         | 4850/48008 [41:55<6:00:22,  2.00it/s]                                                      {'loss': 4.3043, 'grad_norm': 0.5214113593101501, 'learning_rate': 0.00017979920013331112, 'epoch': 0.1} 10%|█         | 4850/48008 [41:55<6:00:22,  2.00it/s]
 10%|█         | 4851/48008 [41:55<5:43:12,  2.10it/s] 10%|█         | 4852/48008 [41:56<7:10:07,  1.67it/s] 10%|█         | 4853/48008 [41:56<6:50:07,  1.75it/s] 10%|█         | 4854/48008 [41:57<6:30:08,  1.84it/s] 10%|█         | 4855/48008 [41:57<6:21:40,  1.88it/s] 10%|█         | 4856/48008 [41:58<6:22:48,  1.88it/s] 10%|█         | 4857/48008 [41:58<6:17:04,  1.91it/s] 10%|█         | 4858/48008 [41:59<6:07:58,  1.95it/s] 10%|█         | 4859/48008 [41:59<6:00:58,  1.99it/s] 10%|█         | 4860/48008 [42:00<5:56:29,  2.02it/s] 10%|█         | 4861/48008 [42:00<6:02:03,  1.99it/s] 10%|█         | 4862/48008 [42:01<6:05:55,  1.97it/s] 10%|█         | 4863/48008 [42:01<5:59:40,  2.00it/s] 10%|█         | 4864/48008 [42:02<5:56:08,  2.02it/s] 10%|█         | 4865/48008 [42:02<5:57:00,  2.01it/s] 10%|█         | 4866/48008 [42:03<7:19:42,  1.64it/s] 10%|█         | 4867/48008 [42:04<6:56:12,  1.73it/s] 10%|█         | 4868/48008 [42:04<6:20:05,  1.89it/s] 10%|█         | 4869/48008 [42:05<6:08:38,  1.95it/s] 10%|█         | 4870/48008 [42:05<6:01:28,  1.99it/s] 10%|█         | 4871/48008 [42:06<7:22:10,  1.63it/s] 10%|█         | 4872/48008 [42:06<6:52:17,  1.74it/s] 10%|█         | 4873/48008 [42:07<6:32:18,  1.83it/s] 10%|█         | 4874/48008 [42:07<6:04:17,  1.97it/s] 10%|█         | 4875/48008 [42:08<5:44:04,  2.09it/s] 10%|█         | 4876/48008 [42:08<5:29:24,  2.18it/s] 10%|█         | 4877/48008 [42:09<5:33:04,  2.16it/s] 10%|█         | 4878/48008 [42:09<5:37:43,  2.13it/s] 10%|█         | 4879/48008 [42:10<6:20:57,  1.89it/s] 10%|█         | 4880/48008 [42:10<6:10:55,  1.94it/s] 10%|█         | 4881/48008 [42:11<6:10:38,  1.94it/s] 10%|█         | 4882/48008 [42:11<6:05:01,  1.97it/s] 10%|█         | 4883/48008 [42:12<5:45:16,  2.08it/s] 10%|█         | 4884/48008 [42:12<5:52:02,  2.04it/s] 10%|█         | 4885/48008 [42:13<5:50:34,  2.05it/s] 10%|█         | 4886/48008 [42:13<5:48:03,  2.06it/s] 10%|█         | 4887/48008 [42:14<5:52:08,  2.04it/s] 10%|█         | 4888/48008 [42:14<5:49:52,  2.05it/s] 10%|█         | 4889/48008 [42:15<5:48:05,  2.06it/s] 10%|█         | 4890/48008 [42:15<5:46:54,  2.07it/s] 10%|█         | 4891/48008 [42:16<5:51:32,  2.04it/s] 10%|█         | 4892/48008 [42:17<8:37:05,  1.39it/s] 10%|█         | 4893/48008 [42:17<7:45:31,  1.54it/s] 10%|█         | 4894/48008 [42:18<7:17:24,  1.64it/s] 10%|█         | 4895/48008 [42:18<6:50:20,  1.75it/s] 10%|█         | 4896/48008 [42:19<6:30:50,  1.84it/s] 10%|█         | 4897/48008 [42:19<6:17:22,  1.90it/s] 10%|█         | 4898/48008 [42:20<6:07:52,  1.95it/s] 10%|█         | 4899/48008 [42:20<6:01:41,  1.99it/s] 10%|█         | 4900/48008 [42:21<6:10:02,  1.94it/s]                                                      {'loss': 4.3487, 'grad_norm': 0.6109423041343689, 'learning_rate': 0.00017959090151641394, 'epoch': 0.1} 10%|█         | 4900/48008 [42:21<6:10:02,  1.94it/s]
 10%|█         | 4901/48008 [42:21<6:02:54,  1.98it/s] 10%|█         | 4902/48008 [42:22<6:02:47,  1.98it/s] 10%|█         | 4903/48008 [42:22<6:01:43,  1.99it/s] 10%|█         | 4904/48008 [42:23<6:02:20,  1.98it/s] 10%|█         | 4905/48008 [42:23<5:56:53,  2.01it/s] 10%|█         | 4906/48008 [42:24<5:38:42,  2.12it/s] 10%|█         | 4907/48008 [42:24<5:40:09,  2.11it/s] 10%|█         | 4908/48008 [42:25<5:26:43,  2.20it/s] 10%|█         | 4909/48008 [42:25<5:17:26,  2.26it/s] 10%|█         | 4910/48008 [42:26<6:06:39,  1.96it/s] 10%|█         | 4911/48008 [42:26<6:08:54,  1.95it/s] 10%|█         | 4912/48008 [42:27<8:49:02,  1.36it/s] 10%|█         | 4913/48008 [42:28<7:59:37,  1.50it/s] 10%|█         | 4914/48008 [42:28<7:22:59,  1.62it/s] 10%|█         | 4915/48008 [42:29<6:59:56,  1.71it/s] 10%|█         | 4916/48008 [42:29<6:23:09,  1.87it/s] 10%|█         | 4917/48008 [42:30<6:11:37,  1.93it/s] 10%|█         | 4918/48008 [42:30<6:04:25,  1.97it/s] 10%|█         | 4919/48008 [42:31<5:59:07,  2.00it/s] 10%|█         | 4920/48008 [42:31<5:59:46,  2.00it/s] 10%|█         | 4921/48008 [42:32<6:00:07,  1.99it/s] 10%|█         | 4922/48008 [42:32<6:03:59,  1.97it/s] 10%|█         | 4923/48008 [42:33<6:03:01,  1.98it/s] 10%|█         | 4924/48008 [42:33<5:57:30,  2.01it/s] 10%|█         | 4925/48008 [42:34<5:39:42,  2.11it/s] 10%|█         | 4926/48008 [42:34<5:27:19,  2.19it/s] 10%|█         | 4927/48008 [42:35<5:38:00,  2.12it/s] 10%|█         | 4928/48008 [42:35<5:44:07,  2.09it/s] 10%|█         | 4929/48008 [42:36<5:52:27,  2.04it/s] 10%|█         | 4930/48008 [42:36<6:03:36,  1.97it/s] 10%|█         | 4931/48008 [42:37<6:02:20,  1.98it/s] 10%|█         | 4932/48008 [42:37<6:00:53,  1.99it/s] 10%|█         | 4933/48008 [42:38<6:04:27,  1.97it/s] 10%|█         | 4934/48008 [42:38<5:59:08,  2.00it/s] 10%|█         | 4935/48008 [42:39<6:02:23,  1.98it/s] 10%|█         | 4936/48008 [42:39<6:39:14,  1.80it/s] 10%|█         | 4937/48008 [42:40<6:28:34,  1.85it/s] 10%|█         | 4938/48008 [42:40<6:20:16,  1.89it/s] 10%|█         | 4939/48008 [42:41<6:18:51,  1.89it/s] 10%|█         | 4940/48008 [42:41<6:08:01,  1.95it/s] 10%|█         | 4941/48008 [42:42<6:01:06,  1.99it/s] 10%|█         | 4942/48008 [42:42<5:55:41,  2.02it/s] 10%|█         | 4943/48008 [42:43<5:51:46,  2.04it/s] 10%|█         | 4944/48008 [42:43<5:55:07,  2.02it/s] 10%|█         | 4945/48008 [42:44<5:56:56,  2.01it/s] 10%|█         | 4946/48008 [42:44<5:38:57,  2.12it/s] 10%|█         | 4947/48008 [42:45<5:45:28,  2.08it/s] 10%|█         | 4948/48008 [42:45<5:44:33,  2.08it/s] 10%|█         | 4949/48008 [42:46<5:44:55,  2.08it/s] 10%|█         | 4950/48008 [42:47<7:10:23,  1.67it/s]                                                      {'loss': 4.3544, 'grad_norm': 0.4945586025714874, 'learning_rate': 0.00017938260289951675, 'epoch': 0.1}
 10%|█         | 4950/48008 [42:47<7:10:23,  1.67it/s] 10%|█         | 4951/48008 [42:47<6:53:57,  1.73it/s] 10%|█         | 4952/48008 [42:48<7:14:03,  1.65it/s] 10%|█         | 4953/48008 [42:48<6:56:06,  1.72it/s] 10%|█         | 4954/48008 [42:49<6:43:37,  1.78it/s] 10%|█         | 4955/48008 [42:49<6:10:49,  1.93it/s] 10%|█         | 4956/48008 [42:50<5:47:49,  2.06it/s] 10%|█         | 4957/48008 [42:50<6:29:29,  1.84it/s] 10%|█         | 4958/48008 [42:51<6:56:54,  1.72it/s] 10%|█         | 4959/48008 [42:51<6:40:16,  1.79it/s] 10%|█         | 4960/48008 [42:52<6:27:34,  1.85it/s] 10%|█         | 4961/48008 [42:52<6:00:32,  1.99it/s] 10%|█         | 4962/48008 [42:53<5:54:59,  2.02it/s] 10%|█         | 4963/48008 [42:53<5:51:31,  2.04it/s] 10%|█         | 4964/48008 [42:54<6:01:04,  1.99it/s] 10%|█         | 4965/48008 [42:54<5:56:07,  2.01it/s] 10%|█         | 4966/48008 [42:55<6:00:32,  1.99it/s] 10%|█         | 4967/48008 [42:55<5:55:41,  2.02it/s] 10%|█         | 4968/48008 [42:56<5:52:24,  2.04it/s] 10%|█         | 4969/48008 [42:56<5:49:42,  2.05it/s] 10%|█         | 4970/48008 [42:57<5:47:20,  2.07it/s] 10%|█         | 4971/48008 [42:57<5:46:01,  2.07it/s] 10%|█         | 4972/48008 [42:58<5:57:10,  2.01it/s] 10%|█         | 4973/48008 [42:58<6:03:37,  1.97it/s] 10%|█         | 4974/48008 [42:59<6:09:44,  1.94it/s] 10%|█         | 4975/48008 [43:00<8:46:51,  1.36it/s] 10%|█         | 4976/48008 [43:01<8:33:12,  1.40it/s] 10%|█         | 4977/48008 [43:01<7:42:21,  1.55it/s] 10%|█         | 4978/48008 [43:02<7:08:56,  1.67it/s] 10%|█         | 4979/48008 [43:02<6:30:35,  1.84it/s] 10%|█         | 4980/48008 [43:03<6:16:32,  1.90it/s] 10%|█         | 4981/48008 [43:03<6:14:27,  1.92it/s] 10%|█         | 4982/48008 [43:04<6:13:00,  1.92it/s] 10%|█         | 4983/48008 [43:04<6:08:58,  1.94it/s] 10%|█         | 4984/48008 [43:05<5:46:48,  2.07it/s] 10%|█         | 4985/48008 [43:05<5:50:03,  2.05it/s] 10%|█         | 4986/48008 [43:06<6:00:04,  1.99it/s] 10%|█         | 4987/48008 [43:06<5:55:39,  2.02it/s] 10%|█         | 4988/48008 [43:07<6:04:09,  1.97it/s] 10%|█         | 4989/48008 [43:07<6:06:41,  1.96it/s] 10%|█         | 4990/48008 [43:08<6:00:16,  1.99it/s] 10%|█         | 4991/48008 [43:08<6:36:10,  1.81it/s] 10%|█         | 4992/48008 [43:09<6:24:42,  1.86it/s] 10%|█         | 4993/48008 [43:09<6:20:15,  1.89it/s] 10%|█         | 4994/48008 [43:10<6:51:40,  1.74it/s] 10%|█         | 4995/48008 [43:11<6:36:19,  1.81it/s] 10%|█         | 4996/48008 [43:11<6:25:24,  1.86it/s] 10%|█         | 4997/48008 [43:12<6:17:10,  1.90it/s] 10%|█         | 4998/48008 [43:12<6:47:57,  1.76it/s] 10%|█         | 4999/48008 [43:13<6:28:53,  1.84it/s] 10%|█         | 5000/48008 [43:13<6:20:05,  1.89it/s]                                                       10%|█         | 5000/48008 [43:13<6:20:05,  1.89it/s]{'loss': 4.3501, 'grad_norm': 0.8192639350891113, 'learning_rate': 0.00017917430428261957, 'epoch': 0.1}
 10%|█         | 5001/48008 [43:14<6:14:20,  1.91it/s] 10%|█         | 5002/48008 [43:14<5:50:15,  2.05it/s] 10%|█         | 5003/48008 [43:15<6:01:33,  1.98it/s] 10%|█         | 5004/48008 [43:15<6:01:04,  1.98it/s] 10%|█         | 5005/48008 [43:16<5:54:47,  2.02it/s] 10%|█         | 5006/48008 [43:16<5:57:07,  2.01it/s] 10%|█         | 5007/48008 [43:17<5:53:27,  2.03it/s] 10%|█         | 5008/48008 [43:17<5:35:44,  2.13it/s] 10%|█         | 5009/48008 [43:18<5:43:35,  2.09it/s] 10%|█         | 5010/48008 [43:18<5:28:16,  2.18it/s] 10%|█         | 5011/48008 [43:18<5:17:41,  2.26it/s] 10%|█         | 5012/48008 [43:19<5:26:36,  2.19it/s] 10%|█         | 5013/48008 [43:19<5:36:44,  2.13it/s] 10%|█         | 5014/48008 [43:20<5:37:58,  2.12it/s] 10%|█         | 5015/48008 [43:20<5:26:06,  2.20it/s] 10%|█         | 5016/48008 [43:21<5:31:36,  2.16it/s] 10%|█         | 5017/48008 [43:21<5:34:51,  2.14it/s] 10%|█         | 5018/48008 [43:22<5:46:35,  2.07it/s] 10%|█         | 5019/48008 [43:22<5:45:49,  2.07it/s] 10%|█         | 5020/48008 [43:23<5:30:58,  2.16it/s] 10%|█         | 5021/48008 [43:23<5:34:07,  2.14it/s] 10%|█         | 5022/48008 [43:24<5:36:04,  2.13it/s] 10%|█         | 5023/48008 [43:24<5:38:37,  2.12it/s] 10%|█         | 5024/48008 [43:25<6:21:02,  1.88it/s] 10%|█         | 5025/48008 [43:25<6:14:43,  1.91it/s] 10%|█         | 5026/48008 [43:26<6:05:39,  1.96it/s] 10%|█         | 5027/48008 [43:26<5:59:24,  1.99it/s] 10%|█         | 5028/48008 [43:27<5:54:34,  2.02it/s] 10%|█         | 5029/48008 [43:27<5:51:22,  2.04it/s] 10%|█         | 5030/48008 [43:28<6:30:40,  1.83it/s] 10%|█         | 5031/48008 [43:28<6:02:46,  1.97it/s] 10%|█         | 5032/48008 [43:29<6:05:58,  1.96it/s] 10%|█         | 5033/48008 [43:29<5:59:26,  1.99it/s] 10%|█         | 5034/48008 [43:30<5:54:56,  2.02it/s] 10%|█         | 5035/48008 [43:30<5:51:51,  2.04it/s] 10%|█         | 5036/48008 [43:31<5:35:20,  2.14it/s] 10%|█         | 5037/48008 [43:31<5:37:07,  2.12it/s] 10%|█         | 5038/48008 [43:32<5:43:54,  2.08it/s] 10%|█         | 5039/48008 [43:32<5:43:39,  2.08it/s] 10%|█         | 5040/48008 [43:32<5:29:12,  2.18it/s] 11%|█         | 5041/48008 [43:33<5:33:46,  2.15it/s] 11%|█         | 5042/48008 [43:33<5:37:28,  2.12it/s] 11%|█         | 5043/48008 [43:34<5:26:06,  2.20it/s] 11%|█         | 5044/48008 [43:34<5:32:53,  2.15it/s] 11%|█         | 5045/48008 [43:35<5:38:23,  2.12it/s] 11%|█         | 5046/48008 [43:35<5:44:55,  2.08it/s] 11%|█         | 5047/48008 [43:36<5:44:55,  2.08it/s] 11%|█         | 5048/48008 [43:36<5:53:12,  2.03it/s] 11%|█         | 5049/48008 [43:37<5:50:02,  2.05it/s] 11%|█         | 5050/48008 [43:37<5:47:51,  2.06it/s]                                                      {'loss': 4.2849, 'grad_norm': 0.7377104163169861, 'learning_rate': 0.0001789660056657224, 'epoch': 0.11} 11%|█         | 5050/48008 [43:37<5:47:51,  2.06it/s]
 11%|█         | 5051/48008 [43:38<5:46:52,  2.06it/s] 11%|█         | 5052/48008 [43:38<5:46:53,  2.06it/s] 11%|█         | 5053/48008 [43:39<5:46:44,  2.06it/s] 11%|█         | 5054/48008 [43:39<5:52:47,  2.03it/s] 11%|█         | 5055/48008 [43:40<5:35:53,  2.13it/s] 11%|█         | 5056/48008 [43:40<5:36:58,  2.12it/s] 11%|█         | 5057/48008 [43:41<5:42:44,  2.09it/s] 11%|█         | 5058/48008 [43:41<5:47:43,  2.06it/s] 11%|█         | 5059/48008 [43:42<5:55:10,  2.02it/s] 11%|█         | 5060/48008 [43:42<5:56:24,  2.01it/s] 11%|█         | 5061/48008 [43:43<5:51:38,  2.04it/s] 11%|█         | 5062/48008 [43:43<5:51:00,  2.04it/s] 11%|█         | 5063/48008 [43:44<5:34:37,  2.14it/s] 11%|█         | 5064/48008 [43:44<5:23:21,  2.21it/s] 11%|█         | 5065/48008 [43:44<5:29:58,  2.17it/s] 11%|█         | 5066/48008 [43:45<5:34:00,  2.14it/s] 11%|█         | 5067/48008 [43:45<5:42:49,  2.09it/s] 11%|█         | 5068/48008 [43:46<5:42:01,  2.09it/s] 11%|█         | 5069/48008 [43:46<5:42:46,  2.09it/s] 11%|█         | 5070/48008 [43:47<5:46:59,  2.06it/s] 11%|█         | 5071/48008 [43:47<5:47:06,  2.06it/s] 11%|█         | 5072/48008 [43:48<5:50:16,  2.04it/s] 11%|█         | 5073/48008 [43:48<5:52:22,  2.03it/s] 11%|█         | 5074/48008 [43:49<5:57:56,  2.00it/s] 11%|█         | 5075/48008 [43:50<6:35:12,  1.81it/s] 11%|█         | 5076/48008 [43:50<6:19:31,  1.89it/s] 11%|█         | 5077/48008 [43:50<5:55:16,  2.01it/s] 11%|█         | 5078/48008 [43:51<5:37:44,  2.12it/s] 11%|█         | 5079/48008 [43:51<5:39:08,  2.11it/s] 11%|█         | 5080/48008 [43:52<7:05:34,  1.68it/s] 11%|█         | 5081/48008 [43:53<6:53:43,  1.73it/s] 11%|█         | 5082/48008 [43:53<6:32:24,  1.82it/s] 11%|█         | 5083/48008 [43:54<6:23:19,  1.87it/s] 11%|█         | 5084/48008 [43:54<6:11:43,  1.92it/s] 11%|█         | 5085/48008 [43:55<6:07:02,  1.95it/s] 11%|█         | 5086/48008 [43:55<5:45:45,  2.07it/s] 11%|█         | 5087/48008 [43:56<5:44:51,  2.07it/s] 11%|█         | 5088/48008 [43:56<5:44:09,  2.08it/s] 11%|█         | 5089/48008 [43:57<7:09:42,  1.66it/s] 11%|█         | 5090/48008 [43:57<6:48:33,  1.75it/s] 11%|█         | 5091/48008 [43:58<6:43:35,  1.77it/s] 11%|█         | 5092/48008 [43:59<7:07:42,  1.67it/s] 11%|█         | 5093/48008 [43:59<6:43:32,  1.77it/s] 11%|█         | 5094/48008 [44:00<6:26:11,  1.85it/s] 11%|█         | 5095/48008 [44:00<6:22:26,  1.87it/s] 11%|█         | 5096/48008 [44:01<6:10:29,  1.93it/s] 11%|█         | 5097/48008 [44:01<6:14:15,  1.91it/s] 11%|█         | 5098/48008 [44:02<5:51:22,  2.04it/s] 11%|█         | 5099/48008 [44:02<6:31:56,  1.82it/s] 11%|█         | 5100/48008 [44:03<6:24:57,  1.86it/s]                                                      {'loss': 4.2959, 'grad_norm': 0.7897375226020813, 'learning_rate': 0.0001787577070488252, 'epoch': 0.11}
 11%|█         | 5100/48008 [44:03<6:24:57,  1.86it/s] 11%|█         | 5101/48008 [44:03<6:12:48,  1.92it/s] 11%|█         | 5102/48008 [44:04<6:07:57,  1.94it/s] 11%|█         | 5103/48008 [44:04<6:08:11,  1.94it/s] 11%|█         | 5104/48008 [44:05<6:44:00,  1.77it/s] 11%|█         | 5105/48008 [44:05<6:25:54,  1.85it/s] 11%|█         | 5106/48008 [44:06<6:13:07,  1.92it/s] 11%|█         | 5107/48008 [44:06<5:50:07,  2.04it/s] 11%|█         | 5108/48008 [44:07<5:53:32,  2.02it/s] 11%|█         | 5109/48008 [44:07<5:55:29,  2.01it/s] 11%|█         | 5110/48008 [44:08<6:00:47,  1.98it/s] 11%|█         | 5111/48008 [44:08<5:54:55,  2.01it/s] 11%|█         | 5112/48008 [44:09<5:51:18,  2.04it/s] 11%|█         | 5113/48008 [44:09<5:35:38,  2.13it/s] 11%|█         | 5114/48008 [44:10<5:37:38,  2.12it/s] 11%|█         | 5115/48008 [44:10<5:25:41,  2.19it/s] 11%|█         | 5116/48008 [44:11<8:15:31,  1.44it/s] 11%|█         | 5117/48008 [44:12<7:36:09,  1.57it/s] 11%|█         | 5118/48008 [44:12<7:02:28,  1.69it/s] 11%|█         | 5119/48008 [44:13<6:39:23,  1.79it/s] 11%|█         | 5120/48008 [44:13<6:22:36,  1.87it/s] 11%|█         | 5121/48008 [44:14<6:16:46,  1.90it/s] 11%|█         | 5122/48008 [44:14<6:11:22,  1.92it/s] 11%|█         | 5123/48008 [44:15<6:03:35,  1.97it/s] 11%|█         | 5124/48008 [44:15<5:57:22,  2.00it/s] 11%|█         | 5125/48008 [44:16<5:39:33,  2.10it/s] 11%|█         | 5126/48008 [44:16<5:26:47,  2.19it/s] 11%|█         | 5127/48008 [44:17<5:31:17,  2.16it/s] 11%|█         | 5128/48008 [44:17<5:34:48,  2.13it/s] 11%|█         | 5129/48008 [44:18<5:42:08,  2.09it/s] 11%|█         | 5130/48008 [44:18<5:28:45,  2.17it/s] 11%|█         | 5131/48008 [44:19<5:32:45,  2.15it/s] 11%|█         | 5132/48008 [44:19<5:35:05,  2.13it/s] 11%|█         | 5133/48008 [44:20<5:50:42,  2.04it/s] 11%|█         | 5134/48008 [44:20<5:47:43,  2.05it/s] 11%|█         | 5135/48008 [44:21<5:50:23,  2.04it/s] 11%|█         | 5136/48008 [44:21<5:47:15,  2.06it/s] 11%|█         | 5137/48008 [44:22<6:27:01,  1.85it/s] 11%|█         | 5138/48008 [44:22<6:13:10,  1.91it/s] 11%|█         | 5139/48008 [44:23<6:03:49,  1.96it/s] 11%|█         | 5140/48008 [44:23<5:58:23,  1.99it/s] 11%|█         | 5141/48008 [44:24<5:53:16,  2.02it/s] 11%|█         | 5142/48008 [44:24<5:36:05,  2.13it/s] 11%|█         | 5143/48008 [44:24<5:38:44,  2.11it/s] 11%|█         | 5144/48008 [44:25<5:44:25,  2.07it/s] 11%|█         | 5145/48008 [44:25<5:43:41,  2.08it/s] 11%|█         | 5146/48008 [44:27<8:27:51,  1.41it/s] 11%|█         | 5147/48008 [44:27<8:19:24,  1.43it/s] 11%|█         | 5148/48008 [44:28<7:31:24,  1.58it/s] 11%|█         | 5149/48008 [44:28<6:58:20,  1.71it/s] 11%|█         | 5150/48008 [44:29<6:40:53,  1.78it/s]                                                      {'loss': 4.2869, 'grad_norm': 0.7586131691932678, 'learning_rate': 0.00017854940843192802, 'epoch': 0.11}
 11%|█         | 5150/48008 [44:29<6:40:53,  1.78it/s] 11%|█         | 5151/48008 [44:29<6:23:59,  1.86it/s] 11%|█         | 5152/48008 [44:30<5:57:57,  2.00it/s] 11%|█         | 5153/48008 [44:30<5:57:26,  2.00it/s] 11%|█         | 5154/48008 [44:31<5:53:16,  2.02it/s] 11%|█         | 5155/48008 [44:31<6:00:31,  1.98it/s] 11%|█         | 5156/48008 [44:32<5:55:37,  2.01it/s] 11%|█         | 5157/48008 [44:32<5:53:39,  2.02it/s] 11%|█         | 5158/48008 [44:33<5:50:41,  2.04it/s] 11%|█         | 5159/48008 [44:33<5:53:27,  2.02it/s] 11%|█         | 5160/48008 [44:34<5:56:35,  2.00it/s] 11%|█         | 5161/48008 [44:34<5:57:59,  1.99it/s] 11%|█         | 5162/48008 [44:35<5:53:02,  2.02it/s] 11%|█         | 5163/48008 [44:35<5:56:45,  2.00it/s] 11%|█         | 5164/48008 [44:36<5:56:42,  2.00it/s] 11%|█         | 5165/48008 [44:36<6:00:06,  1.98it/s] 11%|█         | 5166/48008 [44:37<6:35:31,  1.81it/s] 11%|█         | 5167/48008 [44:37<6:05:29,  1.95it/s] 11%|█         | 5168/48008 [44:38<5:58:24,  1.99it/s] 11%|█         | 5169/48008 [44:38<5:54:00,  2.02it/s] 11%|█         | 5170/48008 [44:39<5:50:32,  2.04it/s] 11%|█         | 5171/48008 [44:39<5:49:08,  2.04it/s] 11%|█         | 5172/48008 [44:40<5:56:10,  2.00it/s] 11%|█         | 5173/48008 [44:40<6:33:16,  1.82it/s] 11%|█         | 5174/48008 [44:41<6:26:16,  1.85it/s] 11%|█         | 5175/48008 [44:41<6:21:42,  1.87it/s] 11%|█         | 5176/48008 [44:42<6:18:27,  1.89it/s] 11%|█         | 5177/48008 [44:42<6:12:32,  1.92it/s] 11%|█         | 5178/48008 [44:43<6:03:12,  1.97it/s] 11%|█         | 5179/48008 [44:43<6:01:52,  1.97it/s] 11%|█         | 5180/48008 [44:44<6:07:56,  1.94it/s] 11%|█         | 5181/48008 [44:44<6:00:25,  1.98it/s] 11%|█         | 5182/48008 [44:45<6:02:42,  1.97it/s] 11%|█         | 5183/48008 [44:46<6:05:12,  1.95it/s] 11%|█         | 5184/48008 [44:46<6:11:19,  1.92it/s] 11%|█         | 5185/48008 [44:47<6:10:58,  1.92it/s] 11%|█         | 5186/48008 [44:47<6:07:12,  1.94it/s] 11%|█         | 5187/48008 [44:48<6:41:20,  1.78it/s] 11%|█         | 5188/48008 [44:48<6:24:20,  1.86it/s] 11%|█         | 5189/48008 [44:49<5:58:14,  1.99it/s] 11%|█         | 5190/48008 [44:49<6:05:18,  1.95it/s] 11%|█         | 5191/48008 [44:50<5:58:35,  1.99it/s] 11%|█         | 5192/48008 [44:50<5:57:48,  1.99it/s] 11%|█         | 5193/48008 [44:51<5:57:39,  2.00it/s] 11%|█         | 5194/48008 [44:51<5:52:29,  2.02it/s] 11%|█         | 5195/48008 [44:52<6:02:23,  1.97it/s] 11%|█         | 5196/48008 [44:52<5:55:30,  2.01it/s] 11%|█         | 5197/48008 [44:53<6:03:18,  1.96it/s] 11%|█         | 5198/48008 [44:53<5:57:08,  2.00it/s] 11%|█         | 5199/48008 [44:54<5:58:06,  1.99it/s] 11%|█         | 5200/48008 [44:54<5:58:08,  1.99it/s]                                                      {'loss': 4.306, 'grad_norm': 0.7424622774124146, 'learning_rate': 0.00017834110981503084, 'epoch': 0.11} 11%|█         | 5200/48008 [44:54<5:58:08,  1.99it/s]
 11%|█         | 5201/48008 [44:55<5:53:17,  2.02it/s] 11%|█         | 5202/48008 [44:55<5:49:27,  2.04it/s] 11%|█         | 5203/48008 [44:56<5:33:19,  2.14it/s] 11%|█         | 5204/48008 [44:56<5:47:38,  2.05it/s] 11%|█         | 5205/48008 [44:57<5:33:12,  2.14it/s] 11%|█         | 5206/48008 [44:57<5:41:56,  2.09it/s] 11%|█         | 5207/48008 [44:58<5:41:39,  2.09it/s] 11%|█         | 5208/48008 [44:58<6:22:44,  1.86it/s] 11%|█         | 5209/48008 [44:59<6:18:41,  1.88it/s] 11%|█         | 5210/48008 [44:59<6:11:58,  1.92it/s] 11%|█         | 5211/48008 [45:00<6:04:03,  1.96it/s] 11%|█         | 5212/48008 [45:00<5:56:47,  2.00it/s] 11%|█         | 5213/48008 [45:01<6:00:36,  1.98it/s] 11%|█         | 5214/48008 [45:01<6:03:38,  1.96it/s] 11%|█         | 5215/48008 [45:02<5:57:04,  2.00it/s] 11%|█         | 5216/48008 [45:02<5:57:31,  1.99it/s] 11%|█         | 5217/48008 [45:03<5:52:39,  2.02it/s] 11%|█         | 5218/48008 [45:03<5:58:08,  1.99it/s] 11%|█         | 5219/48008 [45:04<5:58:11,  1.99it/s] 11%|█         | 5220/48008 [45:04<5:58:22,  1.99it/s] 11%|█         | 5221/48008 [45:05<5:57:15,  2.00it/s] 11%|█         | 5222/48008 [45:05<5:52:42,  2.02it/s] 11%|█         | 5223/48008 [45:06<5:36:08,  2.12it/s] 11%|█         | 5224/48008 [45:06<5:50:25,  2.03it/s] 11%|█         | 5225/48008 [45:07<5:47:57,  2.05it/s] 11%|█         | 5226/48008 [45:07<5:46:47,  2.06it/s] 11%|█         | 5227/48008 [45:07<5:31:42,  2.15it/s] 11%|█         | 5228/48008 [45:08<5:34:48,  2.13it/s] 11%|█         | 5229/48008 [45:08<5:45:46,  2.06it/s] 11%|█         | 5230/48008 [45:09<5:44:41,  2.07it/s] 11%|█         | 5231/48008 [45:09<5:42:56,  2.08it/s] 11%|█         | 5232/48008 [45:10<5:43:08,  2.08it/s] 11%|█         | 5233/48008 [45:10<5:41:54,  2.09it/s] 11%|█         | 5234/48008 [45:11<5:46:58,  2.05it/s] 11%|█         | 5235/48008 [45:12<8:31:15,  1.39it/s] 11%|█         | 5236/48008 [45:13<7:40:05,  1.55it/s] 11%|█         | 5237/48008 [45:13<6:50:37,  1.74it/s] 11%|█         | 5238/48008 [45:14<6:29:48,  1.83it/s] 11%|█         | 5239/48008 [45:14<6:28:10,  1.84it/s] 11%|█         | 5240/48008 [45:15<6:18:22,  1.88it/s] 11%|█         | 5241/48008 [45:15<6:07:16,  1.94it/s] 11%|█         | 5242/48008 [45:16<6:07:55,  1.94it/s] 11%|█         | 5243/48008 [45:16<5:59:53,  1.98it/s] 11%|█         | 5244/48008 [45:17<5:54:39,  2.01it/s] 11%|█         | 5245/48008 [45:17<5:50:40,  2.03it/s] 11%|█         | 5246/48008 [45:18<6:00:38,  1.98it/s] 11%|█         | 5247/48008 [45:18<5:55:00,  2.01it/s] 11%|█         | 5248/48008 [45:18<5:50:39,  2.03it/s] 11%|█         | 5249/48008 [45:19<5:52:21,  2.02it/s] 11%|█         | 5250/48008 [45:19<5:49:10,  2.04it/s]                                                      {'loss': 4.3469, 'grad_norm': 0.7266977429389954, 'learning_rate': 0.00017813281119813366, 'epoch': 0.11} 11%|█         | 5250/48008 [45:19<5:49:10,  2.04it/s]
 11%|█         | 5251/48008 [45:20<5:47:37,  2.05it/s] 11%|█         | 5252/48008 [45:20<5:50:49,  2.03it/s] 11%|█         | 5253/48008 [45:21<5:47:55,  2.05it/s] 11%|█         | 5254/48008 [45:21<5:46:04,  2.06it/s] 11%|█         | 5255/48008 [45:22<5:30:48,  2.15it/s] 11%|█         | 5256/48008 [45:22<5:41:21,  2.09it/s] 11%|█         | 5257/48008 [45:23<5:41:14,  2.09it/s] 11%|█         | 5258/48008 [45:23<5:27:05,  2.18it/s] 11%|█         | 5259/48008 [45:24<5:17:48,  2.24it/s] 11%|█         | 5260/48008 [45:24<5:24:44,  2.19it/s] 11%|█         | 5261/48008 [45:25<5:29:24,  2.16it/s] 11%|█         | 5262/48008 [45:25<5:37:09,  2.11it/s] 11%|█         | 5263/48008 [45:26<5:38:24,  2.11it/s] 11%|█         | 5264/48008 [45:26<5:44:08,  2.07it/s] 11%|█         | 5265/48008 [45:27<5:43:53,  2.07it/s] 11%|█         | 5266/48008 [45:27<5:47:37,  2.05it/s] 11%|█         | 5267/48008 [45:27<5:31:59,  2.15it/s] 11%|█         | 5268/48008 [45:28<5:40:51,  2.09it/s] 11%|█         | 5269/48008 [45:29<5:49:16,  2.04it/s] 11%|█         | 5270/48008 [45:29<5:47:08,  2.05it/s] 11%|█         | 5271/48008 [45:29<5:50:28,  2.03it/s] 11%|█         | 5272/48008 [45:30<5:47:24,  2.05it/s] 11%|█         | 5273/48008 [45:30<5:32:05,  2.14it/s] 11%|█         | 5274/48008 [45:31<5:36:10,  2.12it/s] 11%|█         | 5275/48008 [45:31<5:38:03,  2.11it/s] 11%|█         | 5276/48008 [45:32<5:39:34,  2.10it/s] 11%|█         | 5277/48008 [45:32<5:39:01,  2.10it/s] 11%|█         | 5278/48008 [45:33<5:40:15,  2.09it/s] 11%|█         | 5279/48008 [45:33<5:48:14,  2.04it/s] 11%|█         | 5280/48008 [45:34<5:51:28,  2.03it/s] 11%|█         | 5281/48008 [45:34<6:29:56,  1.83it/s] 11%|█         | 5282/48008 [45:35<6:20:11,  1.87it/s] 11%|█         | 5283/48008 [45:35<5:55:26,  2.00it/s] 11%|█         | 5284/48008 [45:36<6:03:47,  1.96it/s] 11%|█         | 5285/48008 [45:37<7:21:51,  1.61it/s] 11%|█         | 5286/48008 [45:37<7:04:34,  1.68it/s] 11%|█         | 5287/48008 [45:38<6:48:13,  1.74it/s] 11%|█         | 5288/48008 [45:38<6:14:14,  1.90it/s] 11%|█         | 5289/48008 [45:39<5:49:52,  2.03it/s] 11%|█         | 5290/48008 [45:39<5:47:13,  2.05it/s] 11%|█         | 5291/48008 [45:40<5:44:50,  2.06it/s] 11%|█         | 5292/48008 [45:41<7:32:58,  1.57it/s] 11%|█         | 5293/48008 [45:41<7:03:52,  1.68it/s] 11%|█         | 5294/48008 [45:42<6:51:14,  1.73it/s] 11%|█         | 5295/48008 [45:42<6:39:25,  1.78it/s] 11%|█         | 5296/48008 [45:43<6:27:26,  1.84it/s] 11%|█         | 5297/48008 [45:43<6:13:53,  1.90it/s] 11%|█         | 5298/48008 [45:44<6:04:04,  1.96it/s] 11%|█         | 5299/48008 [45:44<6:01:33,  1.97it/s] 11%|█         | 5300/48008 [45:45<6:04:25,  1.95it/s]                                                      {'loss': 4.3109, 'grad_norm': 0.6299994587898254, 'learning_rate': 0.00017792451258123647, 'epoch': 0.11} 11%|█         | 5300/48008 [45:45<6:04:25,  1.95it/s]
 11%|█         | 5301/48008 [45:45<5:57:31,  1.99it/s] 11%|█         | 5302/48008 [45:46<5:52:18,  2.02it/s] 11%|█         | 5303/48008 [45:46<5:35:18,  2.12it/s] 11%|█         | 5304/48008 [45:47<5:42:47,  2.08it/s] 11%|█         | 5305/48008 [45:47<5:28:11,  2.17it/s] 11%|█         | 5306/48008 [45:47<5:37:16,  2.11it/s] 11%|█         | 5307/48008 [45:48<5:46:20,  2.05it/s] 11%|█         | 5308/48008 [45:49<5:53:01,  2.02it/s] 11%|█         | 5309/48008 [45:49<5:49:31,  2.04it/s] 11%|█         | 5310/48008 [45:50<5:55:21,  2.00it/s] 11%|█         | 5311/48008 [45:50<5:50:41,  2.03it/s] 11%|█         | 5312/48008 [45:50<5:47:40,  2.05it/s] 11%|█         | 5313/48008 [45:51<5:53:47,  2.01it/s] 11%|█         | 5314/48008 [45:52<6:31:12,  1.82it/s] 11%|█         | 5315/48008 [45:52<6:15:56,  1.89it/s] 11%|█         | 5316/48008 [45:53<7:29:24,  1.58it/s] 11%|█         | 5317/48008 [45:54<7:08:41,  1.66it/s] 11%|█         | 5318/48008 [45:54<6:43:19,  1.76it/s] 11%|█         | 5319/48008 [45:55<6:37:18,  1.79it/s] 11%|█         | 5320/48008 [45:55<6:32:15,  1.81it/s] 11%|█         | 5321/48008 [45:56<6:22:12,  1.86it/s] 11%|█         | 5322/48008 [45:56<6:10:09,  1.92it/s] 11%|█         | 5323/48008 [45:57<6:01:14,  1.97it/s] 11%|█         | 5324/48008 [45:57<6:08:39,  1.93it/s] 11%|█         | 5325/48008 [45:58<6:08:15,  1.93it/s] 11%|█         | 5326/48008 [45:58<6:04:43,  1.95it/s] 11%|█         | 5327/48008 [45:59<5:58:14,  1.99it/s] 11%|█         | 5328/48008 [45:59<5:39:19,  2.10it/s] 11%|█         | 5329/48008 [46:00<5:39:39,  2.09it/s] 11%|█         | 5330/48008 [46:00<5:48:47,  2.04it/s] 11%|█         | 5331/48008 [46:01<5:46:27,  2.05it/s] 11%|█         | 5332/48008 [46:01<5:30:45,  2.15it/s] 11%|█         | 5333/48008 [46:01<5:41:27,  2.08it/s] 11%|█         | 5334/48008 [46:02<5:41:58,  2.08it/s] 11%|█         | 5335/48008 [46:02<5:47:35,  2.05it/s] 11%|█         | 5336/48008 [46:03<5:53:01,  2.01it/s] 11%|█         | 5337/48008 [46:03<5:57:31,  1.99it/s] 11%|█         | 5338/48008 [46:04<5:57:44,  1.99it/s] 11%|█         | 5339/48008 [46:04<6:01:42,  1.97it/s] 11%|█         | 5340/48008 [46:05<5:56:36,  1.99it/s] 11%|█         | 5341/48008 [46:05<5:53:13,  2.01it/s] 11%|█         | 5342/48008 [46:06<5:50:02,  2.03it/s] 11%|█         | 5343/48008 [46:06<5:48:28,  2.04it/s] 11%|█         | 5344/48008 [46:07<5:32:13,  2.14it/s] 11%|█         | 5345/48008 [46:07<5:20:39,  2.22it/s] 11%|█         | 5346/48008 [46:08<5:26:59,  2.17it/s] 11%|█         | 5347/48008 [46:08<5:17:23,  2.24it/s] 11%|█         | 5348/48008 [46:10<8:33:04,  1.39it/s] 11%|█         | 5349/48008 [46:10<7:26:58,  1.59it/s] 11%|█         | 5350/48008 [46:10<6:55:21,  1.71it/s]                                                      {'loss': 4.3342, 'grad_norm': 0.6095028519630432, 'learning_rate': 0.0001777162139643393, 'epoch': 0.11}
 11%|█         | 5350/48008 [46:10<6:55:21,  1.71it/s] 11%|█         | 5351/48008 [46:11<6:41:58,  1.77it/s] 11%|█         | 5352/48008 [46:11<6:28:44,  1.83it/s] 11%|█         | 5353/48008 [46:12<6:13:57,  1.90it/s] 11%|█         | 5354/48008 [46:13<9:17:43,  1.27it/s] 11%|█         | 5355/48008 [46:14<7:59:18,  1.48it/s] 11%|█         | 5356/48008 [46:15<8:43:44,  1.36it/s] 11%|█         | 5357/48008 [46:15<7:54:08,  1.50it/s] 11%|█         | 5358/48008 [46:16<7:00:43,  1.69it/s] 11%|█         | 5359/48008 [46:16<6:37:16,  1.79it/s] 11%|█         | 5360/48008 [46:16<6:19:17,  1.87it/s] 11%|█         | 5361/48008 [46:17<6:13:41,  1.90it/s] 11%|█         | 5362/48008 [46:17<6:08:30,  1.93it/s] 11%|█         | 5363/48008 [46:19<8:46:41,  1.35it/s] 11%|█         | 5364/48008 [46:19<7:59:38,  1.48it/s] 11%|█         | 5365/48008 [46:20<7:59:11,  1.48it/s] 11%|█         | 5366/48008 [46:20<7:16:30,  1.63it/s] 11%|█         | 5367/48008 [46:21<6:34:42,  1.80it/s] 11%|█         | 5368/48008 [46:21<6:19:07,  1.87it/s] 11%|█         | 5369/48008 [46:22<6:11:52,  1.91it/s] 11%|█         | 5370/48008 [46:22<6:07:30,  1.93it/s] 11%|█         | 5371/48008 [46:23<6:00:50,  1.97it/s] 11%|█         | 5372/48008 [46:23<5:54:34,  2.00it/s] 11%|█         | 5373/48008 [46:24<5:35:56,  2.12it/s] 11%|█         | 5374/48008 [46:24<5:24:05,  2.19it/s] 11%|█         | 5375/48008 [46:25<5:35:00,  2.12it/s] 11%|█         | 5376/48008 [46:25<5:37:11,  2.11it/s] 11%|█         | 5377/48008 [46:26<5:44:12,  2.06it/s] 11%|█         | 5378/48008 [46:26<5:43:32,  2.07it/s] 11%|█         | 5379/48008 [46:27<5:51:07,  2.02it/s] 11%|█         | 5380/48008 [46:27<5:57:17,  1.99it/s] 11%|█         | 5381/48008 [46:28<5:52:48,  2.01it/s] 11%|█         | 5382/48008 [46:28<5:53:20,  2.01it/s] 11%|█         | 5383/48008 [46:29<5:37:00,  2.11it/s] 11%|█         | 5384/48008 [46:29<5:23:55,  2.19it/s] 11%|█         | 5385/48008 [46:29<5:29:55,  2.15it/s] 11%|█         | 5386/48008 [46:30<5:43:19,  2.07it/s] 11%|█         | 5387/48008 [46:31<7:08:00,  1.66it/s] 11%|█         | 5388/48008 [46:31<6:43:17,  1.76it/s] 11%|█         | 5389/48008 [46:32<6:35:55,  1.79it/s] 11%|█         | 5390/48008 [46:32<6:24:15,  1.85it/s] 11%|█         | 5391/48008 [46:33<6:12:01,  1.91it/s] 11%|█         | 5392/48008 [46:33<6:07:46,  1.93it/s] 11%|█         | 5393/48008 [46:34<7:25:26,  1.59it/s] 11%|█         | 5394/48008 [46:35<7:01:52,  1.68it/s] 11%|█         | 5395/48008 [46:35<6:37:40,  1.79it/s] 11%|█         | 5396/48008 [46:36<6:20:51,  1.86it/s] 11%|█         | 5397/48008 [46:36<5:55:09,  2.00it/s] 11%|█         | 5398/48008 [46:37<5:50:50,  2.02it/s] 11%|█         | 5399/48008 [46:37<5:52:13,  2.02it/s] 11%|█         | 5400/48008 [46:38<5:49:02,  2.03it/s]                                                      {'loss': 4.3051, 'grad_norm': 0.46689581871032715, 'learning_rate': 0.0001775079153474421, 'epoch': 0.11}
 11%|█         | 5400/48008 [46:38<5:49:02,  2.03it/s] 11%|█▏        | 5401/48008 [46:38<5:52:34,  2.01it/s] 11%|█▏        | 5402/48008 [46:39<5:49:27,  2.03it/s] 11%|█▏        | 5403/48008 [46:39<5:52:01,  2.02it/s] 11%|█▏        | 5404/48008 [46:39<5:33:58,  2.13it/s] 11%|█▏        | 5405/48008 [46:40<5:36:29,  2.11it/s] 11%|█▏        | 5406/48008 [46:40<5:37:35,  2.10it/s] 11%|█▏        | 5407/48008 [46:41<5:43:07,  2.07it/s] 11%|█▏        | 5408/48008 [46:41<5:42:26,  2.07it/s] 11%|█▏        | 5409/48008 [46:42<6:24:15,  1.85it/s] 11%|█▏        | 5410/48008 [46:43<8:54:39,  1.33it/s] 11%|█▏        | 5411/48008 [46:44<7:43:06,  1.53it/s] 11%|█▏        | 5412/48008 [46:45<8:31:04,  1.39it/s] 11%|█▏        | 5413/48008 [46:45<8:21:26,  1.42it/s] 11%|█▏        | 5414/48008 [46:46<7:46:38,  1.52it/s] 11%|█▏        | 5415/48008 [46:46<7:16:43,  1.63it/s] 11%|█▏        | 5416/48008 [46:47<6:48:20,  1.74it/s] 11%|█▏        | 5417/48008 [46:47<6:31:57,  1.81it/s] 11%|█▏        | 5418/48008 [46:48<6:24:52,  1.84it/s] 11%|█▏        | 5419/48008 [46:48<6:11:16,  1.91it/s] 11%|█▏        | 5420/48008 [46:49<6:09:40,  1.92it/s] 11%|█▏        | 5421/48008 [46:49<5:47:24,  2.04it/s] 11%|█▏        | 5422/48008 [46:50<5:57:10,  1.99it/s] 11%|█▏        | 5423/48008 [46:50<6:00:08,  1.97it/s] 11%|█▏        | 5424/48008 [46:51<5:58:53,  1.98it/s] 11%|█▏        | 5425/48008 [46:51<5:54:31,  2.00it/s] 11%|█▏        | 5426/48008 [46:52<5:51:21,  2.02it/s] 11%|█▏        | 5427/48008 [46:52<5:47:41,  2.04it/s] 11%|█▏        | 5428/48008 [46:53<5:53:33,  2.01it/s] 11%|█▏        | 5429/48008 [46:53<5:53:53,  2.01it/s] 11%|█▏        | 5430/48008 [46:54<5:57:44,  1.98it/s] 11%|█▏        | 5431/48008 [46:54<5:53:37,  2.01it/s] 11%|█▏        | 5432/48008 [46:55<5:50:47,  2.02it/s] 11%|█▏        | 5433/48008 [46:55<5:51:27,  2.02it/s] 11%|█▏        | 5434/48008 [46:56<5:47:25,  2.04it/s] 11%|█▏        | 5435/48008 [46:56<6:25:54,  1.84it/s] 11%|█▏        | 5436/48008 [46:57<6:19:42,  1.87it/s] 11%|█▏        | 5437/48008 [46:57<6:15:27,  1.89it/s] 11%|█▏        | 5438/48008 [46:58<6:06:35,  1.94it/s] 11%|█▏        | 5439/48008 [46:58<5:57:48,  1.98it/s] 11%|█▏        | 5440/48008 [46:59<5:57:19,  1.99it/s] 11%|█▏        | 5441/48008 [46:59<5:57:30,  1.98it/s] 11%|█▏        | 5442/48008 [47:00<5:39:19,  2.09it/s] 11%|█▏        | 5443/48008 [47:00<5:45:05,  2.06it/s] 11%|█▏        | 5444/48008 [47:01<5:55:10,  2.00it/s] 11%|█▏        | 5445/48008 [47:01<5:58:32,  1.98it/s] 11%|█▏        | 5446/48008 [47:02<6:00:46,  1.97it/s] 11%|█▏        | 5447/48008 [47:02<6:00:17,  1.97it/s] 11%|█▏        | 5448/48008 [47:03<6:08:43,  1.92it/s] 11%|█▏        | 5449/48008 [47:04<6:06:06,  1.94it/s] 11%|█▏        | 5450/48008 [47:04<5:58:24,  1.98it/s]                                                      {'loss': 4.3649, 'grad_norm': 0.493979275226593, 'learning_rate': 0.00017729961673054493, 'epoch': 0.11}
 11%|█▏        | 5450/48008 [47:04<5:58:24,  1.98it/s] 11%|█▏        | 5451/48008 [47:04<5:52:57,  2.01it/s] 11%|█▏        | 5452/48008 [47:05<5:56:49,  1.99it/s] 11%|█▏        | 5453/48008 [47:05<5:55:51,  1.99it/s] 11%|█▏        | 5454/48008 [47:06<5:52:18,  2.01it/s] 11%|█▏        | 5455/48008 [47:06<5:55:23,  2.00it/s] 11%|█▏        | 5456/48008 [47:07<5:56:20,  1.99it/s] 11%|█▏        | 5457/48008 [47:07<5:51:35,  2.02it/s] 11%|█▏        | 5458/48008 [47:08<5:59:59,  1.97it/s] 11%|█▏        | 5459/48008 [47:08<5:54:04,  2.00it/s] 11%|█▏        | 5460/48008 [47:09<5:51:27,  2.02it/s] 11%|█▏        | 5461/48008 [47:09<5:34:37,  2.12it/s] 11%|█▏        | 5462/48008 [47:10<5:36:45,  2.11it/s] 11%|█▏        | 5463/48008 [47:10<5:44:15,  2.06it/s] 11%|█▏        | 5464/48008 [47:11<5:47:40,  2.04it/s] 11%|█▏        | 5465/48008 [47:11<5:46:12,  2.05it/s] 11%|█▏        | 5466/48008 [47:12<5:57:44,  1.98it/s] 11%|█▏        | 5467/48008 [47:12<5:52:40,  2.01it/s] 11%|█▏        | 5468/48008 [47:13<5:34:05,  2.12it/s] 11%|█▏        | 5469/48008 [47:13<5:22:57,  2.20it/s] 11%|█▏        | 5470/48008 [47:14<5:37:08,  2.10it/s] 11%|█▏        | 5471/48008 [47:14<5:37:10,  2.10it/s] 11%|█▏        | 5472/48008 [47:15<5:38:40,  2.09it/s] 11%|█▏        | 5473/48008 [47:15<5:44:39,  2.06it/s] 11%|█▏        | 5474/48008 [47:16<5:44:00,  2.06it/s] 11%|█▏        | 5475/48008 [47:16<5:48:15,  2.04it/s] 11%|█▏        | 5476/48008 [47:17<5:45:05,  2.05it/s] 11%|█▏        | 5477/48008 [47:17<5:49:35,  2.03it/s] 11%|█▏        | 5478/48008 [47:18<5:47:45,  2.04it/s] 11%|█▏        | 5479/48008 [47:19<7:11:13,  1.64it/s] 11%|█▏        | 5480/48008 [47:19<8:08:16,  1.45it/s] 11%|█▏        | 5481/48008 [47:20<8:49:25,  1.34it/s] 11%|█▏        | 5482/48008 [47:21<7:51:52,  1.50it/s] 11%|█▏        | 5483/48008 [47:21<6:58:48,  1.69it/s] 11%|█▏        | 5484/48008 [47:22<6:41:47,  1.76it/s] 11%|█▏        | 5485/48008 [47:22<6:23:00,  1.85it/s] 11%|█▏        | 5486/48008 [47:23<6:11:35,  1.91it/s] 11%|█▏        | 5487/48008 [47:23<6:02:32,  1.95it/s] 11%|█▏        | 5488/48008 [47:24<6:38:49,  1.78it/s] 11%|█▏        | 5489/48008 [47:24<5:59:37,  1.97it/s] 11%|█▏        | 5490/48008 [47:25<5:57:47,  1.98it/s] 11%|█▏        | 5491/48008 [47:25<5:52:57,  2.01it/s] 11%|█▏        | 5492/48008 [47:26<5:35:39,  2.11it/s] 11%|█▏        | 5493/48008 [47:26<5:49:00,  2.03it/s] 11%|█▏        | 5494/48008 [47:27<5:51:22,  2.02it/s] 11%|█▏        | 5495/48008 [47:27<5:47:40,  2.04it/s] 11%|█▏        | 5496/48008 [47:28<5:49:45,  2.03it/s] 11%|█▏        | 5497/48008 [47:28<5:47:06,  2.04it/s] 11%|█▏        | 5498/48008 [47:29<5:30:54,  2.14it/s] 11%|█▏        | 5499/48008 [47:29<5:20:33,  2.21it/s] 11%|█▏        | 5500/48008 [47:29<5:38:20,  2.09it/s]                                                      {'loss': 4.2951, 'grad_norm': 0.6557664275169373, 'learning_rate': 0.00017709131811364774, 'epoch': 0.11} 11%|█▏        | 5500/48008 [47:29<5:38:20,  2.09it/s]
 11%|█▏        | 5501/48008 [47:30<5:39:39,  2.09it/s] 11%|█▏        | 5502/48008 [47:30<5:39:49,  2.08it/s] 11%|█▏        | 5503/48008 [47:31<5:43:42,  2.06it/s] 11%|█▏        | 5504/48008 [47:31<5:42:46,  2.07it/s] 11%|█▏        | 5505/48008 [47:32<5:54:17,  2.00it/s] 11%|█▏        | 5506/48008 [47:32<5:55:27,  1.99it/s] 11%|█▏        | 5507/48008 [47:33<5:58:38,  1.98it/s] 11%|█▏        | 5508/48008 [47:33<5:53:24,  2.00it/s] 11%|█▏        | 5509/48008 [47:34<5:55:04,  1.99it/s] 11%|█▏        | 5510/48008 [47:34<5:50:28,  2.02it/s] 11%|█▏        | 5511/48008 [47:35<5:51:00,  2.02it/s] 11%|█▏        | 5512/48008 [47:35<5:51:53,  2.01it/s] 11%|█▏        | 5513/48008 [47:36<5:47:37,  2.04it/s] 11%|█▏        | 5514/48008 [47:36<5:51:00,  2.02it/s] 11%|█▏        | 5515/48008 [47:37<5:53:03,  2.01it/s] 11%|█▏        | 5516/48008 [47:38<6:29:34,  1.82it/s] 11%|█▏        | 5517/48008 [47:38<6:15:17,  1.89it/s] 11%|█▏        | 5518/48008 [47:38<5:51:16,  2.02it/s] 11%|█▏        | 5519/48008 [47:39<5:47:50,  2.04it/s] 11%|█▏        | 5520/48008 [47:39<5:52:12,  2.01it/s] 12%|█▏        | 5521/48008 [47:40<5:35:29,  2.11it/s] 12%|█▏        | 5522/48008 [47:40<5:37:39,  2.10it/s] 12%|█▏        | 5523/48008 [47:41<5:46:52,  2.04it/s] 12%|█▏        | 5524/48008 [47:41<5:51:30,  2.01it/s] 12%|█▏        | 5525/48008 [47:42<5:47:41,  2.04it/s] 12%|█▏        | 5526/48008 [47:42<5:31:53,  2.13it/s] 12%|█▏        | 5527/48008 [47:43<5:34:33,  2.12it/s] 12%|█▏        | 5528/48008 [47:43<5:21:44,  2.20it/s] 12%|█▏        | 5529/48008 [47:44<5:34:23,  2.12it/s] 12%|█▏        | 5530/48008 [47:44<5:35:16,  2.11it/s] 12%|█▏        | 5531/48008 [47:45<7:01:46,  1.68it/s] 12%|█▏        | 5532/48008 [47:46<6:41:48,  1.76it/s] 12%|█▏        | 5533/48008 [47:46<6:30:28,  1.81it/s] 12%|█▏        | 5534/48008 [47:47<6:20:12,  1.86it/s] 12%|█▏        | 5535/48008 [47:47<6:06:57,  1.93it/s] 12%|█▏        | 5536/48008 [47:48<5:59:55,  1.97it/s] 12%|█▏        | 5537/48008 [47:48<5:38:58,  2.09it/s] 12%|█▏        | 5538/48008 [47:48<5:38:37,  2.09it/s] 12%|█▏        | 5539/48008 [47:49<5:38:28,  2.09it/s] 12%|█▏        | 5540/48008 [47:49<5:40:03,  2.08it/s] 12%|█▏        | 5541/48008 [47:50<5:50:19,  2.02it/s] 12%|█▏        | 5542/48008 [47:50<5:47:00,  2.04it/s] 12%|█▏        | 5543/48008 [47:51<5:30:49,  2.14it/s] 12%|█▏        | 5544/48008 [47:51<5:38:47,  2.09it/s] 12%|█▏        | 5545/48008 [47:52<5:50:39,  2.02it/s] 12%|█▏        | 5546/48008 [47:52<5:52:43,  2.01it/s] 12%|█▏        | 5547/48008 [47:53<5:53:05,  2.00it/s] 12%|█▏        | 5548/48008 [47:53<5:49:13,  2.03it/s] 12%|█▏        | 5549/48008 [47:54<5:25:17,  2.18it/s] 12%|█▏        | 5550/48008 [47:54<5:38:12,  2.09it/s]                                                      {'loss': 4.3224, 'grad_norm': 0.518541693687439, 'learning_rate': 0.00017688301949675053, 'epoch': 0.12}
 12%|█▏        | 5550/48008 [47:54<5:38:12,  2.09it/s] 12%|█▏        | 5551/48008 [47:55<5:43:55,  2.06it/s] 12%|█▏        | 5552/48008 [47:55<5:28:52,  2.15it/s] 12%|█▏        | 5553/48008 [47:56<5:32:28,  2.13it/s] 12%|█▏        | 5554/48008 [47:56<5:34:18,  2.12it/s] 12%|█▏        | 5555/48008 [47:57<5:39:38,  2.08it/s] 12%|█▏        | 5556/48008 [47:58<8:22:04,  1.41it/s] 12%|█▏        | 5557/48008 [47:58<7:38:48,  1.54it/s] 12%|█▏        | 5558/48008 [47:59<7:07:49,  1.65it/s] 12%|█▏        | 5559/48008 [47:59<6:42:43,  1.76it/s] 12%|█▏        | 5560/48008 [48:00<6:10:31,  1.91it/s] 12%|█▏        | 5561/48008 [48:00<6:06:41,  1.93it/s] 12%|█▏        | 5562/48008 [48:01<5:58:12,  1.97it/s] 12%|█▏        | 5563/48008 [48:01<5:53:26,  2.00it/s] 12%|█▏        | 5564/48008 [48:02<5:53:21,  2.00it/s] 12%|█▏        | 5565/48008 [48:02<5:49:39,  2.02it/s] 12%|█▏        | 5566/48008 [48:03<7:10:01,  1.64it/s] 12%|█▏        | 5567/48008 [48:04<6:50:34,  1.72it/s] 12%|█▏        | 5568/48008 [48:04<6:40:50,  1.76it/s] 12%|█▏        | 5569/48008 [48:05<6:08:25,  1.92it/s] 12%|█▏        | 5570/48008 [48:05<5:45:15,  2.05it/s] 12%|█▏        | 5571/48008 [48:05<5:47:32,  2.04it/s] 12%|█▏        | 5572/48008 [48:06<5:44:10,  2.05it/s] 12%|█▏        | 5573/48008 [48:06<5:41:44,  2.07it/s] 12%|█▏        | 5574/48008 [48:07<5:45:00,  2.05it/s] 12%|█▏        | 5575/48008 [48:08<6:25:06,  1.84it/s] 12%|█▏        | 5576/48008 [48:08<6:12:38,  1.90it/s] 12%|█▏        | 5577/48008 [48:09<6:07:04,  1.93it/s] 12%|█▏        | 5578/48008 [48:09<6:40:41,  1.76it/s] 12%|█▏        | 5579/48008 [48:10<7:03:27,  1.67it/s] 12%|█▏        | 5580/48008 [48:10<6:39:05,  1.77it/s] 12%|█▏        | 5581/48008 [48:11<6:20:19,  1.86it/s] 12%|█▏        | 5582/48008 [48:11<6:08:15,  1.92it/s] 12%|█▏        | 5583/48008 [48:12<6:03:56,  1.94it/s] 12%|█▏        | 5584/48008 [48:12<5:56:12,  1.98it/s] 12%|█▏        | 5585/48008 [48:13<5:51:09,  2.01it/s] 12%|█▏        | 5586/48008 [48:13<5:53:09,  2.00it/s] 12%|█▏        | 5587/48008 [48:14<5:54:49,  1.99it/s] 12%|█▏        | 5588/48008 [48:14<5:35:40,  2.11it/s] 12%|█▏        | 5589/48008 [48:15<5:41:30,  2.07it/s] 12%|█▏        | 5590/48008 [48:15<5:40:20,  2.08it/s] 12%|█▏        | 5591/48008 [48:16<5:26:08,  2.17it/s] 12%|█▏        | 5592/48008 [48:16<5:16:13,  2.24it/s] 12%|█▏        | 5593/48008 [48:17<5:22:10,  2.19it/s] 12%|█▏        | 5594/48008 [48:17<5:35:43,  2.11it/s] 12%|█▏        | 5595/48008 [48:18<5:41:05,  2.07it/s] 12%|█▏        | 5596/48008 [48:18<5:45:19,  2.05it/s] 12%|█▏        | 5597/48008 [48:19<5:30:07,  2.14it/s] 12%|█▏        | 5598/48008 [48:19<5:32:42,  2.12it/s] 12%|█▏        | 5599/48008 [48:19<5:20:57,  2.20it/s] 12%|█▏        | 5600/48008 [48:20<5:26:40,  2.16it/s]                                                      {'loss': 4.28, 'grad_norm': 0.3670608103275299, 'learning_rate': 0.00017667472087985338, 'epoch': 0.12} 12%|█▏        | 5600/48008 [48:20<5:26:40,  2.16it/s]
 12%|█▏        | 5601/48008 [48:20<5:16:59,  2.23it/s] 12%|█▏        | 5602/48008 [48:21<5:32:31,  2.13it/s] 12%|█▏        | 5603/48008 [48:22<8:19:15,  1.42it/s] 12%|█▏        | 5604/48008 [48:23<7:35:07,  1.55it/s] 12%|█▏        | 5605/48008 [48:23<7:08:59,  1.65it/s] 12%|█▏        | 5606/48008 [48:24<6:42:31,  1.76it/s] 12%|█▏        | 5607/48008 [48:24<6:27:59,  1.82it/s] 12%|█▏        | 5608/48008 [48:25<6:13:31,  1.89it/s] 12%|█▏        | 5609/48008 [48:25<6:07:43,  1.92it/s] 12%|█▏        | 5610/48008 [48:26<6:07:34,  1.92it/s] 12%|█▏        | 5611/48008 [48:26<6:11:08,  1.90it/s] 12%|█▏        | 5612/48008 [48:27<6:13:12,  1.89it/s] 12%|█▏        | 5613/48008 [48:27<6:02:43,  1.95it/s] 12%|█▏        | 5614/48008 [48:28<5:55:56,  1.99it/s] 12%|█▏        | 5615/48008 [48:28<5:55:56,  1.99it/s] 12%|█▏        | 5616/48008 [48:29<5:56:20,  1.98it/s] 12%|█▏        | 5617/48008 [48:29<5:50:49,  2.01it/s] 12%|█▏        | 5618/48008 [48:30<5:52:11,  2.01it/s] 12%|█▏        | 5619/48008 [48:30<5:49:30,  2.02it/s] 12%|█▏        | 5620/48008 [48:31<5:32:48,  2.12it/s] 12%|█▏        | 5621/48008 [48:31<5:33:32,  2.12it/s] 12%|█▏        | 5622/48008 [48:31<5:34:32,  2.11it/s] 12%|█▏        | 5623/48008 [48:32<5:36:18,  2.10it/s] 12%|█▏        | 5624/48008 [48:32<5:22:58,  2.19it/s] 12%|█▏        | 5625/48008 [48:33<6:07:48,  1.92it/s] 12%|█▏        | 5626/48008 [48:34<6:03:39,  1.94it/s] 12%|█▏        | 5627/48008 [48:34<5:56:31,  1.98it/s] 12%|█▏        | 5628/48008 [48:35<5:56:12,  1.98it/s] 12%|█▏        | 5629/48008 [48:35<5:59:13,  1.97it/s] 12%|█▏        | 5630/48008 [48:36<5:53:47,  2.00it/s] 12%|█▏        | 5631/48008 [48:36<7:12:37,  1.63it/s] 12%|█▏        | 5632/48008 [48:37<6:44:09,  1.75it/s] 12%|█▏        | 5633/48008 [48:37<6:24:10,  1.84it/s] 12%|█▏        | 5634/48008 [48:38<6:10:22,  1.91it/s] 12%|█▏        | 5635/48008 [48:38<6:00:22,  1.96it/s] 12%|█▏        | 5636/48008 [48:39<5:53:52,  2.00it/s] 12%|█▏        | 5637/48008 [48:39<5:58:08,  1.97it/s] 12%|█▏        | 5638/48008 [48:40<5:57:03,  1.98it/s] 12%|█▏        | 5639/48008 [48:40<5:36:54,  2.10it/s] 12%|█▏        | 5640/48008 [48:41<5:45:43,  2.04it/s] 12%|█▏        | 5641/48008 [48:41<5:48:41,  2.03it/s] 12%|█▏        | 5642/48008 [48:42<5:44:32,  2.05it/s] 12%|█▏        | 5643/48008 [48:42<5:43:00,  2.06it/s] 12%|█▏        | 5644/48008 [48:43<5:41:55,  2.06it/s] 12%|█▏        | 5645/48008 [48:43<5:41:39,  2.07it/s] 12%|█▏        | 5646/48008 [48:44<5:44:46,  2.05it/s] 12%|█▏        | 5647/48008 [48:44<5:51:34,  2.01it/s] 12%|█▏        | 5648/48008 [48:45<5:47:46,  2.03it/s] 12%|█▏        | 5649/48008 [48:45<5:31:02,  2.13it/s] 12%|█▏        | 5650/48008 [48:46<5:33:07,  2.12it/s]                                                      {'loss': 4.298, 'grad_norm': 0.2957399785518646, 'learning_rate': 0.00017646642226295617, 'epoch': 0.12}
 12%|█▏        | 5650/48008 [48:46<5:33:07,  2.12it/s] 12%|█▏        | 5651/48008 [48:46<5:39:21,  2.08it/s] 12%|█▏        | 5652/48008 [48:47<5:44:04,  2.05it/s] 12%|█▏        | 5653/48008 [48:47<5:50:59,  2.01it/s] 12%|█▏        | 5654/48008 [48:48<5:51:22,  2.01it/s] 12%|█▏        | 5655/48008 [48:48<5:48:01,  2.03it/s] 12%|█▏        | 5656/48008 [48:49<5:45:51,  2.04it/s] 12%|█▏        | 5657/48008 [48:49<5:29:27,  2.14it/s] 12%|█▏        | 5658/48008 [48:49<5:36:27,  2.10it/s] 12%|█▏        | 5659/48008 [48:50<5:42:36,  2.06it/s] 12%|█▏        | 5660/48008 [48:50<5:41:02,  2.07it/s] 12%|█▏        | 5661/48008 [48:51<5:40:33,  2.07it/s] 12%|█▏        | 5662/48008 [48:51<5:39:48,  2.08it/s] 12%|█▏        | 5663/48008 [48:52<5:38:34,  2.08it/s] 12%|█▏        | 5664/48008 [48:52<5:25:22,  2.17it/s] 12%|█▏        | 5665/48008 [48:53<5:28:35,  2.15it/s] 12%|█▏        | 5666/48008 [48:53<5:17:12,  2.22it/s] 12%|█▏        | 5667/48008 [48:54<5:28:37,  2.15it/s] 12%|█▏        | 5668/48008 [48:54<5:31:13,  2.13it/s] 12%|█▏        | 5669/48008 [48:55<5:33:52,  2.11it/s] 12%|█▏        | 5670/48008 [48:55<5:47:12,  2.03it/s] 12%|█▏        | 5671/48008 [48:56<5:31:04,  2.13it/s] 12%|█▏        | 5672/48008 [48:56<5:33:14,  2.12it/s] 12%|█▏        | 5673/48008 [48:57<5:39:52,  2.08it/s] 12%|█▏        | 5674/48008 [48:57<5:43:35,  2.05it/s] 12%|█▏        | 5675/48008 [48:57<5:27:57,  2.15it/s] 12%|█▏        | 5676/48008 [48:58<5:30:29,  2.13it/s] 12%|█▏        | 5677/48008 [48:58<5:33:22,  2.12it/s] 12%|█▏        | 5678/48008 [48:59<5:40:39,  2.07it/s] 12%|█▏        | 5679/48008 [48:59<5:25:47,  2.17it/s] 12%|█▏        | 5680/48008 [49:00<5:34:26,  2.11it/s] 12%|█▏        | 5681/48008 [49:00<5:35:50,  2.10it/s] 12%|█▏        | 5682/48008 [49:01<5:35:45,  2.10it/s] 12%|█▏        | 5683/48008 [49:01<5:35:22,  2.10it/s] 12%|█▏        | 5684/48008 [49:02<5:22:16,  2.19it/s] 12%|█▏        | 5685/48008 [49:02<5:27:26,  2.15it/s] 12%|█▏        | 5686/48008 [49:03<5:35:34,  2.10it/s] 12%|█▏        | 5687/48008 [49:03<5:36:30,  2.10it/s] 12%|█▏        | 5688/48008 [49:04<5:37:22,  2.09it/s] 12%|█▏        | 5689/48008 [49:04<5:41:44,  2.06it/s] 12%|█▏        | 5690/48008 [49:05<5:49:03,  2.02it/s] 12%|█▏        | 5691/48008 [49:05<5:50:41,  2.01it/s] 12%|█▏        | 5692/48008 [49:06<5:46:44,  2.03it/s] 12%|█▏        | 5693/48008 [49:06<5:49:03,  2.02it/s] 12%|█▏        | 5694/48008 [49:07<5:45:35,  2.04it/s] 12%|█▏        | 5695/48008 [49:07<5:29:52,  2.14it/s] 12%|█▏        | 5696/48008 [49:08<5:32:05,  2.12it/s] 12%|█▏        | 5697/48008 [49:08<5:20:27,  2.20it/s] 12%|█▏        | 5698/48008 [49:08<5:25:38,  2.17it/s] 12%|█▏        | 5699/48008 [49:09<5:34:22,  2.11it/s] 12%|█▏        | 5700/48008 [49:10<6:16:34,  1.87it/s]                                                      {'loss': 4.2581, 'grad_norm': 0.2905816435813904, 'learning_rate': 0.00017625812364605901, 'epoch': 0.12} 12%|█▏        | 5700/48008 [49:10<6:16:34,  1.87it/s]
 12%|█▏        | 5701/48008 [49:10<5:51:00,  2.01it/s] 12%|█▏        | 5702/48008 [49:10<5:46:27,  2.04it/s] 12%|█▏        | 5703/48008 [49:11<5:51:59,  2.00it/s] 12%|█▏        | 5704/48008 [49:11<5:33:48,  2.11it/s] 12%|█▏        | 5705/48008 [49:12<5:35:12,  2.10it/s] 12%|█▏        | 5706/48008 [49:12<5:22:19,  2.19it/s] 12%|█▏        | 5707/48008 [49:13<5:35:27,  2.10it/s] 12%|█▏        | 5708/48008 [49:13<5:36:00,  2.10it/s] 12%|█▏        | 5709/48008 [49:14<5:41:17,  2.07it/s] 12%|█▏        | 5710/48008 [49:14<5:45:09,  2.04it/s] 12%|█▏        | 5711/48008 [49:15<5:55:35,  1.98it/s] 12%|█▏        | 5712/48008 [49:15<5:49:33,  2.02it/s] 12%|█▏        | 5713/48008 [49:16<5:45:48,  2.04it/s] 12%|█▏        | 5714/48008 [49:16<5:48:33,  2.02it/s] 12%|█▏        | 5715/48008 [49:17<5:49:58,  2.01it/s] 12%|█▏        | 5716/48008 [49:17<5:46:46,  2.03it/s] 12%|█▏        | 5717/48008 [49:18<6:25:15,  1.83it/s] 12%|█▏        | 5718/48008 [49:18<5:57:33,  1.97it/s] 12%|█▏        | 5719/48008 [49:19<5:55:44,  1.98it/s] 12%|█▏        | 5720/48008 [49:19<5:50:16,  2.01it/s] 12%|█▏        | 5721/48008 [49:20<5:54:37,  1.99it/s] 12%|█▏        | 5722/48008 [49:20<5:49:57,  2.01it/s] 12%|█▏        | 5723/48008 [49:21<5:46:06,  2.04it/s] 12%|█▏        | 5724/48008 [49:21<5:48:05,  2.02it/s] 12%|█▏        | 5725/48008 [49:22<5:49:17,  2.02it/s] 12%|█▏        | 5726/48008 [49:22<5:45:35,  2.04it/s] 12%|█▏        | 5727/48008 [49:23<5:42:57,  2.05it/s] 12%|█▏        | 5728/48008 [49:23<5:41:07,  2.07it/s] 12%|█▏        | 5729/48008 [49:24<5:48:14,  2.02it/s] 12%|█▏        | 5730/48008 [49:24<5:53:54,  1.99it/s] 12%|█▏        | 5731/48008 [49:25<6:01:22,  1.95it/s] 12%|█▏        | 5732/48008 [49:25<5:40:10,  2.07it/s] 12%|█▏        | 5733/48008 [49:26<5:39:46,  2.07it/s] 12%|█▏        | 5734/48008 [49:26<5:39:05,  2.08it/s] 12%|█▏        | 5735/48008 [49:27<5:37:51,  2.09it/s] 12%|█▏        | 5736/48008 [49:27<5:46:07,  2.04it/s] 12%|█▏        | 5737/48008 [49:28<5:43:46,  2.05it/s] 12%|█▏        | 5738/48008 [49:28<5:54:48,  1.99it/s] 12%|█▏        | 5739/48008 [49:29<5:50:11,  2.01it/s] 12%|█▏        | 5740/48008 [49:29<5:58:10,  1.97it/s] 12%|█▏        | 5741/48008 [49:30<6:00:00,  1.96it/s] 12%|█▏        | 5742/48008 [49:30<5:53:42,  1.99it/s] 12%|█▏        | 5743/48008 [49:31<6:30:07,  1.81it/s] 12%|█▏        | 5744/48008 [49:31<6:14:33,  1.88it/s] 12%|█▏        | 5745/48008 [49:32<6:09:25,  1.91it/s] 12%|█▏        | 5746/48008 [49:32<6:00:18,  1.95it/s] 12%|█▏        | 5747/48008 [49:33<5:39:57,  2.07it/s] 12%|█▏        | 5748/48008 [49:33<5:39:45,  2.07it/s] 12%|█▏        | 5749/48008 [49:34<5:51:25,  2.00it/s] 12%|█▏        | 5750/48008 [49:34<5:51:31,  2.00it/s]                                                      {'loss': 4.3318, 'grad_norm': 0.37899118661880493, 'learning_rate': 0.0001760498250291618, 'epoch': 0.12}
 12%|█▏        | 5750/48008 [49:34<5:51:31,  2.00it/s] 12%|█▏        | 5751/48008 [49:35<5:48:07,  2.02it/s] 12%|█▏        | 5752/48008 [49:35<5:50:00,  2.01it/s] 12%|█▏        | 5753/48008 [49:36<5:59:36,  1.96it/s] 12%|█▏        | 5754/48008 [49:36<6:02:40,  1.94it/s] 12%|█▏        | 5755/48008 [49:37<5:55:00,  1.98it/s] 12%|█▏        | 5756/48008 [49:37<5:57:54,  1.97it/s] 12%|█▏        | 5757/48008 [49:38<5:38:35,  2.08it/s] 12%|█▏        | 5758/48008 [49:38<5:46:20,  2.03it/s] 12%|█▏        | 5759/48008 [49:39<5:52:40,  2.00it/s] 12%|█▏        | 5760/48008 [49:39<5:48:00,  2.02it/s] 12%|█▏        | 5761/48008 [49:40<5:44:47,  2.04it/s] 12%|█▏        | 5762/48008 [49:40<5:42:47,  2.05it/s] 12%|█▏        | 5763/48008 [49:41<5:39:59,  2.07it/s] 12%|█▏        | 5764/48008 [49:41<5:47:40,  2.03it/s] 12%|█▏        | 5765/48008 [49:42<5:44:11,  2.05it/s] 12%|█▏        | 5766/48008 [49:42<5:28:03,  2.15it/s] 12%|█▏        | 5767/48008 [49:43<5:35:59,  2.10it/s] 12%|█▏        | 5768/48008 [49:43<5:36:39,  2.09it/s] 12%|█▏        | 5769/48008 [49:44<5:15:42,  2.23it/s] 12%|█▏        | 5770/48008 [49:44<5:27:02,  2.15it/s] 12%|█▏        | 5771/48008 [49:44<5:16:08,  2.23it/s] 12%|█▏        | 5772/48008 [49:45<5:30:07,  2.13it/s] 12%|█▏        | 5773/48008 [49:45<5:39:57,  2.07it/s] 12%|█▏        | 5774/48008 [49:46<5:39:38,  2.07it/s] 12%|█▏        | 5775/48008 [49:46<5:39:03,  2.08it/s] 12%|█▏        | 5776/48008 [49:47<5:39:39,  2.07it/s] 12%|█▏        | 5777/48008 [49:47<5:38:57,  2.08it/s] 12%|█▏        | 5778/48008 [49:48<7:02:16,  1.67it/s] 12%|█▏        | 5779/48008 [49:49<6:37:05,  1.77it/s] 12%|█▏        | 5780/48008 [49:50<7:43:14,  1.52it/s] 12%|█▏        | 5781/48008 [49:50<7:05:09,  1.66it/s] 12%|█▏        | 5782/48008 [49:51<6:44:08,  1.74it/s] 12%|█▏        | 5783/48008 [49:51<6:23:55,  1.83it/s] 12%|█▏        | 5784/48008 [49:52<6:10:29,  1.90it/s] 12%|█▏        | 5785/48008 [49:52<6:05:46,  1.92it/s] 12%|█▏        | 5786/48008 [49:53<6:02:06,  1.94it/s] 12%|█▏        | 5787/48008 [49:53<5:53:42,  1.99it/s] 12%|█▏        | 5788/48008 [49:54<5:48:48,  2.02it/s] 12%|█▏        | 5789/48008 [49:54<5:52:56,  1.99it/s] 12%|█▏        | 5790/48008 [49:54<5:34:21,  2.10it/s] 12%|█▏        | 5791/48008 [49:55<5:44:04,  2.04it/s] 12%|█▏        | 5792/48008 [49:55<5:47:39,  2.02it/s] 12%|█▏        | 5793/48008 [49:56<5:49:52,  2.01it/s] 12%|█▏        | 5794/48008 [49:57<6:27:07,  1.82it/s] 12%|█▏        | 5795/48008 [49:57<6:12:12,  1.89it/s] 12%|█▏        | 5796/48008 [49:58<6:06:07,  1.92it/s] 12%|█▏        | 5797/48008 [49:59<8:39:36,  1.35it/s] 12%|█▏        | 5798/48008 [49:59<7:49:03,  1.50it/s] 12%|█▏        | 5799/48008 [50:00<7:13:52,  1.62it/s] 12%|█▏        | 5800/48008 [50:00<6:45:12,  1.74it/s]                                                      {'loss': 4.3249, 'grad_norm': 0.3021083176136017, 'learning_rate': 0.00017584152641226462, 'epoch': 0.12}
 12%|█▏        | 5800/48008 [50:00<6:45:12,  1.74it/s] 12%|█▏        | 5801/48008 [50:01<6:11:29,  1.89it/s] 12%|█▏        | 5802/48008 [50:01<6:01:26,  1.95it/s] 12%|█▏        | 5803/48008 [50:02<5:40:30,  2.07it/s] 12%|█▏        | 5804/48008 [50:02<5:44:07,  2.04it/s] 12%|█▏        | 5805/48008 [50:03<5:28:16,  2.14it/s] 12%|█▏        | 5806/48008 [50:03<5:36:31,  2.09it/s] 12%|█▏        | 5807/48008 [50:04<5:37:28,  2.08it/s] 12%|█▏        | 5808/48008 [50:04<5:45:41,  2.03it/s] 12%|█▏        | 5809/48008 [50:05<5:47:54,  2.02it/s] 12%|█▏        | 5810/48008 [50:05<5:49:29,  2.01it/s] 12%|█▏        | 5811/48008 [50:06<5:54:16,  1.99it/s] 12%|█▏        | 5812/48008 [50:06<5:53:45,  1.99it/s] 12%|█▏        | 5813/48008 [50:07<5:56:38,  1.97it/s] 12%|█▏        | 5814/48008 [50:07<5:59:45,  1.95it/s] 12%|█▏        | 5815/48008 [50:08<5:53:04,  1.99it/s] 12%|█▏        | 5816/48008 [50:08<5:48:35,  2.02it/s] 12%|█▏        | 5817/48008 [50:09<7:08:54,  1.64it/s] 12%|█▏        | 5818/48008 [50:10<6:50:19,  1.71it/s] 12%|█▏        | 5819/48008 [50:10<6:28:21,  1.81it/s] 12%|█▏        | 5820/48008 [50:11<7:36:34,  1.54it/s] 12%|█▏        | 5821/48008 [50:11<7:05:29,  1.65it/s] 12%|█▏        | 5822/48008 [50:12<6:38:50,  1.76it/s] 12%|█▏        | 5823/48008 [50:12<6:06:36,  1.92it/s] 12%|█▏        | 5824/48008 [50:13<5:36:50,  2.09it/s] 12%|█▏        | 5825/48008 [50:13<5:23:24,  2.17it/s] 12%|█▏        | 5826/48008 [50:14<6:08:40,  1.91it/s] 12%|█▏        | 5827/48008 [50:14<6:03:17,  1.94it/s] 12%|█▏        | 5828/48008 [50:15<5:55:36,  1.98it/s] 12%|█▏        | 5829/48008 [50:15<5:50:09,  2.01it/s] 12%|█▏        | 5830/48008 [50:16<5:50:34,  2.01it/s] 12%|█▏        | 5831/48008 [50:16<5:51:51,  2.00it/s] 12%|█▏        | 5832/48008 [50:17<5:46:34,  2.03it/s] 12%|█▏        | 5833/48008 [50:17<5:43:55,  2.04it/s] 12%|█▏        | 5834/48008 [50:18<5:41:39,  2.06it/s] 12%|█▏        | 5835/48008 [50:18<5:45:14,  2.04it/s] 12%|█▏        | 5836/48008 [50:19<5:29:24,  2.13it/s] 12%|█▏        | 5837/48008 [50:19<6:55:17,  1.69it/s] 12%|█▏        | 5838/48008 [50:20<6:18:16,  1.86it/s] 12%|█▏        | 5839/48008 [50:20<5:52:09,  2.00it/s] 12%|█▏        | 5840/48008 [50:21<5:52:14,  2.00it/s] 12%|█▏        | 5841/48008 [50:22<8:30:39,  1.38it/s] 12%|█▏        | 5842/48008 [50:23<7:37:59,  1.53it/s] 12%|█▏        | 5843/48008 [50:23<6:49:36,  1.72it/s] 12%|█▏        | 5844/48008 [50:23<6:32:48,  1.79it/s] 12%|█▏        | 5845/48008 [50:24<6:24:48,  1.83it/s] 12%|█▏        | 5846/48008 [50:24<6:11:13,  1.89it/s] 12%|█▏        | 5847/48008 [50:25<6:13:09,  1.88it/s] 12%|█▏        | 5848/48008 [50:25<6:03:01,  1.94it/s] 12%|█▏        | 5849/48008 [50:26<5:54:59,  1.98it/s] 12%|█▏        | 5850/48008 [50:26<5:49:25,  2.01it/s]{'loss': 4.2749, 'grad_norm': 0.2553327977657318, 'learning_rate': 0.00017563322779536744, 'epoch': 0.12}                                                       12%|█▏        | 5850/48008 [50:26<5:49:25,  2.01it/s]
 12%|█▏        | 5851/48008 [50:28<8:29:10,  1.38it/s] 12%|█▏        | 5852/48008 [50:28<7:42:46,  1.52it/s] 12%|█▏        | 5853/48008 [50:29<6:51:34,  1.71it/s] 12%|█▏        | 5854/48008 [50:29<6:29:19,  1.80it/s] 12%|█▏        | 5855/48008 [50:29<6:00:19,  1.95it/s] 12%|█▏        | 5856/48008 [50:30<6:34:26,  1.78it/s] 12%|█▏        | 5857/48008 [50:31<6:17:44,  1.86it/s] 12%|█▏        | 5858/48008 [50:31<6:18:05,  1.86it/s] 12%|█▏        | 5859/48008 [50:32<6:14:33,  1.88it/s] 12%|█▏        | 5860/48008 [50:32<6:16:17,  1.87it/s] 12%|█▏        | 5861/48008 [50:33<6:09:34,  1.90it/s] 12%|█▏        | 5862/48008 [50:33<6:06:44,  1.92it/s] 12%|█▏        | 5863/48008 [50:34<6:02:25,  1.94it/s] 12%|█▏        | 5864/48008 [50:34<6:34:47,  1.78it/s] 12%|█▏        | 5865/48008 [50:35<6:17:38,  1.86it/s] 12%|█▏        | 5866/48008 [50:35<6:06:18,  1.92it/s] 12%|█▏        | 5867/48008 [50:36<5:44:41,  2.04it/s] 12%|█▏        | 5868/48008 [50:36<5:42:31,  2.05it/s] 12%|█▏        | 5869/48008 [50:37<5:27:45,  2.14it/s] 12%|█▏        | 5870/48008 [50:37<5:36:05,  2.09it/s] 12%|█▏        | 5871/48008 [50:38<5:36:42,  2.09it/s] 12%|█▏        | 5872/48008 [50:38<5:42:24,  2.05it/s] 12%|█▏        | 5873/48008 [50:39<5:40:40,  2.06it/s] 12%|█▏        | 5874/48008 [50:39<5:44:18,  2.04it/s] 12%|█▏        | 5875/48008 [50:40<5:46:10,  2.03it/s] 12%|█▏        | 5876/48008 [50:40<5:28:47,  2.14it/s] 12%|█▏        | 5877/48008 [50:41<5:36:30,  2.09it/s] 12%|█▏        | 5878/48008 [50:41<5:45:32,  2.03it/s] 12%|█▏        | 5879/48008 [50:42<5:29:23,  2.13it/s] 12%|█▏        | 5880/48008 [50:42<5:36:31,  2.09it/s] 12%|█▏        | 5881/48008 [50:43<5:36:59,  2.08it/s] 12%|█▏        | 5882/48008 [50:43<5:23:01,  2.17it/s] 12%|█▏        | 5883/48008 [50:43<5:13:38,  2.24it/s] 12%|█▏        | 5884/48008 [50:44<5:26:00,  2.15it/s] 12%|█▏        | 5885/48008 [50:45<6:10:15,  1.90it/s] 12%|█▏        | 5886/48008 [50:45<6:00:28,  1.95it/s] 12%|█▏        | 5887/48008 [50:46<6:05:53,  1.92it/s] 12%|█▏        | 5888/48008 [50:46<5:57:08,  1.97it/s] 12%|█▏        | 5889/48008 [50:47<6:03:17,  1.93it/s] 12%|█▏        | 5890/48008 [50:47<5:55:43,  1.97it/s] 12%|█▏        | 5891/48008 [50:48<5:49:58,  2.01it/s] 12%|█▏        | 5892/48008 [50:48<5:50:13,  2.00it/s] 12%|█▏        | 5893/48008 [50:49<6:27:20,  1.81it/s] 12%|█▏        | 5894/48008 [50:49<6:11:54,  1.89it/s] 12%|█▏        | 5895/48008 [50:50<6:01:00,  1.94it/s] 12%|█▏        | 5896/48008 [50:50<5:53:17,  1.99it/s] 12%|█▏        | 5897/48008 [50:51<5:52:57,  1.99it/s] 12%|█▏        | 5898/48008 [50:51<5:52:11,  1.99it/s] 12%|█▏        | 5899/48008 [50:52<5:47:32,  2.02it/s] 12%|█▏        | 5900/48008 [50:52<5:44:48,  2.04it/s]                                                      {'loss': 4.338, 'grad_norm': 0.4735424518585205, 'learning_rate': 0.00017542492917847026, 'epoch': 0.12}
 12%|█▏        | 5900/48008 [50:52<5:44:48,  2.04it/s] 12%|█▏        | 5901/48008 [50:53<5:48:18,  2.01it/s] 12%|█▏        | 5902/48008 [50:53<5:45:14,  2.03it/s] 12%|█▏        | 5903/48008 [50:54<5:43:17,  2.04it/s] 12%|█▏        | 5904/48008 [50:54<5:40:41,  2.06it/s] 12%|█▏        | 5905/48008 [50:55<5:51:55,  1.99it/s] 12%|█▏        | 5906/48008 [50:55<5:52:54,  1.99it/s] 12%|█▏        | 5907/48008 [50:56<6:29:01,  1.80it/s] 12%|█▏        | 5908/48008 [50:56<6:14:00,  1.88it/s] 12%|█▏        | 5909/48008 [50:57<6:02:58,  1.93it/s] 12%|█▏        | 5910/48008 [50:57<6:03:21,  1.93it/s] 12%|█▏        | 5911/48008 [50:58<5:54:56,  1.98it/s] 12%|█▏        | 5912/48008 [50:58<6:01:58,  1.94it/s] 12%|█▏        | 5913/48008 [50:59<5:53:31,  1.98it/s] 12%|█▏        | 5914/48008 [50:59<5:53:22,  1.99it/s] 12%|█▏        | 5915/48008 [51:00<5:34:29,  2.10it/s] 12%|█▏        | 5916/48008 [51:00<5:46:37,  2.02it/s] 12%|█▏        | 5917/48008 [51:01<5:48:17,  2.01it/s] 12%|█▏        | 5918/48008 [51:01<5:45:17,  2.03it/s] 12%|█▏        | 5919/48008 [51:02<5:42:23,  2.05it/s] 12%|█▏        | 5920/48008 [51:02<5:40:31,  2.06it/s] 12%|█▏        | 5921/48008 [51:03<5:39:46,  2.06it/s] 12%|█▏        | 5922/48008 [51:03<5:43:33,  2.04it/s] 12%|█▏        | 5923/48008 [51:04<5:41:39,  2.05it/s] 12%|█▏        | 5924/48008 [51:04<6:20:11,  1.84it/s] 12%|█▏        | 5925/48008 [51:05<6:07:02,  1.91it/s] 12%|█▏        | 5926/48008 [51:05<6:02:06,  1.94it/s] 12%|█▏        | 5927/48008 [51:06<5:41:32,  2.05it/s] 12%|█▏        | 5928/48008 [51:06<5:39:24,  2.07it/s] 12%|█▏        | 5929/48008 [51:07<5:43:40,  2.04it/s] 12%|█▏        | 5930/48008 [51:07<5:41:53,  2.05it/s] 12%|█▏        | 5931/48008 [51:08<5:26:39,  2.15it/s] 12%|█▏        | 5932/48008 [51:08<5:29:25,  2.13it/s] 12%|█▏        | 5933/48008 [51:09<5:40:13,  2.06it/s] 12%|█▏        | 5934/48008 [51:09<5:38:44,  2.07it/s] 12%|█▏        | 5935/48008 [51:10<5:39:21,  2.07it/s] 12%|█▏        | 5936/48008 [51:10<5:47:03,  2.02it/s] 12%|█▏        | 5937/48008 [51:11<5:49:05,  2.01it/s] 12%|█▏        | 5938/48008 [51:11<5:56:50,  1.96it/s] 12%|█▏        | 5939/48008 [51:12<6:03:07,  1.93it/s] 12%|█▏        | 5940/48008 [51:12<5:54:54,  1.98it/s] 12%|█▏        | 5941/48008 [51:13<5:57:02,  1.96it/s] 12%|█▏        | 5942/48008 [51:13<5:59:10,  1.95it/s] 12%|█▏        | 5943/48008 [51:14<5:52:41,  1.99it/s] 12%|█▏        | 5944/48008 [51:14<5:53:19,  1.98it/s] 12%|█▏        | 5945/48008 [51:15<5:48:22,  2.01it/s] 12%|█▏        | 5946/48008 [51:15<5:49:12,  2.01it/s] 12%|█▏        | 5947/48008 [51:16<5:31:45,  2.11it/s] 12%|█▏        | 5948/48008 [51:16<5:33:37,  2.10it/s] 12%|█▏        | 5949/48008 [51:17<5:42:07,  2.05it/s] 12%|█▏        | 5950/48008 [51:17<5:39:58,  2.06it/s]{'loss': 4.3099, 'grad_norm': 0.28008127212524414, 'learning_rate': 0.00017521663056157307, 'epoch': 0.12}                                                       12%|█▏        | 5950/48008 [51:17<5:39:58,  2.06it/s]
 12%|█▏        | 5951/48008 [51:17<5:39:39,  2.06it/s] 12%|█▏        | 5952/48008 [51:18<6:19:33,  1.85it/s] 12%|█▏        | 5953/48008 [51:19<6:06:53,  1.91it/s] 12%|█▏        | 5954/48008 [51:19<5:43:05,  2.04it/s] 12%|█▏        | 5955/48008 [51:20<5:41:08,  2.05it/s] 12%|█▏        | 5956/48008 [51:20<5:45:12,  2.03it/s] 12%|█▏        | 5957/48008 [51:21<8:23:26,  1.39it/s] 12%|█▏        | 5958/48008 [51:22<7:41:55,  1.52it/s] 12%|█▏        | 5959/48008 [51:22<7:12:22,  1.62it/s] 12%|█▏        | 5960/48008 [51:23<6:29:57,  1.80it/s] 12%|█▏        | 5961/48008 [51:23<6:13:40,  1.88it/s] 12%|█▏        | 5962/48008 [51:24<6:07:55,  1.90it/s] 12%|█▏        | 5963/48008 [51:24<6:03:27,  1.93it/s] 12%|█▏        | 5964/48008 [51:25<6:35:54,  1.77it/s] 12%|█▏        | 5965/48008 [51:25<6:18:15,  1.85it/s] 12%|█▏        | 5966/48008 [51:27<8:48:03,  1.33it/s] 12%|█▏        | 5967/48008 [51:27<7:57:51,  1.47it/s] 12%|█▏        | 5968/48008 [51:28<7:19:32,  1.59it/s] 12%|█▏        | 5969/48008 [51:28<6:34:21,  1.78it/s] 12%|█▏        | 5970/48008 [51:29<6:29:29,  1.80it/s] 12%|█▏        | 5971/48008 [51:29<6:13:35,  1.88it/s] 12%|█▏        | 5972/48008 [51:30<6:02:57,  1.93it/s] 12%|█▏        | 5973/48008 [51:30<5:54:12,  1.98it/s] 12%|█▏        | 5974/48008 [51:30<5:35:39,  2.09it/s] 12%|█▏        | 5975/48008 [51:32<8:18:34,  1.41it/s] 12%|█▏        | 5976/48008 [51:32<7:29:36,  1.56it/s] 12%|█▏        | 5977/48008 [51:33<7:00:31,  1.67it/s] 12%|█▏        | 5978/48008 [51:33<6:36:27,  1.77it/s] 12%|█▏        | 5979/48008 [51:34<6:18:12,  1.85it/s] 12%|█▏        | 5980/48008 [51:34<6:06:04,  1.91it/s] 12%|█▏        | 5981/48008 [51:35<5:56:56,  1.96it/s] 12%|█▏        | 5982/48008 [51:35<5:36:40,  2.08it/s] 12%|█▏        | 5983/48008 [51:36<5:36:29,  2.08it/s] 12%|█▏        | 5984/48008 [51:36<5:47:03,  2.02it/s] 12%|█▏        | 5985/48008 [51:37<5:43:04,  2.04it/s] 12%|█▏        | 5986/48008 [51:37<5:45:06,  2.03it/s] 12%|█▏        | 5987/48008 [51:37<5:42:43,  2.04it/s] 12%|█▏        | 5988/48008 [51:38<5:40:49,  2.05it/s] 12%|█▏        | 5989/48008 [51:38<5:44:56,  2.03it/s] 12%|█▏        | 5990/48008 [51:39<5:42:27,  2.04it/s] 12%|█▏        | 5991/48008 [51:39<5:40:21,  2.06it/s] 12%|█▏        | 5992/48008 [51:40<5:39:07,  2.06it/s] 12%|█▏        | 5993/48008 [51:40<5:47:04,  2.02it/s] 12%|█▏        | 5994/48008 [51:41<5:43:38,  2.04it/s] 12%|█▏        | 5995/48008 [51:41<5:40:44,  2.05it/s] 12%|█▏        | 5996/48008 [51:42<5:25:43,  2.15it/s] 12%|█▏        | 5997/48008 [51:43<8:42:53,  1.34it/s] 12%|█▏        | 5998/48008 [51:44<7:33:05,  1.55it/s] 12%|█▏        | 5999/48008 [51:44<6:57:39,  1.68it/s] 12%|█▏        | 6000/48008 [51:45<6:19:04,  1.85it/s]                                                      {'loss': 4.2966, 'grad_norm': 0.29378727078437805, 'learning_rate': 0.0001750083319446759, 'epoch': 0.12}
 12%|█▏        | 6000/48008 [51:45<6:19:04,  1.85it/s] 12%|█▎        | 6001/48008 [51:45<5:51:41,  1.99it/s] 13%|█▎        | 6002/48008 [51:45<5:47:34,  2.01it/s] 13%|█▎        | 6003/48008 [51:47<8:49:15,  1.32it/s] 13%|█▎        | 6004/48008 [51:47<7:59:19,  1.46it/s] 13%|█▎        | 6005/48008 [51:48<7:16:40,  1.60it/s] 13%|█▎        | 6006/48008 [51:48<6:47:09,  1.72it/s] 13%|█▎        | 6007/48008 [51:49<6:38:42,  1.76it/s] 13%|█▎        | 6008/48008 [51:49<6:24:30,  1.82it/s] 13%|█▎        | 6009/48008 [51:50<6:50:39,  1.70it/s] 13%|█▎        | 6010/48008 [51:50<6:28:45,  1.80it/s] 13%|█▎        | 6011/48008 [51:51<6:53:48,  1.69it/s] 13%|█▎        | 6012/48008 [51:52<6:42:55,  1.74it/s] 13%|█▎        | 6013/48008 [51:52<6:08:51,  1.90it/s] 13%|█▎        | 6014/48008 [51:53<5:58:23,  1.95it/s] 13%|█▎        | 6015/48008 [51:53<5:51:33,  1.99it/s] 13%|█▎        | 6016/48008 [51:54<5:46:32,  2.02it/s] 13%|█▎        | 6017/48008 [51:54<5:42:39,  2.04it/s] 13%|█▎        | 6018/48008 [51:55<5:46:04,  2.02it/s] 13%|█▎        | 6019/48008 [51:55<5:43:24,  2.04it/s] 13%|█▎        | 6020/48008 [51:56<5:53:20,  1.98it/s] 13%|█▎        | 6021/48008 [51:57<8:29:30,  1.37it/s] 13%|█▎        | 6022/48008 [51:57<7:42:50,  1.51it/s] 13%|█▎        | 6023/48008 [51:58<7:46:43,  1.50it/s] 13%|█▎        | 6024/48008 [51:58<7:08:16,  1.63it/s] 13%|█▎        | 6025/48008 [52:00<9:22:11,  1.24it/s] 13%|█▎        | 6026/48008 [52:00<8:13:36,  1.42it/s] 13%|█▎        | 6027/48008 [52:01<7:25:20,  1.57it/s] 13%|█▎        | 6028/48008 [52:01<7:00:24,  1.66it/s] 13%|█▎        | 6029/48008 [52:02<6:43:23,  1.73it/s] 13%|█▎        | 6030/48008 [52:02<6:10:03,  1.89it/s] 13%|█▎        | 6031/48008 [52:03<5:59:29,  1.95it/s] 13%|█▎        | 6032/48008 [52:03<5:51:56,  1.99it/s] 13%|█▎        | 6033/48008 [52:04<5:46:47,  2.02it/s] 13%|█▎        | 6034/48008 [52:04<5:48:22,  2.01it/s] 13%|█▎        | 6035/48008 [52:05<5:48:42,  2.01it/s] 13%|█▎        | 6036/48008 [52:05<5:44:30,  2.03it/s] 13%|█▎        | 6037/48008 [52:06<5:50:04,  2.00it/s] 13%|█▎        | 6038/48008 [52:06<5:45:49,  2.02it/s] 13%|█▎        | 6039/48008 [52:07<7:07:04,  1.64it/s] 13%|█▎        | 6040/48008 [52:07<6:39:51,  1.75it/s] 13%|█▎        | 6041/48008 [52:08<6:24:27,  1.82it/s] 13%|█▎        | 6042/48008 [52:08<6:14:32,  1.87it/s] 13%|█▎        | 6043/48008 [52:10<8:43:29,  1.34it/s] 13%|█▎        | 6044/48008 [52:10<7:46:45,  1.50it/s] 13%|█▎        | 6045/48008 [52:11<9:50:32,  1.18it/s] 13%|█▎        | 6046/48008 [52:12<8:20:06,  1.40it/s] 13%|█▎        | 6047/48008 [52:12<7:35:41,  1.53it/s] 13%|█▎        | 6048/48008 [52:13<7:03:42,  1.65it/s] 13%|█▎        | 6049/48008 [52:13<6:22:36,  1.83it/s] 13%|█▎        | 6050/48008 [52:14<6:08:13,  1.90it/s]                                                      {'loss': 4.3515, 'grad_norm': 0.36310216784477234, 'learning_rate': 0.00017480003332777874, 'epoch': 0.13}
 13%|█▎        | 6050/48008 [52:14<6:08:13,  1.90it/s] 13%|█▎        | 6051/48008 [52:14<5:58:35,  1.95it/s] 13%|█▎        | 6052/48008 [52:15<5:59:00,  1.95it/s] 13%|█▎        | 6053/48008 [52:15<5:56:14,  1.96it/s] 13%|█▎        | 6054/48008 [52:16<5:54:39,  1.97it/s] 13%|█▎        | 6055/48008 [52:16<6:01:26,  1.93it/s] 13%|█▎        | 6056/48008 [52:17<6:02:42,  1.93it/s] 13%|█▎        | 6057/48008 [52:17<5:54:05,  1.97it/s] 13%|█▎        | 6058/48008 [52:18<5:53:14,  1.98it/s] 13%|█▎        | 6059/48008 [52:18<5:56:11,  1.96it/s] 13%|█▎        | 6060/48008 [52:19<5:50:09,  2.00it/s] 13%|█▎        | 6061/48008 [52:19<6:26:33,  1.81it/s] 13%|█▎        | 6062/48008 [52:20<6:11:40,  1.88it/s] 13%|█▎        | 6063/48008 [52:20<6:00:57,  1.94it/s] 13%|█▎        | 6064/48008 [52:21<5:53:04,  1.98it/s] 13%|█▎        | 6065/48008 [52:21<5:47:58,  2.01it/s] 13%|█▎        | 6066/48008 [52:22<5:57:11,  1.96it/s] 13%|█▎        | 6067/48008 [52:22<5:58:06,  1.95it/s] 13%|█▎        | 6068/48008 [52:23<6:31:57,  1.78it/s] 13%|█▎        | 6069/48008 [52:24<7:38:02,  1.53it/s] 13%|█▎        | 6070/48008 [52:24<7:01:02,  1.66it/s] 13%|█▎        | 6071/48008 [52:25<6:21:51,  1.83it/s] 13%|█▎        | 6072/48008 [52:25<6:08:15,  1.90it/s] 13%|█▎        | 6073/48008 [52:26<5:58:03,  1.95it/s] 13%|█▎        | 6074/48008 [52:26<5:37:13,  2.07it/s] 13%|█▎        | 6075/48008 [52:27<5:23:12,  2.16it/s] 13%|█▎        | 6076/48008 [52:27<5:27:50,  2.13it/s] 13%|█▎        | 6077/48008 [52:28<5:34:05,  2.09it/s] 13%|█▎        | 6078/48008 [52:28<5:34:55,  2.09it/s] 13%|█▎        | 6079/48008 [52:29<5:39:37,  2.06it/s] 13%|█▎        | 6080/48008 [52:29<5:38:00,  2.07it/s] 13%|█▎        | 6081/48008 [52:30<5:37:42,  2.07it/s] 13%|█▎        | 6082/48008 [52:30<5:36:26,  2.08it/s] 13%|█▎        | 6083/48008 [52:30<5:23:37,  2.16it/s] 13%|█▎        | 6084/48008 [52:31<5:27:40,  2.13it/s] 13%|█▎        | 6085/48008 [52:31<5:31:01,  2.11it/s] 13%|█▎        | 6086/48008 [52:32<5:41:34,  2.05it/s] 13%|█▎        | 6087/48008 [52:32<5:26:22,  2.14it/s] 13%|█▎        | 6088/48008 [52:33<6:08:58,  1.89it/s] 13%|█▎        | 6089/48008 [52:33<5:59:19,  1.94it/s] 13%|█▎        | 6090/48008 [52:34<5:38:27,  2.06it/s] 13%|█▎        | 6091/48008 [52:34<5:38:05,  2.07it/s] 13%|█▎        | 6092/48008 [52:35<5:23:50,  2.16it/s] 13%|█▎        | 6093/48008 [52:35<6:09:00,  1.89it/s] 13%|█▎        | 6094/48008 [52:36<5:59:08,  1.95it/s] 13%|█▎        | 6095/48008 [52:36<5:38:30,  2.06it/s] 13%|█▎        | 6096/48008 [52:37<5:49:09,  2.00it/s] 13%|█▎        | 6097/48008 [52:37<5:49:39,  2.00it/s] 13%|█▎        | 6098/48008 [52:38<5:45:51,  2.02it/s] 13%|█▎        | 6099/48008 [52:39<8:24:24,  1.38it/s] 13%|█▎        | 6100/48008 [52:40<7:19:34,  1.59it/s]                                                      {'loss': 4.2706, 'grad_norm': 0.5615253448486328, 'learning_rate': 0.00017459173471088153, 'epoch': 0.13}
 13%|█▎        | 6100/48008 [52:40<7:19:34,  1.59it/s] 13%|█▎        | 6101/48008 [52:40<6:34:43,  1.77it/s] 13%|█▎        | 6102/48008 [52:40<6:24:27,  1.82it/s] 13%|█▎        | 6103/48008 [52:41<6:21:28,  1.83it/s] 13%|█▎        | 6104/48008 [52:42<6:06:57,  1.90it/s] 13%|█▎        | 6105/48008 [52:42<6:37:13,  1.76it/s] 13%|█▎        | 6106/48008 [52:43<6:04:06,  1.92it/s] 13%|█▎        | 6107/48008 [52:43<5:55:39,  1.96it/s] 13%|█▎        | 6108/48008 [52:44<5:53:54,  1.97it/s] 13%|█▎        | 6109/48008 [52:44<5:34:48,  2.09it/s] 13%|█▎        | 6110/48008 [52:44<5:40:16,  2.05it/s] 13%|█▎        | 6111/48008 [52:45<5:43:12,  2.03it/s] 13%|█▎        | 6112/48008 [52:45<5:26:43,  2.14it/s] 13%|█▎        | 6113/48008 [52:46<5:29:32,  2.12it/s] 13%|█▎        | 6114/48008 [52:46<5:35:45,  2.08it/s] 13%|█▎        | 6115/48008 [52:47<5:21:50,  2.17it/s] 13%|█▎        | 6116/48008 [52:47<5:12:19,  2.24it/s] 13%|█▎        | 6117/48008 [52:48<5:23:14,  2.16it/s] 13%|█▎        | 6118/48008 [52:48<5:26:19,  2.14it/s] 13%|█▎        | 6119/48008 [52:49<5:29:07,  2.12it/s] 13%|█▎        | 6120/48008 [52:49<5:31:23,  2.11it/s] 13%|█▎        | 6121/48008 [52:50<5:18:55,  2.19it/s] 13%|█▎        | 6122/48008 [52:50<5:23:25,  2.16it/s] 13%|█▎        | 6123/48008 [52:51<5:30:42,  2.11it/s] 13%|█▎        | 6124/48008 [52:51<5:36:52,  2.07it/s] 13%|█▎        | 6125/48008 [52:52<5:35:13,  2.08it/s] 13%|█▎        | 6126/48008 [52:52<5:39:25,  2.06it/s] 13%|█▎        | 6127/48008 [52:53<5:38:28,  2.06it/s] 13%|█▎        | 6128/48008 [52:53<5:42:12,  2.04it/s] 13%|█▎        | 6129/48008 [52:54<7:02:23,  1.65it/s] 13%|█▎        | 6130/48008 [52:54<6:41:25,  1.74it/s] 13%|█▎        | 6131/48008 [52:55<6:21:35,  1.83it/s] 13%|█▎        | 6132/48008 [52:55<6:07:39,  1.90it/s] 13%|█▎        | 6133/48008 [52:56<5:56:55,  1.96it/s] 13%|█▎        | 6134/48008 [52:56<5:55:01,  1.97it/s] 13%|█▎        | 6135/48008 [52:57<6:30:04,  1.79it/s] 13%|█▎        | 6136/48008 [52:58<6:20:50,  1.83it/s] 13%|█▎        | 6137/48008 [52:58<6:06:31,  1.90it/s] 13%|█▎        | 6138/48008 [52:59<6:04:53,  1.91it/s] 13%|█▎        | 6139/48008 [52:59<5:55:44,  1.96it/s] 13%|█▎        | 6140/48008 [52:59<5:48:57,  2.00it/s] 13%|█▎        | 6141/48008 [53:00<5:31:18,  2.11it/s] 13%|█▎        | 6142/48008 [53:00<5:33:03,  2.10it/s] 13%|█▎        | 6143/48008 [53:01<6:56:22,  1.68it/s] 13%|█▎        | 6144/48008 [53:02<6:37:24,  1.76it/s] 13%|█▎        | 6145/48008 [53:02<6:23:52,  1.82it/s] 13%|█▎        | 6146/48008 [53:03<5:55:22,  1.96it/s] 13%|█▎        | 6147/48008 [53:03<5:48:34,  2.00it/s] 13%|█▎        | 6148/48008 [53:04<5:44:13,  2.03it/s] 13%|█▎        | 6149/48008 [53:04<5:41:29,  2.04it/s] 13%|█▎        | 6150/48008 [53:05<5:26:32,  2.14it/s]                                                      {'loss': 4.3282, 'grad_norm': 0.4378392696380615, 'learning_rate': 0.00017438343609398434, 'epoch': 0.13}
 13%|█▎        | 6150/48008 [53:05<5:26:32,  2.14it/s] 13%|█▎        | 6151/48008 [53:05<5:29:02,  2.12it/s] 13%|█▎        | 6152/48008 [53:05<5:16:58,  2.20it/s] 13%|█▎        | 6153/48008 [53:07<8:02:40,  1.45it/s] 13%|█▎        | 6154/48008 [53:07<7:22:39,  1.58it/s] 13%|█▎        | 6155/48008 [53:08<6:49:05,  1.71it/s] 13%|█▎        | 6156/48008 [53:08<6:35:30,  1.76it/s] 13%|█▎        | 6157/48008 [53:09<6:18:15,  1.84it/s] 13%|█▎        | 6158/48008 [53:09<6:10:28,  1.88it/s] 13%|█▎        | 6159/48008 [53:10<5:59:26,  1.94it/s] 13%|█▎        | 6160/48008 [53:10<5:56:43,  1.96it/s] 13%|█▎        | 6161/48008 [53:11<5:49:07,  2.00it/s] 13%|█▎        | 6162/48008 [53:11<5:49:10,  2.00it/s] 13%|█▎        | 6163/48008 [53:12<5:44:51,  2.02it/s] 13%|█▎        | 6164/48008 [53:12<5:53:50,  1.97it/s] 13%|█▎        | 6165/48008 [53:13<5:52:35,  1.98it/s] 13%|█▎        | 6166/48008 [53:13<5:47:14,  2.01it/s] 13%|█▎        | 6167/48008 [53:14<5:42:55,  2.03it/s] 13%|█▎        | 6168/48008 [53:14<5:40:48,  2.05it/s] 13%|█▎        | 6169/48008 [53:15<5:39:08,  2.06it/s] 13%|█▎        | 6170/48008 [53:15<5:37:48,  2.06it/s] 13%|█▎        | 6171/48008 [53:16<5:37:45,  2.06it/s] 13%|█▎        | 6172/48008 [53:16<5:41:41,  2.04it/s] 13%|█▎        | 6173/48008 [53:16<5:39:23,  2.05it/s] 13%|█▎        | 6174/48008 [53:17<5:42:11,  2.04it/s] 13%|█▎        | 6175/48008 [53:17<5:40:03,  2.05it/s] 13%|█▎        | 6176/48008 [53:18<6:18:08,  1.84it/s] 13%|█▎        | 6177/48008 [53:19<5:50:55,  1.99it/s] 13%|█▎        | 6178/48008 [53:19<5:51:14,  1.98it/s] 13%|█▎        | 6179/48008 [53:20<5:51:36,  1.98it/s] 13%|█▎        | 6180/48008 [53:20<5:32:04,  2.10it/s] 13%|█▎        | 6181/48008 [53:20<5:33:08,  2.09it/s] 13%|█▎        | 6182/48008 [53:21<5:33:47,  2.09it/s] 13%|█▎        | 6183/48008 [53:21<5:41:50,  2.04it/s] 13%|█▎        | 6184/48008 [53:22<5:40:00,  2.05it/s] 13%|█▎        | 6185/48008 [53:22<5:37:17,  2.07it/s] 13%|█▎        | 6186/48008 [53:23<5:36:04,  2.07it/s] 13%|█▎        | 6187/48008 [53:23<5:48:48,  2.00it/s] 13%|█▎        | 6188/48008 [53:24<5:49:09,  2.00it/s] 13%|█▎        | 6189/48008 [53:24<5:44:47,  2.02it/s] 13%|█▎        | 6190/48008 [53:25<5:53:53,  1.97it/s] 13%|█▎        | 6191/48008 [53:25<5:34:25,  2.08it/s] 13%|█▎        | 6192/48008 [53:26<5:20:42,  2.17it/s] 13%|█▎        | 6193/48008 [53:26<5:24:29,  2.15it/s] 13%|█▎        | 6194/48008 [53:27<5:32:15,  2.10it/s] 13%|█▎        | 6195/48008 [53:27<5:33:39,  2.09it/s] 13%|█▎        | 6196/48008 [53:28<5:33:42,  2.09it/s] 13%|█▎        | 6197/48008 [53:28<5:38:24,  2.06it/s] 13%|█▎        | 6198/48008 [53:29<5:24:12,  2.15it/s] 13%|█▎        | 6199/48008 [53:29<5:26:31,  2.13it/s] 13%|█▎        | 6200/48008 [53:30<5:14:25,  2.22it/s]                                                      {'loss': 4.3242, 'grad_norm': 0.46081969141960144, 'learning_rate': 0.00017417513747708716, 'epoch': 0.13}
 13%|█▎        | 6200/48008 [53:30<5:14:25,  2.22it/s] 13%|█▎        | 6201/48008 [53:30<5:24:30,  2.15it/s] 13%|█▎        | 6202/48008 [53:31<5:27:16,  2.13it/s] 13%|█▎        | 6203/48008 [53:31<5:17:17,  2.20it/s] 13%|█▎        | 6204/48008 [53:31<5:09:28,  2.25it/s] 13%|█▎        | 6205/48008 [53:32<5:03:13,  2.30it/s] 13%|█▎        | 6206/48008 [53:32<5:12:53,  2.23it/s] 13%|█▎        | 6207/48008 [53:33<5:25:22,  2.14it/s] 13%|█▎        | 6208/48008 [53:33<5:28:25,  2.12it/s] 13%|█▎        | 6209/48008 [53:34<5:16:51,  2.20it/s] 13%|█▎        | 6210/48008 [53:34<5:22:23,  2.16it/s] 13%|█▎        | 6211/48008 [53:35<5:29:54,  2.11it/s] 13%|█▎        | 6212/48008 [53:35<5:17:45,  2.19it/s] 13%|█▎        | 6213/48008 [53:35<5:08:54,  2.25it/s] 13%|█▎        | 6214/48008 [53:36<5:16:02,  2.20it/s] 13%|█▎        | 6215/48008 [53:36<5:22:39,  2.16it/s] 13%|█▎        | 6216/48008 [53:37<5:34:57,  2.08it/s] 13%|█▎        | 6217/48008 [53:37<5:21:42,  2.17it/s] 13%|█▎        | 6218/48008 [53:38<5:24:57,  2.14it/s] 13%|█▎        | 6219/48008 [53:38<5:39:52,  2.05it/s] 13%|█▎        | 6220/48008 [53:39<5:38:01,  2.06it/s] 13%|█▎        | 6221/48008 [53:39<5:36:41,  2.07it/s] 13%|█▎        | 6222/48008 [53:40<5:35:15,  2.08it/s] 13%|█▎        | 6223/48008 [53:40<5:39:05,  2.05it/s] 13%|█▎        | 6224/48008 [53:41<5:42:15,  2.03it/s] 13%|█▎        | 6225/48008 [53:41<5:25:28,  2.14it/s] 13%|█▎        | 6226/48008 [53:42<5:28:05,  2.12it/s] 13%|█▎        | 6227/48008 [53:42<5:41:01,  2.04it/s] 13%|█▎        | 6228/48008 [53:43<5:46:38,  2.01it/s] 13%|█▎        | 6229/48008 [53:43<5:28:45,  2.12it/s] 13%|█▎        | 6230/48008 [53:44<5:29:59,  2.11it/s] 13%|█▎        | 6231/48008 [53:44<5:37:02,  2.07it/s] 13%|█▎        | 6232/48008 [53:45<5:44:30,  2.02it/s] 13%|█▎        | 6233/48008 [53:45<5:49:16,  1.99it/s] 13%|█▎        | 6234/48008 [53:46<5:45:39,  2.01it/s] 13%|█▎        | 6235/48008 [53:46<5:42:14,  2.03it/s] 13%|█▎        | 6236/48008 [53:47<5:51:27,  1.98it/s] 13%|█▎        | 6237/48008 [53:47<5:54:30,  1.96it/s] 13%|█▎        | 6238/48008 [53:48<5:49:24,  1.99it/s] 13%|█▎        | 6239/48008 [53:49<7:07:51,  1.63it/s] 13%|█▎        | 6240/48008 [53:49<6:52:09,  1.69it/s] 13%|█▎        | 6241/48008 [53:50<6:28:29,  1.79it/s] 13%|█▎        | 6242/48008 [53:50<6:21:14,  1.83it/s] 13%|█▎        | 6243/48008 [53:51<6:12:34,  1.87it/s] 13%|█▎        | 6244/48008 [53:51<5:47:03,  2.01it/s] 13%|█▎        | 6245/48008 [53:52<5:42:14,  2.03it/s] 13%|█▎        | 6246/48008 [53:52<5:44:34,  2.02it/s] 13%|█▎        | 6247/48008 [53:53<7:05:32,  1.64it/s] 13%|█▎        | 6248/48008 [53:54<7:18:03,  1.59it/s] 13%|█▎        | 6249/48008 [53:54<6:46:26,  1.71it/s] 13%|█▎        | 6250/48008 [53:55<6:29:06,  1.79it/s]                                                      {'loss': 4.3062, 'grad_norm': 0.7284589409828186, 'learning_rate': 0.00017396683886018998, 'epoch': 0.13}
 13%|█▎        | 6250/48008 [53:55<6:29:06,  1.79it/s] 13%|█▎        | 6251/48008 [53:55<6:13:23,  1.86it/s] 13%|█▎        | 6252/48008 [53:56<6:41:27,  1.73it/s] 13%|█▎        | 6253/48008 [53:56<6:21:11,  1.83it/s] 13%|█▎        | 6254/48008 [53:57<6:11:27,  1.87it/s] 13%|█▎        | 6255/48008 [53:57<5:46:24,  2.01it/s] 13%|█▎        | 6256/48008 [53:58<5:41:35,  2.04it/s] 13%|█▎        | 6257/48008 [53:59<8:20:11,  1.39it/s] 13%|█▎        | 6258/48008 [53:59<7:39:39,  1.51it/s] 13%|█▎        | 6259/48008 [54:00<7:01:14,  1.65it/s] 13%|█▎        | 6260/48008 [54:00<6:34:55,  1.76it/s] 13%|█▎        | 6261/48008 [54:01<6:22:04,  1.82it/s] 13%|█▎        | 6262/48008 [54:01<6:08:09,  1.89it/s] 13%|█▎        | 6263/48008 [54:02<6:03:26,  1.91it/s] 13%|█▎        | 6264/48008 [54:02<5:59:17,  1.94it/s] 13%|█▎        | 6265/48008 [54:03<5:38:28,  2.06it/s] 13%|█▎        | 6266/48008 [54:03<5:37:21,  2.06it/s] 13%|█▎        | 6267/48008 [54:04<5:44:02,  2.02it/s] 13%|█▎        | 6268/48008 [54:04<5:41:43,  2.04it/s] 13%|█▎        | 6269/48008 [54:05<5:40:43,  2.04it/s] 13%|█▎        | 6270/48008 [54:05<5:43:44,  2.02it/s] 13%|█▎        | 6271/48008 [54:06<6:20:44,  1.83it/s] 13%|█▎        | 6272/48008 [54:07<8:47:49,  1.32it/s] 13%|█▎        | 6273/48008 [54:08<9:12:22,  1.26it/s] 13%|█▎        | 6274/48008 [54:09<8:18:59,  1.39it/s] 13%|█▎        | 6275/48008 [54:09<7:29:07,  1.55it/s] 13%|█▎        | 6276/48008 [54:10<6:59:18,  1.66it/s] 13%|█▎        | 6277/48008 [54:10<6:32:48,  1.77it/s] 13%|█▎        | 6278/48008 [54:10<6:14:52,  1.86it/s] 13%|█▎        | 6279/48008 [54:11<6:02:05,  1.92it/s] 13%|█▎        | 6280/48008 [54:11<6:07:01,  1.89it/s] 13%|█▎        | 6281/48008 [54:12<5:57:11,  1.95it/s] 13%|█▎        | 6282/48008 [54:12<5:50:33,  1.98it/s] 13%|█▎        | 6283/48008 [54:13<5:50:16,  1.99it/s] 13%|█▎        | 6284/48008 [54:13<5:53:30,  1.97it/s] 13%|█▎        | 6285/48008 [54:14<5:59:09,  1.94it/s] 13%|█▎        | 6286/48008 [54:14<5:37:06,  2.06it/s] 13%|█▎        | 6287/48008 [54:15<5:41:32,  2.04it/s] 13%|█▎        | 6288/48008 [54:15<5:38:53,  2.05it/s] 13%|█▎        | 6289/48008 [54:16<5:46:03,  2.01it/s] 13%|█▎        | 6290/48008 [54:16<5:28:19,  2.12it/s] 13%|█▎        | 6291/48008 [54:17<5:30:18,  2.10it/s] 13%|█▎        | 6292/48008 [54:17<5:36:59,  2.06it/s] 13%|█▎        | 6293/48008 [54:18<5:35:02,  2.08it/s] 13%|█▎        | 6294/48008 [54:18<5:20:24,  2.17it/s] 13%|█▎        | 6295/48008 [54:19<5:23:58,  2.15it/s] 13%|█▎        | 6296/48008 [54:19<5:26:48,  2.13it/s] 13%|█▎        | 6297/48008 [54:20<5:28:00,  2.12it/s] 13%|█▎        | 6298/48008 [54:20<5:29:44,  2.11it/s] 13%|█▎        | 6299/48008 [54:21<5:31:01,  2.10it/s] 13%|█▎        | 6300/48008 [54:21<5:18:04,  2.19it/s]                                                      {'loss': 4.337, 'grad_norm': 0.746739387512207, 'learning_rate': 0.0001737585402432928, 'epoch': 0.13} 13%|█▎        | 6300/48008 [54:21<5:18:04,  2.19it/s]
 13%|█▎        | 6301/48008 [54:22<5:28:22,  2.12it/s] 13%|█▎        | 6302/48008 [54:22<5:37:58,  2.06it/s] 13%|█▎        | 6303/48008 [54:23<5:36:16,  2.07it/s] 13%|█▎        | 6304/48008 [54:23<5:35:45,  2.07it/s] 13%|█▎        | 6305/48008 [54:24<5:42:13,  2.03it/s] 13%|█▎        | 6306/48008 [54:24<5:40:17,  2.04it/s] 13%|█▎        | 6307/48008 [54:25<5:42:51,  2.03it/s] 13%|█▎        | 6308/48008 [54:25<5:25:49,  2.13it/s] 13%|█▎        | 6309/48008 [54:25<5:37:09,  2.06it/s] 13%|█▎        | 6310/48008 [54:26<5:36:18,  2.07it/s] 13%|█▎        | 6311/48008 [54:26<5:40:01,  2.04it/s] 13%|█▎        | 6312/48008 [54:27<5:37:52,  2.06it/s] 13%|█▎        | 6313/48008 [54:27<5:21:56,  2.16it/s] 13%|█▎        | 6314/48008 [54:28<5:25:38,  2.13it/s] 13%|█▎        | 6315/48008 [54:28<5:27:08,  2.12it/s] 13%|█▎        | 6316/48008 [54:29<5:34:19,  2.08it/s] 13%|█▎        | 6317/48008 [54:29<5:34:59,  2.07it/s] 13%|█▎        | 6318/48008 [54:30<5:46:08,  2.01it/s] 13%|█▎        | 6319/48008 [54:30<5:47:43,  2.00it/s] 13%|█▎        | 6320/48008 [54:31<5:43:58,  2.02it/s] 13%|█▎        | 6321/48008 [54:31<5:40:34,  2.04it/s] 13%|█▎        | 6322/48008 [54:32<5:43:04,  2.03it/s] 13%|█▎        | 6323/48008 [54:32<5:44:02,  2.02it/s] 13%|█▎        | 6324/48008 [54:33<5:39:55,  2.04it/s] 13%|█▎        | 6325/48008 [54:33<6:18:33,  1.84it/s] 13%|█▎        | 6326/48008 [54:34<6:05:46,  1.90it/s] 13%|█▎        | 6327/48008 [54:34<5:56:08,  1.95it/s] 13%|█▎        | 6328/48008 [54:35<5:53:53,  1.96it/s] 13%|█▎        | 6329/48008 [54:36<6:28:12,  1.79it/s] 13%|█▎        | 6330/48008 [54:36<6:11:09,  1.87it/s] 13%|█▎        | 6331/48008 [54:37<6:05:21,  1.90it/s] 13%|█▎        | 6332/48008 [54:37<5:59:56,  1.93it/s] 13%|█▎        | 6333/48008 [54:38<5:57:17,  1.94it/s] 13%|█▎        | 6334/48008 [54:38<5:55:35,  1.95it/s] 13%|█▎        | 6335/48008 [54:38<5:35:04,  2.07it/s] 13%|█▎        | 6336/48008 [54:39<5:34:55,  2.07it/s] 13%|█▎        | 6337/48008 [54:39<5:34:15,  2.08it/s] 13%|█▎        | 6338/48008 [54:40<5:34:35,  2.08it/s] 13%|█▎        | 6339/48008 [54:40<5:34:00,  2.08it/s] 13%|█▎        | 6340/48008 [54:41<5:35:08,  2.07it/s] 13%|█▎        | 6341/48008 [54:41<5:46:37,  2.00it/s] 13%|█▎        | 6342/48008 [54:42<5:50:37,  1.98it/s] 13%|█▎        | 6343/48008 [54:42<5:59:00,  1.93it/s] 13%|█▎        | 6344/48008 [54:43<5:52:01,  1.97it/s] 13%|█▎        | 6345/48008 [54:43<5:51:07,  1.98it/s] 13%|█▎        | 6346/48008 [54:44<5:45:36,  2.01it/s] 13%|█▎        | 6347/48008 [54:44<5:42:28,  2.03it/s] 13%|█▎        | 6348/48008 [54:45<5:40:45,  2.04it/s] 13%|█▎        | 6349/48008 [54:45<5:44:59,  2.01it/s] 13%|█▎        | 6350/48008 [54:46<5:52:55,  1.97it/s]                                                      {'loss': 4.3055, 'grad_norm': 0.6924847364425659, 'learning_rate': 0.0001735502416263956, 'epoch': 0.13}
 13%|█▎        | 6350/48008 [54:46<5:52:55,  1.97it/s] 13%|█▎        | 6351/48008 [54:46<5:46:29,  2.00it/s] 13%|█▎        | 6352/48008 [54:47<5:29:09,  2.11it/s] 13%|█▎        | 6353/48008 [54:47<5:15:58,  2.20it/s] 13%|█▎        | 6354/48008 [54:48<5:20:47,  2.16it/s] 13%|█▎        | 6355/48008 [54:48<5:23:32,  2.15it/s] 13%|█▎        | 6356/48008 [54:49<5:25:27,  2.13it/s] 13%|█▎        | 6357/48008 [54:49<5:31:31,  2.09it/s] 13%|█▎        | 6358/48008 [54:50<5:31:47,  2.09it/s] 13%|█▎        | 6359/48008 [54:50<5:31:40,  2.09it/s] 13%|█▎        | 6360/48008 [54:51<5:40:12,  2.04it/s] 13%|█▎        | 6361/48008 [54:51<5:38:05,  2.05it/s] 13%|█▎        | 6362/48008 [54:52<5:36:49,  2.06it/s] 13%|█▎        | 6363/48008 [54:52<5:40:19,  2.04it/s] 13%|█▎        | 6364/48008 [54:53<5:38:01,  2.05it/s] 13%|█▎        | 6365/48008 [54:53<6:16:03,  1.85it/s] 13%|█▎        | 6366/48008 [54:54<6:07:47,  1.89it/s] 13%|█▎        | 6367/48008 [54:54<5:58:40,  1.93it/s] 13%|█▎        | 6368/48008 [54:55<5:58:48,  1.93it/s] 13%|█▎        | 6369/48008 [54:55<5:52:34,  1.97it/s] 13%|█▎        | 6370/48008 [54:56<5:48:10,  1.99it/s] 13%|█▎        | 6371/48008 [54:56<5:48:05,  1.99it/s] 13%|█▎        | 6372/48008 [54:57<5:42:55,  2.02it/s] 13%|█▎        | 6373/48008 [54:57<5:44:49,  2.01it/s] 13%|█▎        | 6374/48008 [54:58<5:45:52,  2.01it/s] 13%|█▎        | 6375/48008 [54:58<5:42:01,  2.03it/s] 13%|█▎        | 6376/48008 [54:59<7:01:46,  1.65it/s] 13%|█▎        | 6377/48008 [55:00<6:21:28,  1.82it/s] 13%|█▎        | 6378/48008 [55:00<6:11:52,  1.87it/s] 13%|█▎        | 6379/48008 [55:00<6:00:05,  1.93it/s] 13%|█▎        | 6380/48008 [55:01<5:52:58,  1.97it/s] 13%|█▎        | 6381/48008 [55:01<5:51:11,  1.98it/s] 13%|█▎        | 6382/48008 [55:02<5:45:11,  2.01it/s] 13%|█▎        | 6383/48008 [55:02<5:42:07,  2.03it/s] 13%|█▎        | 6384/48008 [55:03<5:40:20,  2.04it/s] 13%|█▎        | 6385/48008 [55:03<5:42:02,  2.03it/s] 13%|█▎        | 6386/48008 [55:04<5:39:01,  2.05it/s] 13%|█▎        | 6387/48008 [55:04<5:37:30,  2.06it/s] 13%|█▎        | 6388/48008 [55:05<5:35:26,  2.07it/s] 13%|█▎        | 6389/48008 [55:05<5:34:38,  2.07it/s] 13%|█▎        | 6390/48008 [55:06<5:38:30,  2.05it/s] 13%|█▎        | 6391/48008 [55:06<5:40:40,  2.04it/s] 13%|█▎        | 6392/48008 [55:07<5:45:44,  2.01it/s] 13%|█▎        | 6393/48008 [55:07<5:42:05,  2.03it/s] 13%|█▎        | 6394/48008 [55:08<5:44:43,  2.01it/s] 13%|█▎        | 6395/48008 [55:08<5:27:50,  2.12it/s] 13%|█▎        | 6396/48008 [55:09<5:29:26,  2.11it/s] 13%|█▎        | 6397/48008 [55:09<5:16:19,  2.19it/s] 13%|█▎        | 6398/48008 [55:10<5:21:22,  2.16it/s] 13%|█▎        | 6399/48008 [55:10<5:25:47,  2.13it/s] 13%|█▎        | 6400/48008 [55:11<5:15:53,  2.20it/s]                                                      {'loss': 4.3015, 'grad_norm': 0.8522170186042786, 'learning_rate': 0.00017334194300949843, 'epoch': 0.13} 13%|█▎        | 6400/48008 [55:11<5:15:53,  2.20it/s]
 13%|█▎        | 6401/48008 [55:11<5:20:47,  2.16it/s] 13%|█▎        | 6402/48008 [55:12<6:46:05,  1.71it/s] 13%|█▎        | 6403/48008 [55:12<6:29:22,  1.78it/s] 13%|█▎        | 6404/48008 [55:13<6:12:11,  1.86it/s] 13%|█▎        | 6405/48008 [55:13<6:07:56,  1.88it/s] 13%|█▎        | 6406/48008 [55:14<5:44:09,  2.01it/s] 13%|█▎        | 6407/48008 [55:14<5:40:40,  2.04it/s] 13%|█▎        | 6408/48008 [55:15<5:50:38,  1.98it/s] 13%|█▎        | 6409/48008 [55:15<5:50:26,  1.98it/s] 13%|█▎        | 6410/48008 [55:16<5:52:21,  1.97it/s] 13%|█▎        | 6411/48008 [55:16<5:52:11,  1.97it/s] 13%|█▎        | 6412/48008 [55:17<5:47:02,  2.00it/s] 13%|█▎        | 6413/48008 [55:17<5:50:55,  1.98it/s] 13%|█▎        | 6414/48008 [55:18<7:07:00,  1.62it/s] 13%|█▎        | 6415/48008 [55:19<6:38:10,  1.74it/s] 13%|█▎        | 6416/48008 [55:19<6:18:03,  1.83it/s] 13%|█▎        | 6417/48008 [55:20<5:50:23,  1.98it/s] 13%|█▎        | 6418/48008 [55:20<5:31:47,  2.09it/s] 13%|█▎        | 6419/48008 [55:21<5:37:21,  2.05it/s] 13%|█▎        | 6420/48008 [55:21<5:43:49,  2.02it/s] 13%|█▎        | 6421/48008 [55:22<5:48:00,  1.99it/s] 13%|█▎        | 6422/48008 [55:22<5:43:02,  2.02it/s] 13%|█▎        | 6423/48008 [55:23<5:40:05,  2.04it/s] 13%|█▎        | 6424/48008 [55:23<5:46:36,  2.00it/s] 13%|█▎        | 6425/48008 [55:23<5:28:28,  2.11it/s] 13%|█▎        | 6426/48008 [55:25<8:10:17,  1.41it/s] 13%|█▎        | 6427/48008 [55:25<7:30:56,  1.54it/s] 13%|█▎        | 6428/48008 [55:26<6:55:17,  1.67it/s] 13%|█▎        | 6429/48008 [55:26<6:17:15,  1.84it/s] 13%|█▎        | 6430/48008 [55:27<5:49:46,  1.98it/s] 13%|█▎        | 6431/48008 [55:27<5:56:47,  1.94it/s] 13%|█▎        | 6432/48008 [55:28<7:46:43,  1.48it/s] 13%|█▎        | 6433/48008 [55:29<7:06:03,  1.63it/s] 13%|█▎        | 6434/48008 [55:29<6:42:57,  1.72it/s] 13%|█▎        | 6435/48008 [55:30<6:34:01,  1.76it/s] 13%|█▎        | 6436/48008 [55:30<6:19:44,  1.82it/s] 13%|█▎        | 6437/48008 [55:31<6:13:36,  1.85it/s] 13%|█▎        | 6438/48008 [55:31<6:01:12,  1.92it/s] 13%|█▎        | 6439/48008 [55:32<5:56:43,  1.94it/s] 13%|█▎        | 6440/48008 [55:32<6:00:55,  1.92it/s] 13%|█▎        | 6441/48008 [55:33<5:56:47,  1.94it/s] 13%|█▎        | 6442/48008 [55:33<5:54:24,  1.95it/s] 13%|█▎        | 6443/48008 [55:34<5:47:24,  1.99it/s] 13%|█▎        | 6444/48008 [55:34<5:43:29,  2.02it/s] 13%|█▎        | 6445/48008 [55:35<5:40:15,  2.04it/s] 13%|█▎        | 6446/48008 [55:35<6:17:24,  1.84it/s] 13%|█▎        | 6447/48008 [55:36<6:04:17,  1.90it/s] 13%|█▎        | 6448/48008 [55:36<5:41:29,  2.03it/s] 13%|█▎        | 6449/48008 [55:37<5:47:21,  1.99it/s] 13%|█▎        | 6450/48008 [55:37<5:29:03,  2.10it/s]                                                      {'loss': 4.2884, 'grad_norm': 0.9330224394798279, 'learning_rate': 0.00017313364439260125, 'epoch': 0.13}
 13%|█▎        | 6450/48008 [55:37<5:29:03,  2.10it/s] 13%|█▎        | 6451/48008 [55:38<5:35:56,  2.06it/s] 13%|█▎        | 6452/48008 [55:38<5:35:16,  2.07it/s] 13%|█▎        | 6453/48008 [55:39<5:34:44,  2.07it/s] 13%|█▎        | 6454/48008 [55:39<5:34:00,  2.07it/s] 13%|█▎        | 6455/48008 [55:40<8:13:56,  1.40it/s] 13%|█▎        | 6456/48008 [55:41<7:25:41,  1.55it/s] 13%|█▎        | 6457/48008 [55:41<6:51:31,  1.68it/s] 13%|█▎        | 6458/48008 [55:42<6:31:39,  1.77it/s] 13%|█▎        | 6459/48008 [55:42<6:19:25,  1.83it/s] 13%|█▎        | 6460/48008 [55:43<6:05:34,  1.89it/s] 13%|█▎        | 6461/48008 [55:43<6:00:13,  1.92it/s] 13%|█▎        | 6462/48008 [55:44<5:55:53,  1.95it/s] 13%|█▎        | 6463/48008 [55:44<5:47:54,  1.99it/s] 13%|█▎        | 6464/48008 [55:45<5:50:43,  1.97it/s] 13%|█▎        | 6465/48008 [55:45<5:44:48,  2.01it/s] 13%|█▎        | 6466/48008 [55:46<5:49:10,  1.98it/s] 13%|█▎        | 6467/48008 [55:46<5:44:33,  2.01it/s] 13%|█▎        | 6468/48008 [55:47<5:40:30,  2.03it/s] 13%|█▎        | 6469/48008 [55:47<5:42:45,  2.02it/s] 13%|█▎        | 6470/48008 [55:48<5:39:19,  2.04it/s] 13%|█▎        | 6471/48008 [55:48<5:36:55,  2.05it/s] 13%|█▎        | 6472/48008 [55:49<5:35:15,  2.06it/s] 13%|█▎        | 6473/48008 [55:49<5:34:03,  2.07it/s] 13%|█▎        | 6474/48008 [55:50<6:12:57,  1.86it/s] 13%|█▎        | 6475/48008 [55:50<6:07:52,  1.88it/s] 13%|█▎        | 6476/48008 [55:51<5:43:05,  2.02it/s] 13%|█▎        | 6477/48008 [55:51<5:44:11,  2.01it/s] 13%|█▎        | 6478/48008 [55:52<5:40:09,  2.03it/s] 13%|█▎        | 6479/48008 [55:52<5:42:35,  2.02it/s] 13%|█▎        | 6480/48008 [55:53<5:44:03,  2.01it/s] 13%|█▎        | 6481/48008 [55:53<5:40:12,  2.03it/s] 14%|█▎        | 6482/48008 [55:54<5:42:35,  2.02it/s] 14%|█▎        | 6483/48008 [55:54<5:44:10,  2.01it/s] 14%|█▎        | 6484/48008 [55:55<5:45:23,  2.00it/s] 14%|█▎        | 6485/48008 [55:55<5:40:39,  2.03it/s] 14%|█▎        | 6486/48008 [55:56<5:46:20,  2.00it/s] 14%|█▎        | 6487/48008 [55:56<5:41:42,  2.03it/s] 14%|█▎        | 6488/48008 [55:57<5:38:32,  2.04it/s] 14%|█▎        | 6489/48008 [55:57<5:36:06,  2.06it/s] 14%|█▎        | 6490/48008 [55:58<6:57:12,  1.66it/s] 14%|█▎        | 6491/48008 [55:58<6:18:10,  1.83it/s] 14%|█▎        | 6492/48008 [55:59<6:08:10,  1.88it/s] 14%|█▎        | 6493/48008 [55:59<6:01:15,  1.92it/s] 14%|█▎        | 6494/48008 [56:00<5:57:14,  1.94it/s] 14%|█▎        | 6495/48008 [56:00<5:53:29,  1.96it/s] 14%|█▎        | 6496/48008 [56:01<5:46:22,  2.00it/s] 14%|█▎        | 6497/48008 [56:01<5:28:44,  2.10it/s] 14%|█▎        | 6498/48008 [56:02<5:29:17,  2.10it/s] 14%|█▎        | 6499/48008 [56:02<5:34:28,  2.07it/s] 14%|█▎        | 6500/48008 [56:03<5:42:11,  2.02it/s]                                                      {'loss': 4.3345, 'grad_norm': 0.5547959208488464, 'learning_rate': 0.00017292534577570404, 'epoch': 0.14} 14%|█▎        | 6500/48008 [56:03<5:42:11,  2.02it/s]
 14%|█▎        | 6501/48008 [56:03<5:44:05,  2.01it/s] 14%|█▎        | 6502/48008 [56:04<5:45:18,  2.00it/s] 14%|█▎        | 6503/48008 [56:04<5:27:46,  2.11it/s] 14%|█▎        | 6504/48008 [56:05<5:14:46,  2.20it/s] 14%|█▎        | 6505/48008 [56:05<5:20:19,  2.16it/s] 14%|█▎        | 6506/48008 [56:06<5:23:37,  2.14it/s] 14%|█▎        | 6507/48008 [56:06<5:30:33,  2.09it/s] 14%|█▎        | 6508/48008 [56:07<6:10:45,  1.87it/s] 14%|█▎        | 6509/48008 [56:07<6:03:52,  1.90it/s] 14%|█▎        | 6510/48008 [56:08<6:02:22,  1.91it/s] 14%|█▎        | 6511/48008 [56:08<5:57:50,  1.93it/s] 14%|█▎        | 6512/48008 [56:09<5:55:33,  1.95it/s] 14%|█▎        | 6513/48008 [56:09<5:48:24,  1.99it/s] 14%|█▎        | 6514/48008 [56:10<5:29:50,  2.10it/s] 14%|█▎        | 6515/48008 [56:10<6:09:59,  1.87it/s] 14%|█▎        | 6516/48008 [56:11<5:58:14,  1.93it/s] 14%|█▎        | 6517/48008 [56:11<5:50:05,  1.98it/s] 14%|█▎        | 6518/48008 [56:13<8:23:48,  1.37it/s] 14%|█▎        | 6519/48008 [56:13<7:43:45,  1.49it/s] 14%|█▎        | 6520/48008 [56:14<7:04:38,  1.63it/s] 14%|█▎        | 6521/48008 [56:14<6:23:34,  1.80it/s] 14%|█▎        | 6522/48008 [56:14<6:07:59,  1.88it/s] 14%|█▎        | 6523/48008 [56:15<5:57:01,  1.94it/s] 14%|█▎        | 6524/48008 [56:15<5:49:40,  1.98it/s] 14%|█▎        | 6525/48008 [56:16<5:55:51,  1.94it/s] 14%|█▎        | 6526/48008 [56:16<5:52:40,  1.96it/s] 14%|█▎        | 6527/48008 [56:17<5:33:10,  2.08it/s] 14%|█▎        | 6528/48008 [56:17<5:33:07,  2.08it/s] 14%|█▎        | 6529/48008 [56:18<5:32:26,  2.08it/s] 14%|█▎        | 6530/48008 [56:18<5:18:43,  2.17it/s] 14%|█▎        | 6531/48008 [56:19<5:21:29,  2.15it/s] 14%|█▎        | 6532/48008 [56:19<5:24:04,  2.13it/s] 14%|█▎        | 6533/48008 [56:20<5:31:39,  2.08it/s] 14%|█▎        | 6534/48008 [56:20<5:39:34,  2.04it/s] 14%|█▎        | 6535/48008 [56:21<5:42:08,  2.02it/s] 14%|█▎        | 6536/48008 [56:21<5:43:03,  2.01it/s] 14%|█▎        | 6537/48008 [56:22<5:40:01,  2.03it/s] 14%|█▎        | 6538/48008 [56:22<5:44:55,  2.00it/s] 14%|█▎        | 6539/48008 [56:23<5:26:28,  2.12it/s] 14%|█▎        | 6540/48008 [56:23<5:27:32,  2.11it/s] 14%|█▎        | 6541/48008 [56:24<5:29:20,  2.10it/s] 14%|█▎        | 6542/48008 [56:24<5:15:51,  2.19it/s] 14%|█▎        | 6543/48008 [56:25<5:20:22,  2.16it/s] 14%|█▎        | 6544/48008 [56:25<5:28:18,  2.10it/s] 14%|█▎        | 6545/48008 [56:25<5:29:22,  2.10it/s] 14%|█▎        | 6546/48008 [56:26<5:34:25,  2.07it/s] 14%|█▎        | 6547/48008 [56:26<5:38:14,  2.04it/s] 14%|█▎        | 6548/48008 [56:27<5:36:25,  2.05it/s] 14%|█▎        | 6549/48008 [56:27<5:34:38,  2.06it/s] 14%|█▎        | 6550/48008 [56:28<5:33:47,  2.07it/s]                                                      {'loss': 4.3048, 'grad_norm': 0.4661966860294342, 'learning_rate': 0.00017271704715880688, 'epoch': 0.14}
 14%|█▎        | 6550/48008 [56:28<5:33:47,  2.07it/s] 14%|█▎        | 6551/48008 [56:29<6:12:42,  1.85it/s] 14%|█▎        | 6552/48008 [56:29<5:46:40,  1.99it/s] 14%|█▎        | 6553/48008 [56:29<5:41:53,  2.02it/s] 14%|█▎        | 6554/48008 [56:30<5:25:06,  2.13it/s] 14%|█▎        | 6555/48008 [56:30<5:26:11,  2.12it/s] 14%|█▎        | 6556/48008 [56:31<6:49:41,  1.69it/s] 14%|█▎        | 6557/48008 [56:32<6:33:51,  1.75it/s] 14%|█▎        | 6558/48008 [56:32<6:15:07,  1.84it/s] 14%|█▎        | 6559/48008 [56:33<6:01:29,  1.91it/s] 14%|█▎        | 6560/48008 [56:33<5:56:41,  1.94it/s] 14%|█▎        | 6561/48008 [56:34<5:58:58,  1.92it/s] 14%|█▎        | 6562/48008 [56:34<5:50:24,  1.97it/s] 14%|█▎        | 6563/48008 [56:35<5:59:54,  1.92it/s] 14%|█▎        | 6564/48008 [56:35<5:59:15,  1.92it/s] 14%|█▎        | 6565/48008 [56:36<7:12:00,  1.60it/s] 14%|█▎        | 6566/48008 [56:37<6:42:29,  1.72it/s] 14%|█▎        | 6567/48008 [56:37<6:20:22,  1.82it/s] 14%|█▎        | 6568/48008 [56:38<5:51:26,  1.97it/s] 14%|█▎        | 6569/48008 [56:38<5:45:22,  2.00it/s] 14%|█▎        | 6570/48008 [56:39<5:41:27,  2.02it/s] 14%|█▎        | 6571/48008 [56:39<5:38:50,  2.04it/s] 14%|█▎        | 6572/48008 [56:39<5:36:25,  2.05it/s] 14%|█▎        | 6573/48008 [56:40<5:34:56,  2.06it/s] 14%|█▎        | 6574/48008 [56:40<5:40:59,  2.03it/s] 14%|█▎        | 6575/48008 [56:41<5:38:30,  2.04it/s] 14%|█▎        | 6576/48008 [56:42<6:15:51,  1.84it/s] 14%|█▎        | 6577/48008 [56:42<6:06:26,  1.88it/s] 14%|█▎        | 6578/48008 [56:43<6:00:38,  1.91it/s] 14%|█▎        | 6579/48008 [56:43<5:38:29,  2.04it/s] 14%|█▎        | 6580/48008 [56:43<5:22:33,  2.14it/s] 14%|█▎        | 6581/48008 [56:44<6:04:36,  1.89it/s] 14%|█▎        | 6582/48008 [56:45<5:41:27,  2.02it/s] 14%|█▎        | 6583/48008 [56:45<5:38:42,  2.04it/s] 14%|█▎        | 6584/48008 [56:45<5:35:34,  2.06it/s] 14%|█▎        | 6585/48008 [56:46<5:33:59,  2.07it/s] 14%|█▎        | 6586/48008 [56:46<5:33:34,  2.07it/s] 14%|█▎        | 6587/48008 [56:47<5:33:12,  2.07it/s] 14%|█▎        | 6588/48008 [56:47<5:18:51,  2.16it/s] 14%|█▎        | 6589/48008 [56:48<6:02:05,  1.91it/s] 14%|█▎        | 6590/48008 [56:48<5:52:04,  1.96it/s] 14%|█▎        | 6591/48008 [56:49<5:45:30,  2.00it/s] 14%|█▎        | 6592/48008 [56:49<5:48:16,  1.98it/s] 14%|█▎        | 6593/48008 [56:50<5:43:15,  2.01it/s] 14%|█▎        | 6594/48008 [56:50<5:25:44,  2.12it/s] 14%|█▎        | 6595/48008 [56:51<5:26:48,  2.11it/s] 14%|█▎        | 6596/48008 [56:51<5:28:27,  2.10it/s] 14%|█▎        | 6597/48008 [56:52<5:28:35,  2.10it/s] 14%|█▎        | 6598/48008 [56:52<5:33:36,  2.07it/s] 14%|█▎        | 6599/48008 [56:53<5:32:41,  2.07it/s] 14%|█▎        | 6600/48008 [56:53<5:18:45,  2.17it/s]                                                      {'loss': 4.3455, 'grad_norm': 0.47045183181762695, 'learning_rate': 0.00017250874854190967, 'epoch': 0.14} 14%|█▎        | 6600/48008 [56:53<5:18:45,  2.17it/s]
 14%|█▎        | 6601/48008 [56:54<5:21:52,  2.14it/s] 14%|█▍        | 6602/48008 [56:54<5:10:14,  2.22it/s] 14%|█▍        | 6603/48008 [56:55<5:17:01,  2.18it/s] 14%|█▍        | 6604/48008 [56:56<8:00:13,  1.44it/s] 14%|█▍        | 6605/48008 [56:56<7:15:27,  1.58it/s] 14%|█▍        | 6606/48008 [56:57<6:30:01,  1.77it/s] 14%|█▍        | 6607/48008 [56:57<6:24:43,  1.79it/s] 14%|█▍        | 6608/48008 [56:58<5:54:54,  1.94it/s] 14%|█▍        | 6609/48008 [56:58<5:52:36,  1.96it/s] 14%|█▍        | 6610/48008 [56:59<5:54:23,  1.95it/s] 14%|█▍        | 6611/48008 [56:59<6:27:06,  1.78it/s] 14%|█▍        | 6612/48008 [57:00<6:10:30,  1.86it/s] 14%|█▍        | 6613/48008 [57:00<6:04:17,  1.89it/s] 14%|█▍        | 6614/48008 [57:01<5:53:58,  1.95it/s] 14%|█▍        | 6615/48008 [57:01<5:46:30,  1.99it/s] 14%|█▍        | 6616/48008 [57:02<5:41:38,  2.02it/s] 14%|█▍        | 6617/48008 [57:02<5:50:44,  1.97it/s] 14%|█▍        | 6618/48008 [57:03<5:52:09,  1.96it/s] 14%|█▍        | 6619/48008 [57:03<5:32:27,  2.07it/s] 14%|█▍        | 6620/48008 [57:04<5:36:02,  2.05it/s] 14%|█▍        | 6621/48008 [57:04<5:38:28,  2.04it/s] 14%|█▍        | 6622/48008 [57:05<5:36:40,  2.05it/s] 14%|█▍        | 6623/48008 [57:05<5:39:00,  2.03it/s] 14%|█▍        | 6624/48008 [57:06<6:16:04,  1.83it/s] 14%|█▍        | 6625/48008 [57:06<6:06:17,  1.88it/s] 14%|█▍        | 6626/48008 [57:07<5:56:15,  1.94it/s] 14%|█▍        | 6627/48008 [57:07<5:34:50,  2.06it/s] 14%|█▍        | 6628/48008 [57:08<5:33:23,  2.07it/s] 14%|█▍        | 6629/48008 [57:08<5:36:40,  2.05it/s] 14%|█▍        | 6630/48008 [57:09<5:40:13,  2.03it/s] 14%|█▍        | 6631/48008 [57:09<5:37:49,  2.04it/s] 14%|█▍        | 6632/48008 [57:10<5:34:55,  2.06it/s] 14%|█▍        | 6633/48008 [57:10<5:42:33,  2.01it/s] 14%|█▍        | 6634/48008 [57:11<5:38:59,  2.03it/s] 14%|█▍        | 6635/48008 [57:11<5:45:03,  2.00it/s] 14%|█▍        | 6636/48008 [57:13<8:20:12,  1.38it/s] 14%|█▍        | 6637/48008 [57:13<7:30:04,  1.53it/s] 14%|█▍        | 6638/48008 [57:13<6:54:08,  1.66it/s] 14%|█▍        | 6639/48008 [57:14<6:33:10,  1.75it/s] 14%|█▍        | 6640/48008 [57:14<6:13:46,  1.84it/s] 14%|█▍        | 6641/48008 [57:15<6:05:58,  1.88it/s] 14%|█▍        | 6642/48008 [57:15<5:59:19,  1.92it/s] 14%|█▍        | 6643/48008 [57:16<5:54:58,  1.94it/s] 14%|█▍        | 6644/48008 [57:16<5:51:41,  1.96it/s] 14%|█▍        | 6645/48008 [57:17<5:45:47,  1.99it/s] 14%|█▍        | 6646/48008 [57:18<6:22:22,  1.80it/s] 14%|█▍        | 6647/48008 [57:18<5:52:52,  1.95it/s] 14%|█▍        | 6648/48008 [57:19<5:46:32,  1.99it/s] 14%|█▍        | 6649/48008 [57:19<5:49:31,  1.97it/s] 14%|█▍        | 6650/48008 [57:20<5:55:31,  1.94it/s]                                                      {'loss': 4.3271, 'grad_norm': 0.5029091238975525, 'learning_rate': 0.00017230044992501252, 'epoch': 0.14}
 14%|█▍        | 6650/48008 [57:20<5:55:31,  1.94it/s] 14%|█▍        | 6651/48008 [57:20<5:53:36,  1.95it/s] 14%|█▍        | 6652/48008 [57:21<7:08:36,  1.61it/s] 14%|█▍        | 6653/48008 [57:21<6:43:34,  1.71it/s] 14%|█▍        | 6654/48008 [57:22<6:22:36,  1.80it/s] 14%|█▍        | 6655/48008 [57:22<6:12:24,  1.85it/s] 14%|█▍        | 6656/48008 [57:23<5:46:55,  1.99it/s] 14%|█▍        | 6657/48008 [57:23<5:41:14,  2.02it/s] 14%|█▍        | 6658/48008 [57:24<5:50:25,  1.97it/s] 14%|█▍        | 6659/48008 [57:24<5:49:16,  1.97it/s] 14%|█▍        | 6660/48008 [57:25<5:43:49,  2.00it/s] 14%|█▍        | 6661/48008 [57:25<5:39:55,  2.03it/s] 14%|█▍        | 6662/48008 [57:26<5:23:51,  2.13it/s] 14%|█▍        | 6663/48008 [57:27<6:49:14,  1.68it/s] 14%|█▍        | 6664/48008 [57:27<6:24:43,  1.79it/s] 14%|█▍        | 6665/48008 [57:28<6:09:07,  1.87it/s] 14%|█▍        | 6666/48008 [57:28<6:04:51,  1.89it/s] 14%|█▍        | 6667/48008 [57:29<5:55:23,  1.94it/s] 14%|█▍        | 6668/48008 [57:29<7:09:11,  1.61it/s] 14%|█▍        | 6669/48008 [57:30<6:39:24,  1.73it/s] 14%|█▍        | 6670/48008 [57:30<6:23:38,  1.80it/s] 14%|█▍        | 6671/48008 [57:31<6:07:45,  1.87it/s] 14%|█▍        | 6672/48008 [57:31<6:01:28,  1.91it/s] 14%|█▍        | 6673/48008 [57:32<5:52:29,  1.95it/s] 14%|█▍        | 6674/48008 [57:32<5:57:36,  1.93it/s] 14%|█▍        | 6675/48008 [57:33<5:54:39,  1.94it/s] 14%|█▍        | 6676/48008 [57:33<5:34:13,  2.06it/s] 14%|█▍        | 6677/48008 [57:34<5:34:09,  2.06it/s] 14%|█▍        | 6678/48008 [57:34<5:20:33,  2.15it/s] 14%|█▍        | 6679/48008 [57:35<5:30:49,  2.08it/s] 14%|█▍        | 6680/48008 [57:35<5:36:06,  2.05it/s] 14%|█▍        | 6681/48008 [57:36<5:20:58,  2.15it/s] 14%|█▍        | 6682/48008 [57:36<5:35:31,  2.05it/s] 14%|█▍        | 6683/48008 [57:37<5:38:28,  2.03it/s] 14%|█▍        | 6684/48008 [57:37<5:35:59,  2.05it/s] 14%|█▍        | 6685/48008 [57:38<5:20:12,  2.15it/s] 14%|█▍        | 6686/48008 [57:38<5:33:15,  2.07it/s] 14%|█▍        | 6687/48008 [57:39<5:37:50,  2.04it/s] 14%|█▍        | 6688/48008 [57:39<5:22:57,  2.13it/s] 14%|█▍        | 6689/48008 [57:40<5:25:25,  2.12it/s] 14%|█▍        | 6690/48008 [57:40<6:07:13,  1.88it/s] 14%|█▍        | 6691/48008 [57:41<5:43:29,  2.00it/s] 14%|█▍        | 6692/48008 [57:41<5:26:09,  2.11it/s] 14%|█▍        | 6693/48008 [57:42<5:27:56,  2.10it/s] 14%|█▍        | 6694/48008 [57:42<5:28:29,  2.10it/s] 14%|█▍        | 6695/48008 [57:43<5:29:00,  2.09it/s] 14%|█▍        | 6696/48008 [57:43<5:28:53,  2.09it/s] 14%|█▍        | 6697/48008 [57:43<5:29:32,  2.09it/s] 14%|█▍        | 6698/48008 [57:44<5:29:36,  2.09it/s] 14%|█▍        | 6699/48008 [57:45<8:07:52,  1.41it/s] 14%|█▍        | 6700/48008 [57:46<7:20:22,  1.56it/s]                                                      {'loss': 4.2946, 'grad_norm': 0.4503321349620819, 'learning_rate': 0.0001720921513081153, 'epoch': 0.14}
 14%|█▍        | 6700/48008 [57:46<7:20:22,  1.56it/s] 14%|█▍        | 6701/48008 [57:46<6:51:49,  1.67it/s] 14%|█▍        | 6702/48008 [57:47<6:31:38,  1.76it/s] 14%|█▍        | 6703/48008 [57:47<6:12:24,  1.85it/s] 14%|█▍        | 6704/48008 [57:48<6:11:51,  1.85it/s] 14%|█▍        | 6705/48008 [57:48<5:59:41,  1.91it/s] 14%|█▍        | 6706/48008 [57:49<5:50:44,  1.96it/s] 14%|█▍        | 6707/48008 [57:49<5:43:44,  2.00it/s] 14%|█▍        | 6708/48008 [57:50<5:44:12,  2.00it/s] 14%|█▍        | 6709/48008 [57:50<5:39:58,  2.02it/s] 14%|█▍        | 6710/48008 [57:51<8:15:39,  1.39it/s] 14%|█▍        | 6711/48008 [57:52<7:31:15,  1.53it/s] 14%|█▍        | 6712/48008 [57:52<6:54:48,  1.66it/s] 14%|█▍        | 6713/48008 [57:53<6:37:37,  1.73it/s] 14%|█▍        | 6714/48008 [57:53<6:17:46,  1.82it/s] 14%|█▍        | 6715/48008 [57:54<6:03:42,  1.89it/s] 14%|█▍        | 6716/48008 [57:54<5:54:09,  1.94it/s] 14%|█▍        | 6717/48008 [57:55<5:46:47,  1.98it/s] 14%|█▍        | 6718/48008 [57:55<5:42:27,  2.01it/s] 14%|█▍        | 6719/48008 [57:56<5:25:38,  2.11it/s] 14%|█▍        | 6720/48008 [57:56<5:26:51,  2.11it/s] 14%|█▍        | 6721/48008 [57:57<5:32:49,  2.07it/s] 14%|█▍        | 6722/48008 [57:57<5:31:45,  2.07it/s] 14%|█▍        | 6723/48008 [57:58<5:31:01,  2.08it/s] 14%|█▍        | 6724/48008 [57:58<5:17:07,  2.17it/s] 14%|█▍        | 6725/48008 [57:59<5:26:14,  2.11it/s] 14%|█▍        | 6726/48008 [57:59<5:26:49,  2.11it/s] 14%|█▍        | 6727/48008 [57:59<5:13:54,  2.19it/s] 14%|█▍        | 6728/48008 [58:00<5:19:29,  2.15it/s] 14%|█▍        | 6729/48008 [58:00<5:09:21,  2.22it/s] 14%|█▍        | 6730/48008 [58:01<5:14:52,  2.18it/s] 14%|█▍        | 6731/48008 [58:01<5:24:46,  2.12it/s] 14%|█▍        | 6732/48008 [58:02<5:25:54,  2.11it/s] 14%|█▍        | 6733/48008 [58:02<5:27:46,  2.10it/s] 14%|█▍        | 6734/48008 [58:03<5:33:13,  2.06it/s] 14%|█▍        | 6735/48008 [58:03<5:33:12,  2.06it/s] 14%|█▍        | 6736/48008 [58:04<5:31:19,  2.08it/s] 14%|█▍        | 6737/48008 [58:04<5:34:51,  2.05it/s] 14%|█▍        | 6738/48008 [58:05<5:19:25,  2.15it/s] 14%|█▍        | 6739/48008 [58:05<5:27:11,  2.10it/s] 14%|█▍        | 6740/48008 [58:06<5:28:38,  2.09it/s] 14%|█▍        | 6741/48008 [58:06<5:33:44,  2.06it/s] 14%|█▍        | 6742/48008 [58:07<5:40:23,  2.02it/s] 14%|█▍        | 6743/48008 [58:07<5:37:41,  2.04it/s] 14%|█▍        | 6744/48008 [58:08<5:43:27,  2.00it/s] 14%|█▍        | 6745/48008 [58:08<5:47:12,  1.98it/s] 14%|█▍        | 6746/48008 [58:09<5:42:15,  2.01it/s] 14%|█▍        | 6747/48008 [58:09<5:50:37,  1.96it/s] 14%|█▍        | 6748/48008 [58:10<5:44:53,  1.99it/s] 14%|█▍        | 6749/48008 [58:10<5:52:31,  1.95it/s] 14%|█▍        | 6750/48008 [58:11<5:44:49,  1.99it/s]                                                      {'loss': 4.2851, 'grad_norm': 0.33512943983078003, 'learning_rate': 0.00017188385269121815, 'epoch': 0.14}
 14%|█▍        | 6750/48008 [58:11<5:44:49,  1.99it/s] 14%|█▍        | 6751/48008 [58:11<5:26:30,  2.11it/s] 14%|█▍        | 6752/48008 [58:12<5:13:31,  2.19it/s] 14%|█▍        | 6753/48008 [58:12<5:18:53,  2.16it/s] 14%|█▍        | 6754/48008 [58:12<5:08:44,  2.23it/s] 14%|█▍        | 6755/48008 [58:13<5:02:06,  2.28it/s] 14%|█▍        | 6756/48008 [58:13<5:11:03,  2.21it/s] 14%|█▍        | 6757/48008 [58:14<5:25:12,  2.11it/s] 14%|█▍        | 6758/48008 [58:14<5:35:00,  2.05it/s] 14%|█▍        | 6759/48008 [58:15<5:41:14,  2.01it/s] 14%|█▍        | 6760/48008 [58:15<5:45:06,  1.99it/s] 14%|█▍        | 6761/48008 [58:16<5:48:26,  1.97it/s] 14%|█▍        | 6762/48008 [58:16<5:43:07,  2.00it/s] 14%|█▍        | 6763/48008 [58:17<5:39:06,  2.03it/s] 14%|█▍        | 6764/48008 [58:17<5:40:19,  2.02it/s] 14%|█▍        | 6765/48008 [58:18<5:41:59,  2.01it/s] 14%|█▍        | 6766/48008 [58:18<5:25:15,  2.11it/s] 14%|█▍        | 6767/48008 [58:19<5:26:34,  2.10it/s] 14%|█▍        | 6768/48008 [58:19<5:39:48,  2.02it/s] 14%|█▍        | 6769/48008 [58:20<5:36:22,  2.04it/s] 14%|█▍        | 6770/48008 [58:20<5:34:52,  2.05it/s] 14%|█▍        | 6771/48008 [58:21<5:33:41,  2.06it/s] 14%|█▍        | 6772/48008 [58:21<5:37:54,  2.03it/s] 14%|█▍        | 6773/48008 [58:22<5:35:57,  2.05it/s] 14%|█▍        | 6774/48008 [58:22<5:20:47,  2.14it/s] 14%|█▍        | 6775/48008 [58:23<5:27:27,  2.10it/s] 14%|█▍        | 6776/48008 [58:23<5:28:05,  2.09it/s] 14%|█▍        | 6777/48008 [58:24<5:27:41,  2.10it/s] 14%|█▍        | 6778/48008 [58:24<5:36:17,  2.04it/s] 14%|█▍        | 6779/48008 [58:25<5:33:10,  2.06it/s] 14%|█▍        | 6780/48008 [58:25<5:36:46,  2.04it/s] 14%|█▍        | 6781/48008 [58:26<5:46:18,  1.98it/s] 14%|█▍        | 6782/48008 [58:26<5:40:36,  2.02it/s] 14%|█▍        | 6783/48008 [58:27<5:38:13,  2.03it/s] 14%|█▍        | 6784/48008 [58:27<5:21:57,  2.13it/s] 14%|█▍        | 6785/48008 [58:27<5:23:57,  2.12it/s] 14%|█▍        | 6786/48008 [58:28<5:26:11,  2.11it/s] 14%|█▍        | 6787/48008 [58:28<5:13:34,  2.19it/s] 14%|█▍        | 6788/48008 [58:29<5:05:12,  2.25it/s] 14%|█▍        | 6789/48008 [58:29<5:12:47,  2.20it/s] 14%|█▍        | 6790/48008 [58:30<5:16:57,  2.17it/s] 14%|█▍        | 6791/48008 [58:30<5:20:21,  2.14it/s] 14%|█▍        | 6792/48008 [58:31<5:34:29,  2.05it/s] 14%|█▍        | 6793/48008 [58:31<5:45:13,  1.99it/s] 14%|█▍        | 6794/48008 [58:32<5:41:02,  2.01it/s] 14%|█▍        | 6795/48008 [58:32<5:24:38,  2.12it/s] 14%|█▍        | 6796/48008 [58:33<5:30:41,  2.08it/s] 14%|█▍        | 6797/48008 [58:33<5:30:00,  2.08it/s] 14%|█▍        | 6798/48008 [58:34<5:41:06,  2.01it/s] 14%|█▍        | 6799/48008 [58:34<5:24:26,  2.12it/s] 14%|█▍        | 6800/48008 [58:35<5:26:25,  2.10it/s]{'loss': 4.2704, 'grad_norm': 0.26018282771110535, 'learning_rate': 0.00017167555407432097, 'epoch': 0.14}                                                       14%|█▍        | 6800/48008 [58:35<5:26:25,  2.10it/s]
 14%|█▍        | 6801/48008 [58:35<5:27:23,  2.10it/s] 14%|█▍        | 6802/48008 [58:36<8:06:52,  1.41it/s] 14%|█▍        | 6803/48008 [58:37<7:20:29,  1.56it/s] 14%|█▍        | 6804/48008 [58:37<6:52:25,  1.67it/s] 14%|█▍        | 6805/48008 [58:38<6:31:24,  1.75it/s] 14%|█▍        | 6806/48008 [58:38<6:18:06,  1.82it/s] 14%|█▍        | 6807/48008 [58:39<6:07:28,  1.87it/s] 14%|█▍        | 6808/48008 [58:39<5:56:59,  1.92it/s] 14%|█▍        | 6809/48008 [58:40<5:48:30,  1.97it/s] 14%|█▍        | 6810/48008 [58:40<5:51:08,  1.96it/s] 14%|█▍        | 6811/48008 [58:41<6:24:20,  1.79it/s] 14%|█▍        | 6812/48008 [58:41<5:54:57,  1.93it/s] 14%|█▍        | 6813/48008 [58:42<5:48:21,  1.97it/s] 14%|█▍        | 6814/48008 [58:42<5:29:53,  2.08it/s] 14%|█▍        | 6815/48008 [58:43<5:34:08,  2.05it/s] 14%|█▍        | 6816/48008 [58:43<5:33:33,  2.06it/s] 14%|█▍        | 6817/48008 [58:44<5:33:12,  2.06it/s] 14%|█▍        | 6818/48008 [58:44<5:35:48,  2.04it/s] 14%|█▍        | 6819/48008 [58:45<5:37:50,  2.03it/s] 14%|█▍        | 6820/48008 [58:45<5:34:32,  2.05it/s] 14%|█▍        | 6821/48008 [58:46<5:37:42,  2.03it/s] 14%|█▍        | 6822/48008 [58:46<5:41:09,  2.01it/s] 14%|█▍        | 6823/48008 [58:47<5:23:28,  2.12it/s] 14%|█▍        | 6824/48008 [58:47<5:29:12,  2.08it/s] 14%|█▍        | 6825/48008 [58:48<5:28:25,  2.09it/s] 14%|█▍        | 6826/48008 [58:48<5:33:27,  2.06it/s] 14%|█▍        | 6827/48008 [58:49<5:32:47,  2.06it/s] 14%|█▍        | 6828/48008 [58:49<5:43:52,  2.00it/s] 14%|█▍        | 6829/48008 [58:50<5:52:26,  1.95it/s] 14%|█▍        | 6830/48008 [58:50<5:32:07,  2.07it/s] 14%|█▍        | 6831/48008 [58:51<5:31:02,  2.07it/s] 14%|█▍        | 6832/48008 [58:51<6:10:46,  1.85it/s] 14%|█▍        | 6833/48008 [58:52<5:57:52,  1.92it/s] 14%|█▍        | 6834/48008 [58:52<5:49:25,  1.96it/s] 14%|█▍        | 6835/48008 [58:53<5:43:53,  2.00it/s] 14%|█▍        | 6836/48008 [58:53<5:38:55,  2.02it/s] 14%|█▍        | 6837/48008 [58:54<5:40:47,  2.01it/s] 14%|█▍        | 6838/48008 [58:54<5:42:07,  2.01it/s] 14%|█▍        | 6839/48008 [58:55<5:38:39,  2.03it/s] 14%|█▍        | 6840/48008 [58:55<5:35:09,  2.05it/s] 14%|█▍        | 6841/48008 [58:56<5:34:20,  2.05it/s] 14%|█▍        | 6842/48008 [58:56<5:40:28,  2.02it/s] 14%|█▍        | 6843/48008 [58:57<5:37:22,  2.03it/s] 14%|█▍        | 6844/48008 [58:57<5:34:42,  2.05it/s] 14%|█▍        | 6845/48008 [58:58<5:32:33,  2.06it/s] 14%|█▍        | 6846/48008 [58:58<5:31:25,  2.07it/s] 14%|█▍        | 6847/48008 [58:59<5:30:33,  2.08it/s] 14%|█▍        | 6848/48008 [58:59<5:42:19,  2.00it/s] 14%|█▍        | 6849/48008 [59:00<5:37:15,  2.03it/s] 14%|█▍        | 6850/48008 [59:00<5:34:20,  2.05it/s]                                                      {'loss': 4.3205, 'grad_norm': 0.3162088394165039, 'learning_rate': 0.00017146725545742376, 'epoch': 0.14}
 14%|█▍        | 6850/48008 [59:00<5:34:20,  2.05it/s] 14%|█▍        | 6851/48008 [59:01<5:37:26,  2.03it/s] 14%|█▍        | 6852/48008 [59:01<5:34:04,  2.05it/s] 14%|█▍        | 6853/48008 [59:02<5:39:50,  2.02it/s] 14%|█▍        | 6854/48008 [59:02<6:58:55,  1.64it/s] 14%|█▍        | 6855/48008 [59:03<6:32:18,  1.75it/s] 14%|█▍        | 6856/48008 [59:03<6:12:37,  1.84it/s] 14%|█▍        | 6857/48008 [59:04<6:04:17,  1.88it/s] 14%|█▍        | 6858/48008 [59:04<5:52:52,  1.94it/s] 14%|█▍        | 6859/48008 [59:05<5:45:20,  1.99it/s] 14%|█▍        | 6860/48008 [59:05<5:39:52,  2.02it/s] 14%|█▍        | 6861/48008 [59:06<5:40:39,  2.01it/s] 14%|█▍        | 6862/48008 [59:06<5:36:16,  2.04it/s] 14%|█▍        | 6863/48008 [59:07<5:33:48,  2.05it/s] 14%|█▍        | 6864/48008 [59:07<5:36:42,  2.04it/s] 14%|█▍        | 6865/48008 [59:08<5:38:18,  2.03it/s] 14%|█▍        | 6866/48008 [59:08<5:35:12,  2.05it/s] 14%|█▍        | 6867/48008 [59:09<5:33:20,  2.06it/s] 14%|█▍        | 6868/48008 [59:09<5:36:05,  2.04it/s] 14%|█▍        | 6869/48008 [59:10<5:38:04,  2.03it/s] 14%|█▍        | 6870/48008 [59:10<5:40:22,  2.01it/s] 14%|█▍        | 6871/48008 [59:11<5:22:58,  2.12it/s] 14%|█▍        | 6872/48008 [59:11<5:28:40,  2.09it/s] 14%|█▍        | 6873/48008 [59:12<5:36:16,  2.04it/s] 14%|█▍        | 6874/48008 [59:12<5:33:55,  2.05it/s] 14%|█▍        | 6875/48008 [59:13<5:37:20,  2.03it/s] 14%|█▍        | 6876/48008 [59:13<5:34:39,  2.05it/s] 14%|█▍        | 6877/48008 [59:14<5:18:55,  2.15it/s] 14%|█▍        | 6878/48008 [59:14<5:21:46,  2.13it/s] 14%|█▍        | 6879/48008 [59:14<5:22:58,  2.12it/s] 14%|█▍        | 6880/48008 [59:15<5:24:49,  2.11it/s] 14%|█▍        | 6881/48008 [59:15<5:26:10,  2.10it/s] 14%|█▍        | 6882/48008 [59:16<5:25:49,  2.10it/s] 14%|█▍        | 6883/48008 [59:16<5:26:55,  2.10it/s] 14%|█▍        | 6884/48008 [59:17<5:27:29,  2.09it/s] 14%|█▍        | 6885/48008 [59:17<5:14:16,  2.18it/s] 14%|█▍        | 6886/48008 [59:18<5:05:15,  2.25it/s] 14%|█▍        | 6887/48008 [59:18<5:20:12,  2.14it/s] 14%|█▍        | 6888/48008 [59:19<5:21:48,  2.13it/s] 14%|█▍        | 6889/48008 [59:19<5:10:36,  2.21it/s] 14%|█▍        | 6890/48008 [59:20<5:21:23,  2.13it/s] 14%|█▍        | 6891/48008 [59:20<5:27:35,  2.09it/s] 14%|█▍        | 6892/48008 [59:21<5:39:08,  2.02it/s] 14%|█▍        | 6893/48008 [59:21<5:36:17,  2.04it/s] 14%|█▍        | 6894/48008 [59:22<5:45:21,  1.98it/s] 14%|█▍        | 6895/48008 [59:22<5:40:15,  2.01it/s] 14%|█▍        | 6896/48008 [59:23<5:37:13,  2.03it/s] 14%|█▍        | 6897/48008 [59:23<5:46:12,  1.98it/s] 14%|█▍        | 6898/48008 [59:24<5:45:43,  1.98it/s] 14%|█▍        | 6899/48008 [59:24<5:40:10,  2.01it/s] 14%|█▍        | 6900/48008 [59:25<5:41:27,  2.01it/s]                                                      {'loss': 4.2547, 'grad_norm': 0.2073950469493866, 'learning_rate': 0.0001712589568405266, 'epoch': 0.14} 14%|█▍        | 6900/48008 [59:25<5:41:27,  2.01it/s]
 14%|█▍        | 6901/48008 [59:25<5:37:15,  2.03it/s] 14%|█▍        | 6902/48008 [59:26<5:46:59,  1.97it/s] 14%|█▍        | 6903/48008 [59:26<5:21:02,  2.13it/s] 14%|█▍        | 6904/48008 [59:27<5:28:08,  2.09it/s] 14%|█▍        | 6905/48008 [59:27<5:33:00,  2.06it/s] 14%|█▍        | 6906/48008 [59:27<5:18:33,  2.15it/s] 14%|█▍        | 6907/48008 [59:28<5:21:24,  2.13it/s] 14%|█▍        | 6908/48008 [59:28<5:28:45,  2.08it/s] 14%|█▍        | 6909/48008 [59:29<5:15:21,  2.17it/s] 14%|█▍        | 6910/48008 [59:29<5:30:51,  2.07it/s] 14%|█▍        | 6911/48008 [59:30<5:09:27,  2.21it/s] 14%|█▍        | 6912/48008 [59:30<5:23:30,  2.12it/s] 14%|█▍        | 6913/48008 [59:31<5:24:49,  2.11it/s] 14%|█▍        | 6914/48008 [59:31<5:30:23,  2.07it/s] 14%|█▍        | 6915/48008 [59:32<5:34:46,  2.05it/s] 14%|█▍        | 6916/48008 [59:32<5:33:15,  2.06it/s] 14%|█▍        | 6917/48008 [59:33<5:18:19,  2.15it/s] 14%|█▍        | 6918/48008 [59:33<5:08:46,  2.22it/s] 14%|█▍        | 6919/48008 [59:34<5:20:18,  2.14it/s] 14%|█▍        | 6920/48008 [59:34<6:03:33,  1.88it/s] 14%|█▍        | 6921/48008 [59:35<5:57:38,  1.91it/s] 14%|█▍        | 6922/48008 [59:35<6:00:33,  1.90it/s] 14%|█▍        | 6923/48008 [59:36<5:56:11,  1.92it/s] 14%|█▍        | 6924/48008 [59:36<5:47:15,  1.97it/s] 14%|█▍        | 6925/48008 [59:37<5:28:38,  2.08it/s] 14%|█▍        | 6926/48008 [59:37<5:37:16,  2.03it/s] 14%|█▍        | 6927/48008 [59:38<5:38:58,  2.02it/s] 14%|█▍        | 6928/48008 [59:38<5:22:07,  2.13it/s] 14%|█▍        | 6929/48008 [59:39<5:29:50,  2.08it/s] 14%|█▍        | 6930/48008 [59:39<5:29:16,  2.08it/s] 14%|█▍        | 6931/48008 [59:40<5:33:49,  2.05it/s] 14%|█▍        | 6932/48008 [59:40<5:32:16,  2.06it/s] 14%|█▍        | 6933/48008 [59:41<6:10:17,  1.85it/s] 14%|█▍        | 6934/48008 [59:41<5:57:20,  1.92it/s] 14%|█▍        | 6935/48008 [59:42<5:48:29,  1.96it/s] 14%|█▍        | 6936/48008 [59:42<6:22:07,  1.79it/s] 14%|█▍        | 6937/48008 [59:43<6:05:25,  1.87it/s] 14%|█▍        | 6938/48008 [59:43<6:01:37,  1.89it/s] 14%|█▍        | 6939/48008 [59:44<5:38:10,  2.02it/s] 14%|█▍        | 6940/48008 [59:44<5:35:34,  2.04it/s] 14%|█▍        | 6941/48008 [59:45<5:37:22,  2.03it/s] 14%|█▍        | 6942/48008 [59:46<6:13:48,  1.83it/s] 14%|█▍        | 6943/48008 [59:46<6:00:29,  1.90it/s] 14%|█▍        | 6944/48008 [59:47<6:02:09,  1.89it/s] 14%|█▍        | 6945/48008 [59:47<5:52:10,  1.94it/s] 14%|█▍        | 6946/48008 [59:47<5:45:04,  1.98it/s] 14%|█▍        | 6947/48008 [59:48<5:39:17,  2.02it/s] 14%|█▍        | 6948/48008 [59:48<5:41:21,  2.00it/s] 14%|█▍        | 6949/48008 [59:49<5:45:55,  1.98it/s] 14%|█▍        | 6950/48008 [59:50<5:51:58,  1.94it/s]                                                      {'loss': 4.3238, 'grad_norm': 0.2178676873445511, 'learning_rate': 0.0001710506582236294, 'epoch': 0.14}
 14%|█▍        | 6950/48008 [59:50<5:51:58,  1.94it/s] 14%|█▍        | 6951/48008 [59:50<5:49:14,  1.96it/s] 14%|█▍        | 6952/48008 [59:51<5:46:59,  1.97it/s] 14%|█▍        | 6953/48008 [59:51<5:28:19,  2.08it/s] 14%|█▍        | 6954/48008 [59:51<5:33:17,  2.05it/s] 14%|█▍        | 6955/48008 [59:52<5:37:15,  2.03it/s] 14%|█▍        | 6956/48008 [59:52<5:46:46,  1.97it/s] 14%|█▍        | 6957/48008 [59:53<5:45:47,  1.98it/s] 14%|█▍        | 6958/48008 [59:53<5:45:10,  1.98it/s] 14%|█▍        | 6959/48008 [59:54<5:39:38,  2.01it/s] 14%|█▍        | 6960/48008 [59:54<5:43:43,  1.99it/s] 14%|█▍        | 6961/48008 [59:55<5:39:54,  2.01it/s] 15%|█▍        | 6962/48008 [59:55<5:40:29,  2.01it/s] 15%|█▍        | 6963/48008 [59:56<5:42:13,  2.00it/s] 15%|█▍        | 6964/48008 [59:57<5:49:27,  1.96it/s] 15%|█▍        | 6965/48008 [59:57<5:43:31,  1.99it/s] 15%|█▍        | 6966/48008 [59:57<5:39:06,  2.02it/s] 15%|█▍        | 6967/48008 [59:58<6:15:02,  1.82it/s] 15%|█▍        | 6968/48008 [59:59<6:05:06,  1.87it/s] 15%|█▍        | 6969/48008 [59:59<5:59:09,  1.90it/s] 15%|█▍        | 6970/48008 [1:00:00<5:55:05,  1.93it/s] 15%|█▍        | 6971/48008 [1:00:00<5:47:23,  1.97it/s] 15%|█▍        | 6972/48008 [1:00:01<5:41:32,  2.00it/s] 15%|█▍        | 6973/48008 [1:00:01<5:37:29,  2.03it/s] 15%|█▍        | 6974/48008 [1:00:02<5:43:57,  1.99it/s] 15%|█▍        | 6975/48008 [1:00:02<5:26:10,  2.10it/s] 15%|█▍        | 6976/48008 [1:00:03<5:35:52,  2.04it/s] 15%|█▍        | 6977/48008 [1:00:03<5:34:06,  2.05it/s] 15%|█▍        | 6978/48008 [1:00:04<5:40:11,  2.01it/s] 15%|█▍        | 6979/48008 [1:00:04<5:35:46,  2.04it/s] 15%|█▍        | 6980/48008 [1:00:04<5:19:46,  2.14it/s] 15%|█▍        | 6981/48008 [1:00:05<5:26:52,  2.09it/s] 15%|█▍        | 6982/48008 [1:00:05<5:27:06,  2.09it/s] 15%|█▍        | 6983/48008 [1:00:06<5:27:11,  2.09it/s] 15%|█▍        | 6984/48008 [1:00:06<5:32:06,  2.06it/s] 15%|█▍        | 6985/48008 [1:00:07<5:38:48,  2.02it/s] 15%|█▍        | 6986/48008 [1:00:08<8:12:41,  1.39it/s] 15%|█▍        | 6987/48008 [1:00:09<7:23:54,  1.54it/s] 15%|█▍        | 6988/48008 [1:00:09<6:49:28,  1.67it/s] 15%|█▍        | 6989/48008 [1:00:10<6:25:27,  1.77it/s] 15%|█▍        | 6990/48008 [1:00:10<6:12:51,  1.83it/s] 15%|█▍        | 6991/48008 [1:00:11<6:04:57,  1.87it/s] 15%|█▍        | 6992/48008 [1:00:11<5:59:25,  1.90it/s] 15%|█▍        | 6993/48008 [1:00:12<6:29:58,  1.75it/s] 15%|█▍        | 6994/48008 [1:00:12<6:10:29,  1.85it/s] 15%|█▍        | 6995/48008 [1:00:13<5:57:21,  1.91it/s] 15%|█▍        | 6996/48008 [1:00:13<5:35:35,  2.04it/s] 15%|█▍        | 6997/48008 [1:00:14<5:19:08,  2.14it/s] 15%|█▍        | 6998/48008 [1:00:14<5:26:37,  2.09it/s] 15%|█▍        | 6999/48008 [1:00:15<5:28:00,  2.08it/s] 15%|█▍        | 7000/48008 [1:00:15<5:27:58,  2.08it/s]                                                        {'loss': 4.2952, 'grad_norm': 0.2086927890777588, 'learning_rate': 0.00017084235960673224, 'epoch': 0.15}
 15%|█▍        | 7000/48008 [1:00:15<5:27:58,  2.08it/s] 15%|█▍        | 7001/48008 [1:00:15<5:14:41,  2.17it/s] 15%|█▍        | 7002/48008 [1:00:16<5:18:21,  2.15it/s] 15%|█▍        | 7003/48008 [1:00:16<5:28:28,  2.08it/s] 15%|█▍        | 7004/48008 [1:00:17<5:28:08,  2.08it/s] 15%|█▍        | 7005/48008 [1:00:17<5:28:06,  2.08it/s] 15%|█▍        | 7006/48008 [1:00:18<5:39:37,  2.01it/s] 15%|█▍        | 7007/48008 [1:00:18<5:22:08,  2.12it/s] 15%|█▍        | 7008/48008 [1:00:19<5:35:38,  2.04it/s] 15%|█▍        | 7009/48008 [1:00:19<5:45:00,  1.98it/s] 15%|█▍        | 7010/48008 [1:00:20<5:45:14,  1.98it/s] 15%|█▍        | 7011/48008 [1:00:20<5:26:09,  2.09it/s] 15%|█▍        | 7012/48008 [1:00:21<5:26:12,  2.09it/s] 15%|█▍        | 7013/48008 [1:00:21<5:31:15,  2.06it/s] 15%|█▍        | 7014/48008 [1:00:22<5:30:32,  2.07it/s] 15%|█▍        | 7015/48008 [1:00:22<5:33:39,  2.05it/s] 15%|█▍        | 7016/48008 [1:00:23<6:11:25,  1.84it/s] 15%|█▍        | 7017/48008 [1:00:24<6:10:47,  1.84it/s] 15%|█▍        | 7018/48008 [1:00:24<6:03:17,  1.88it/s] 15%|█▍        | 7019/48008 [1:00:25<6:04:14,  1.88it/s] 15%|█▍        | 7020/48008 [1:00:25<5:53:58,  1.93it/s] 15%|█▍        | 7021/48008 [1:00:26<5:54:09,  1.93it/s] 15%|█▍        | 7022/48008 [1:00:26<5:46:10,  1.97it/s] 15%|█▍        | 7023/48008 [1:00:26<5:26:18,  2.09it/s] 15%|█▍        | 7024/48008 [1:00:27<5:13:42,  2.18it/s] 15%|█▍        | 7025/48008 [1:00:27<5:17:40,  2.15it/s] 15%|█▍        | 7026/48008 [1:00:28<5:21:05,  2.13it/s] 15%|█▍        | 7027/48008 [1:00:28<5:31:24,  2.06it/s] 15%|█▍        | 7028/48008 [1:00:29<5:29:40,  2.07it/s] 15%|█▍        | 7029/48008 [1:00:29<5:36:55,  2.03it/s] 15%|█▍        | 7030/48008 [1:00:30<5:34:35,  2.04it/s] 15%|█▍        | 7031/48008 [1:00:30<5:32:41,  2.05it/s] 15%|█▍        | 7032/48008 [1:00:31<5:31:30,  2.06it/s] 15%|█▍        | 7033/48008 [1:00:32<6:50:40,  1.66it/s] 15%|█▍        | 7034/48008 [1:00:32<6:26:39,  1.77it/s] 15%|█▍        | 7035/48008 [1:00:33<6:09:28,  1.85it/s] 15%|█▍        | 7036/48008 [1:00:33<5:43:19,  1.99it/s] 15%|█▍        | 7037/48008 [1:00:34<5:39:05,  2.01it/s] 15%|█▍        | 7038/48008 [1:00:34<5:40:13,  2.01it/s] 15%|█▍        | 7039/48008 [1:00:35<5:38:10,  2.02it/s] 15%|█▍        | 7040/48008 [1:00:35<5:22:24,  2.12it/s] 15%|█▍        | 7041/48008 [1:00:35<5:03:43,  2.25it/s] 15%|█▍        | 7042/48008 [1:00:36<5:11:26,  2.19it/s] 15%|█▍        | 7043/48008 [1:00:36<5:02:44,  2.26it/s] 15%|█▍        | 7044/48008 [1:00:37<5:19:35,  2.14it/s] 15%|█▍        | 7045/48008 [1:00:37<5:22:47,  2.12it/s] 15%|█▍        | 7046/48008 [1:00:38<5:24:03,  2.11it/s] 15%|█▍        | 7047/48008 [1:00:38<5:29:54,  2.07it/s] 15%|█▍        | 7048/48008 [1:00:39<5:29:24,  2.07it/s] 15%|█▍        | 7049/48008 [1:00:39<5:29:28,  2.07it/s] 15%|█▍        | 7050/48008 [1:00:40<5:15:04,  2.17it/s]                                                        {'loss': 4.2833, 'grad_norm': 0.24701473116874695, 'learning_rate': 0.00017063406098983503, 'epoch': 0.15}
 15%|█▍        | 7050/48008 [1:00:40<5:15:04,  2.17it/s] 15%|█▍        | 7051/48008 [1:00:40<6:40:27,  1.70it/s] 15%|█▍        | 7052/48008 [1:00:41<6:05:04,  1.87it/s] 15%|█▍        | 7053/48008 [1:00:41<5:58:40,  1.90it/s] 15%|█▍        | 7054/48008 [1:00:42<6:00:52,  1.89it/s] 15%|█▍        | 7055/48008 [1:00:42<5:55:29,  1.92it/s] 15%|█▍        | 7056/48008 [1:00:43<5:51:51,  1.94it/s] 15%|█▍        | 7057/48008 [1:00:43<5:49:16,  1.95it/s] 15%|█▍        | 7058/48008 [1:00:44<5:42:52,  1.99it/s] 15%|█▍        | 7059/48008 [1:00:44<5:45:53,  1.97it/s] 15%|█▍        | 7060/48008 [1:00:45<5:47:31,  1.96it/s] 15%|█▍        | 7061/48008 [1:00:45<5:41:35,  2.00it/s] 15%|█▍        | 7062/48008 [1:00:46<6:18:14,  1.80it/s] 15%|█▍        | 7063/48008 [1:00:47<6:08:46,  1.85it/s] 15%|█▍        | 7064/48008 [1:00:47<5:43:05,  1.99it/s] 15%|█▍        | 7065/48008 [1:00:48<5:42:58,  1.99it/s] 15%|█▍        | 7066/48008 [1:00:48<5:38:09,  2.02it/s] 15%|█▍        | 7067/48008 [1:00:49<5:39:30,  2.01it/s] 15%|█▍        | 7068/48008 [1:00:49<5:22:40,  2.11it/s] 15%|█▍        | 7069/48008 [1:00:49<5:10:56,  2.19it/s] 15%|█▍        | 7070/48008 [1:00:50<6:37:08,  1.72it/s] 15%|█▍        | 7071/48008 [1:00:51<6:21:22,  1.79it/s] 15%|█▍        | 7072/48008 [1:00:51<6:09:56,  1.84it/s] 15%|█▍        | 7073/48008 [1:00:52<5:43:27,  1.99it/s] 15%|█▍        | 7074/48008 [1:00:53<6:59:54,  1.62it/s] 15%|█▍        | 7075/48008 [1:00:53<6:32:32,  1.74it/s] 15%|█▍        | 7076/48008 [1:00:54<6:20:43,  1.79it/s] 15%|█▍        | 7077/48008 [1:00:54<6:04:45,  1.87it/s] 15%|█▍        | 7078/48008 [1:00:54<5:53:33,  1.93it/s] 15%|█▍        | 7079/48008 [1:00:55<5:50:03,  1.95it/s] 15%|█▍        | 7080/48008 [1:00:55<5:43:17,  1.99it/s] 15%|█▍        | 7081/48008 [1:00:57<7:35:34,  1.50it/s] 15%|█▍        | 7082/48008 [1:00:57<7:01:34,  1.62it/s] 15%|█▍        | 7083/48008 [1:00:58<6:33:20,  1.73it/s] 15%|█▍        | 7084/48008 [1:00:58<6:13:42,  1.83it/s] 15%|█▍        | 7085/48008 [1:00:59<6:07:41,  1.85it/s] 15%|█▍        | 7086/48008 [1:00:59<6:00:11,  1.89it/s] 15%|█▍        | 7087/48008 [1:01:00<7:11:38,  1.58it/s] 15%|█▍        | 7088/48008 [1:01:00<6:52:36,  1.65it/s] 15%|█▍        | 7089/48008 [1:01:01<6:26:02,  1.77it/s] 15%|█▍        | 7090/48008 [1:01:01<6:20:34,  1.79it/s] 15%|█▍        | 7091/48008 [1:01:02<6:04:16,  1.87it/s] 15%|█▍        | 7092/48008 [1:01:02<5:39:50,  2.01it/s] 15%|█▍        | 7093/48008 [1:01:03<5:35:47,  2.03it/s] 15%|█▍        | 7094/48008 [1:01:03<5:32:44,  2.05it/s] 15%|█▍        | 7095/48008 [1:01:04<5:39:00,  2.01it/s] 15%|█▍        | 7096/48008 [1:01:04<5:40:17,  2.00it/s] 15%|█▍        | 7097/48008 [1:01:05<5:40:57,  2.00it/s] 15%|█▍        | 7098/48008 [1:01:05<5:36:16,  2.03it/s] 15%|█▍        | 7099/48008 [1:01:06<5:33:48,  2.04it/s] 15%|█▍        | 7100/48008 [1:01:06<5:31:52,  2.05it/s]                                                        {'loss': 4.2752, 'grad_norm': 0.20208367705345154, 'learning_rate': 0.00017042576237293785, 'epoch': 0.15} 15%|█▍        | 7100/48008 [1:01:06<5:31:52,  2.05it/s]
 15%|█▍        | 7101/48008 [1:01:07<6:51:02,  1.66it/s] 15%|█▍        | 7102/48008 [1:01:08<6:31:17,  1.74it/s] 15%|█▍        | 7103/48008 [1:01:08<6:16:27,  1.81it/s] 15%|█▍        | 7104/48008 [1:01:09<6:06:26,  1.86it/s] 15%|█▍        | 7105/48008 [1:01:09<5:54:05,  1.93it/s] 15%|█▍        | 7106/48008 [1:01:10<5:45:40,  1.97it/s] 15%|█▍        | 7107/48008 [1:01:10<5:39:54,  2.01it/s] 15%|█▍        | 7108/48008 [1:01:10<5:22:16,  2.12it/s] 15%|█▍        | 7109/48008 [1:01:11<5:23:56,  2.10it/s] 15%|█▍        | 7110/48008 [1:01:11<5:29:45,  2.07it/s] 15%|█▍        | 7111/48008 [1:01:12<5:28:51,  2.07it/s] 15%|█▍        | 7112/48008 [1:01:12<5:32:11,  2.05it/s] 15%|█▍        | 7113/48008 [1:01:13<5:30:15,  2.06it/s] 15%|█▍        | 7114/48008 [1:01:13<5:34:07,  2.04it/s] 15%|█▍        | 7115/48008 [1:01:14<5:37:27,  2.02it/s] 15%|█▍        | 7116/48008 [1:01:14<5:34:44,  2.04it/s] 15%|█▍        | 7117/48008 [1:01:15<5:37:29,  2.02it/s] 15%|█▍        | 7118/48008 [1:01:15<5:34:37,  2.04it/s] 15%|█▍        | 7119/48008 [1:01:16<5:43:23,  1.98it/s] 15%|█▍        | 7120/48008 [1:01:16<5:24:44,  2.10it/s] 15%|█▍        | 7121/48008 [1:01:17<5:30:06,  2.06it/s] 15%|█▍        | 7122/48008 [1:01:18<6:09:05,  1.85it/s] 15%|█▍        | 7123/48008 [1:01:18<6:35:19,  1.72it/s] 15%|█▍        | 7124/48008 [1:01:19<6:26:21,  1.76it/s] 15%|█▍        | 7125/48008 [1:01:19<6:13:58,  1.82it/s] 15%|█▍        | 7126/48008 [1:01:20<6:05:24,  1.86it/s] 15%|█▍        | 7127/48008 [1:01:20<6:32:42,  1.74it/s] 15%|█▍        | 7128/48008 [1:01:21<6:12:59,  1.83it/s] 15%|█▍        | 7129/48008 [1:01:21<6:07:04,  1.86it/s] 15%|█▍        | 7130/48008 [1:01:22<6:34:45,  1.73it/s] 15%|█▍        | 7131/48008 [1:01:23<6:01:08,  1.89it/s] 15%|█▍        | 7132/48008 [1:01:23<5:58:11,  1.90it/s] 15%|█▍        | 7133/48008 [1:01:23<5:35:30,  2.03it/s] 15%|█▍        | 7134/48008 [1:01:24<5:20:00,  2.13it/s] 15%|█▍        | 7135/48008 [1:01:24<5:34:05,  2.04it/s] 15%|█▍        | 7136/48008 [1:01:25<5:36:32,  2.02it/s] 15%|█▍        | 7137/48008 [1:01:25<5:41:08,  2.00it/s] 15%|█▍        | 7138/48008 [1:01:26<5:40:38,  2.00it/s] 15%|█▍        | 7139/48008 [1:01:26<5:43:56,  1.98it/s] 15%|█▍        | 7140/48008 [1:01:27<5:24:52,  2.10it/s] 15%|█▍        | 7141/48008 [1:01:27<5:30:46,  2.06it/s] 15%|█▍        | 7142/48008 [1:01:28<6:09:01,  1.85it/s] 15%|█▍        | 7143/48008 [1:01:30<9:43:47,  1.17it/s] 15%|█▍        | 7144/48008 [1:01:30<8:13:20,  1.38it/s] 15%|█▍        | 7145/48008 [1:01:31<7:28:33,  1.52it/s] 15%|█▍        | 7146/48008 [1:01:31<6:38:00,  1.71it/s] 15%|█▍        | 7147/48008 [1:01:31<6:20:39,  1.79it/s] 15%|█▍        | 7148/48008 [1:01:32<6:09:05,  1.85it/s] 15%|█▍        | 7149/48008 [1:01:33<9:03:46,  1.25it/s] 15%|█▍        | 7150/48008 [1:01:34<7:59:19,  1.42it/s]                                                        {'loss': 4.3323, 'grad_norm': 0.21247556805610657, 'learning_rate': 0.00017021746375604066, 'epoch': 0.15}
 15%|█▍        | 7150/48008 [1:01:34<7:59:19,  1.42it/s] 15%|█▍        | 7151/48008 [1:01:34<7:00:39,  1.62it/s] 15%|█▍        | 7152/48008 [1:01:35<6:46:03,  1.68it/s] 15%|█▍        | 7153/48008 [1:01:35<6:22:43,  1.78it/s] 15%|█▍        | 7154/48008 [1:01:36<5:52:31,  1.93it/s] 15%|█▍        | 7155/48008 [1:01:36<5:56:11,  1.91it/s] 15%|█▍        | 7156/48008 [1:01:37<5:52:25,  1.93it/s] 15%|█▍        | 7157/48008 [1:01:37<5:45:17,  1.97it/s] 15%|█▍        | 7158/48008 [1:01:38<5:44:11,  1.98it/s] 15%|█▍        | 7159/48008 [1:01:38<5:25:36,  2.09it/s] 15%|█▍        | 7160/48008 [1:01:39<5:34:57,  2.03it/s] 15%|█▍        | 7161/48008 [1:01:39<5:19:12,  2.13it/s] 15%|█▍        | 7162/48008 [1:01:39<5:08:22,  2.21it/s] 15%|█▍        | 7163/48008 [1:01:40<5:21:03,  2.12it/s] 15%|█▍        | 7164/48008 [1:01:40<5:09:32,  2.20it/s] 15%|█▍        | 7165/48008 [1:01:41<5:23:28,  2.10it/s] 15%|█▍        | 7166/48008 [1:01:41<5:10:47,  2.19it/s] 15%|█▍        | 7167/48008 [1:01:42<5:02:25,  2.25it/s] 15%|█▍        | 7168/48008 [1:01:42<4:56:31,  2.30it/s] 15%|█▍        | 7169/48008 [1:01:43<4:52:06,  2.33it/s] 15%|█▍        | 7170/48008 [1:01:43<5:07:02,  2.22it/s] 15%|█▍        | 7171/48008 [1:01:44<7:50:28,  1.45it/s] 15%|█▍        | 7172/48008 [1:01:45<7:06:14,  1.60it/s] 15%|█▍        | 7173/48008 [1:01:45<6:36:44,  1.72it/s] 15%|█▍        | 7174/48008 [1:01:46<6:20:24,  1.79it/s] 15%|█▍        | 7175/48008 [1:01:46<6:16:32,  1.81it/s] 15%|█▍        | 7176/48008 [1:01:47<6:02:04,  1.88it/s] 15%|█▍        | 7177/48008 [1:01:47<5:51:06,  1.94it/s] 15%|█▍        | 7178/48008 [1:01:48<5:51:23,  1.94it/s] 15%|█▍        | 7179/48008 [1:01:48<5:42:58,  1.98it/s] 15%|█▍        | 7180/48008 [1:01:49<5:37:34,  2.02it/s] 15%|█▍        | 7181/48008 [1:01:49<5:20:50,  2.12it/s] 15%|█▍        | 7182/48008 [1:01:50<6:43:25,  1.69it/s] 15%|█▍        | 7183/48008 [1:01:51<6:20:12,  1.79it/s] 15%|█▍        | 7184/48008 [1:01:51<6:08:39,  1.85it/s] 15%|█▍        | 7185/48008 [1:01:52<6:03:36,  1.87it/s] 15%|█▍        | 7186/48008 [1:01:52<5:52:16,  1.93it/s] 15%|█▍        | 7187/48008 [1:01:53<5:48:33,  1.95it/s] 15%|█▍        | 7188/48008 [1:01:53<5:42:05,  1.99it/s] 15%|█▍        | 7189/48008 [1:01:54<5:49:29,  1.95it/s] 15%|█▍        | 7190/48008 [1:01:54<5:41:32,  1.99it/s] 15%|█▍        | 7191/48008 [1:01:55<5:36:51,  2.02it/s] 15%|█▍        | 7192/48008 [1:01:55<5:33:25,  2.04it/s] 15%|█▍        | 7193/48008 [1:01:55<5:35:56,  2.02it/s] 15%|█▍        | 7194/48008 [1:01:56<5:32:32,  2.05it/s] 15%|█▍        | 7195/48008 [1:01:56<5:35:49,  2.03it/s] 15%|█▍        | 7196/48008 [1:01:57<5:37:30,  2.02it/s] 15%|█▍        | 7197/48008 [1:01:57<5:34:12,  2.04it/s] 15%|█▍        | 7198/48008 [1:01:58<5:36:43,  2.02it/s] 15%|█▍        | 7199/48008 [1:01:58<5:40:49,  2.00it/s] 15%|█▍        | 7200/48008 [1:01:59<5:48:43,  1.95it/s]                                                        {'loss': 4.2668, 'grad_norm': 0.2798674702644348, 'learning_rate': 0.00017000916513914348, 'epoch': 0.15}
 15%|█▍        | 7200/48008 [1:01:59<5:48:43,  1.95it/s] 15%|█▍        | 7201/48008 [1:01:59<5:28:31,  2.07it/s] 15%|█▌        | 7202/48008 [1:02:00<5:28:05,  2.07it/s] 15%|█▌        | 7203/48008 [1:02:00<5:27:47,  2.07it/s] 15%|█▌        | 7204/48008 [1:02:01<5:13:56,  2.17it/s] 15%|█▌        | 7205/48008 [1:02:01<5:25:58,  2.09it/s] 15%|█▌        | 7206/48008 [1:02:02<5:38:15,  2.01it/s] 15%|█▌        | 7207/48008 [1:02:02<5:35:05,  2.03it/s] 15%|█▌        | 7208/48008 [1:02:03<5:36:58,  2.02it/s] 15%|█▌        | 7209/48008 [1:02:04<6:12:41,  1.82it/s] 15%|█▌        | 7210/48008 [1:02:04<5:58:29,  1.90it/s] 15%|█▌        | 7211/48008 [1:02:05<6:01:22,  1.88it/s] 15%|█▌        | 7212/48008 [1:02:05<5:51:17,  1.94it/s] 15%|█▌        | 7213/48008 [1:02:06<5:52:02,  1.93it/s] 15%|█▌        | 7214/48008 [1:02:06<5:52:24,  1.93it/s] 15%|█▌        | 7215/48008 [1:02:07<5:43:49,  1.98it/s] 15%|█▌        | 7216/48008 [1:02:07<5:43:01,  1.98it/s] 15%|█▌        | 7217/48008 [1:02:08<5:37:46,  2.01it/s] 15%|█▌        | 7218/48008 [1:02:08<5:21:12,  2.12it/s] 15%|█▌        | 7219/48008 [1:02:08<5:30:34,  2.06it/s] 15%|█▌        | 7220/48008 [1:02:09<5:29:23,  2.06it/s] 15%|█▌        | 7221/48008 [1:02:09<5:27:22,  2.08it/s] 15%|█▌        | 7222/48008 [1:02:10<5:13:17,  2.17it/s] 15%|█▌        | 7223/48008 [1:02:10<5:17:15,  2.14it/s] 15%|█▌        | 7224/48008 [1:02:11<5:19:22,  2.13it/s] 15%|█▌        | 7225/48008 [1:02:11<5:08:41,  2.20it/s] 15%|█▌        | 7226/48008 [1:02:12<5:14:16,  2.16it/s] 15%|█▌        | 7227/48008 [1:02:12<5:22:26,  2.11it/s] 15%|█▌        | 7228/48008 [1:02:13<5:27:28,  2.08it/s] 15%|█▌        | 7229/48008 [1:02:13<5:32:27,  2.04it/s] 15%|█▌        | 7230/48008 [1:02:14<5:42:31,  1.98it/s] 15%|█▌        | 7231/48008 [1:02:14<5:37:42,  2.01it/s] 15%|█▌        | 7232/48008 [1:02:15<5:34:36,  2.03it/s] 15%|█▌        | 7233/48008 [1:02:15<5:32:25,  2.04it/s] 15%|█▌        | 7234/48008 [1:02:16<5:30:40,  2.06it/s] 15%|█▌        | 7235/48008 [1:02:16<5:33:49,  2.04it/s] 15%|█▌        | 7236/48008 [1:02:17<5:30:40,  2.05it/s] 15%|█▌        | 7237/48008 [1:02:18<8:06:44,  1.40it/s] 15%|█▌        | 7238/48008 [1:02:18<7:18:06,  1.55it/s] 15%|█▌        | 7239/48008 [1:02:19<6:43:56,  1.68it/s] 15%|█▌        | 7240/48008 [1:02:19<6:07:31,  1.85it/s] 15%|█▌        | 7241/48008 [1:02:20<6:02:24,  1.87it/s] 15%|█▌        | 7242/48008 [1:02:20<5:51:42,  1.93it/s] 15%|█▌        | 7243/48008 [1:02:21<5:30:49,  2.05it/s] 15%|█▌        | 7244/48008 [1:02:21<5:30:11,  2.06it/s] 15%|█▌        | 7245/48008 [1:02:22<5:37:11,  2.01it/s] 15%|█▌        | 7246/48008 [1:02:22<6:12:43,  1.82it/s] 15%|█▌        | 7247/48008 [1:02:23<6:10:42,  1.83it/s] 15%|█▌        | 7248/48008 [1:02:23<5:57:21,  1.90it/s] 15%|█▌        | 7249/48008 [1:02:24<5:48:18,  1.95it/s] 15%|█▌        | 7250/48008 [1:02:24<5:41:31,  1.99it/s]                                                        {'loss': 4.2301, 'grad_norm': 0.2613806426525116, 'learning_rate': 0.0001698008665222463, 'epoch': 0.15}
 15%|█▌        | 7250/48008 [1:02:24<5:41:31,  1.99it/s] 15%|█▌        | 7251/48008 [1:02:25<5:41:37,  1.99it/s] 15%|█▌        | 7252/48008 [1:02:25<5:23:28,  2.10it/s] 15%|█▌        | 7253/48008 [1:02:26<5:24:15,  2.09it/s] 15%|█▌        | 7254/48008 [1:02:26<5:31:52,  2.05it/s] 15%|█▌        | 7255/48008 [1:02:27<5:16:59,  2.14it/s] 15%|█▌        | 7256/48008 [1:02:27<5:20:06,  2.12it/s] 15%|█▌        | 7257/48008 [1:02:28<5:26:31,  2.08it/s] 15%|█▌        | 7258/48008 [1:02:28<6:06:03,  1.86it/s] 15%|█▌        | 7259/48008 [1:02:29<5:53:39,  1.92it/s] 15%|█▌        | 7260/48008 [1:02:29<5:44:54,  1.97it/s] 15%|█▌        | 7261/48008 [1:02:30<5:39:39,  2.00it/s] 15%|█▌        | 7262/48008 [1:02:30<5:35:32,  2.02it/s] 15%|█▌        | 7263/48008 [1:02:31<5:32:24,  2.04it/s] 15%|█▌        | 7264/48008 [1:02:31<5:38:53,  2.00it/s] 15%|█▌        | 7265/48008 [1:02:32<5:21:52,  2.11it/s] 15%|█▌        | 7266/48008 [1:02:32<5:27:09,  2.08it/s] 15%|█▌        | 7267/48008 [1:02:33<5:31:11,  2.05it/s] 15%|█▌        | 7268/48008 [1:02:33<5:29:04,  2.06it/s] 15%|█▌        | 7269/48008 [1:02:34<5:28:30,  2.07it/s] 15%|█▌        | 7270/48008 [1:02:34<5:14:18,  2.16it/s] 15%|█▌        | 7271/48008 [1:02:35<5:29:43,  2.06it/s] 15%|█▌        | 7272/48008 [1:02:35<5:34:00,  2.03it/s] 15%|█▌        | 7273/48008 [1:02:35<5:18:08,  2.13it/s] 15%|█▌        | 7274/48008 [1:02:36<5:20:50,  2.12it/s] 15%|█▌        | 7275/48008 [1:02:36<5:22:21,  2.11it/s] 15%|█▌        | 7276/48008 [1:02:37<5:27:31,  2.07it/s] 15%|█▌        | 7277/48008 [1:02:37<5:32:21,  2.04it/s] 15%|█▌        | 7278/48008 [1:02:38<5:34:09,  2.03it/s] 15%|█▌        | 7279/48008 [1:02:38<5:39:28,  2.00it/s] 15%|█▌        | 7280/48008 [1:02:39<5:46:54,  1.96it/s] 15%|█▌        | 7281/48008 [1:02:39<5:41:27,  1.99it/s] 15%|█▌        | 7282/48008 [1:02:40<5:35:45,  2.02it/s] 15%|█▌        | 7283/48008 [1:02:40<5:33:10,  2.04it/s] 15%|█▌        | 7284/48008 [1:02:41<5:30:51,  2.05it/s] 15%|█▌        | 7285/48008 [1:02:41<5:33:29,  2.04it/s] 15%|█▌        | 7286/48008 [1:02:42<5:30:39,  2.05it/s] 15%|█▌        | 7287/48008 [1:02:43<6:07:57,  1.84it/s] 15%|█▌        | 7288/48008 [1:02:43<5:55:16,  1.91it/s] 15%|█▌        | 7289/48008 [1:02:43<5:32:33,  2.04it/s] 15%|█▌        | 7290/48008 [1:02:44<5:30:27,  2.05it/s] 15%|█▌        | 7291/48008 [1:02:44<5:15:32,  2.15it/s] 15%|█▌        | 7292/48008 [1:02:45<5:05:25,  2.22it/s] 15%|█▌        | 7293/48008 [1:02:45<5:11:41,  2.18it/s] 15%|█▌        | 7294/48008 [1:02:46<5:03:07,  2.24it/s] 15%|█▌        | 7295/48008 [1:02:46<5:09:33,  2.19it/s] 15%|█▌        | 7296/48008 [1:02:47<5:14:01,  2.16it/s] 15%|█▌        | 7297/48008 [1:02:47<5:22:14,  2.11it/s] 15%|█▌        | 7298/48008 [1:02:48<5:23:45,  2.10it/s] 15%|█▌        | 7299/48008 [1:02:48<6:44:47,  1.68it/s] 15%|█▌        | 7300/48008 [1:02:50<8:58:05,  1.26it/s]                                                        {'loss': 4.3005, 'grad_norm': 0.3058006763458252, 'learning_rate': 0.00016959256790534912, 'epoch': 0.15} 15%|█▌        | 7300/48008 [1:02:50<8:58:05,  1.26it/s]
 15%|█▌        | 7301/48008 [1:02:50<7:54:13,  1.43it/s] 15%|█▌        | 7302/48008 [1:02:51<7:13:48,  1.56it/s] 15%|█▌        | 7303/48008 [1:02:51<6:47:32,  1.66it/s] 15%|█▌        | 7304/48008 [1:02:52<6:27:40,  1.75it/s] 15%|█▌        | 7305/48008 [1:02:52<6:16:15,  1.80it/s] 15%|█▌        | 7306/48008 [1:02:53<6:00:44,  1.88it/s] 15%|█▌        | 7307/48008 [1:02:53<5:57:14,  1.90it/s] 15%|█▌        | 7308/48008 [1:02:54<5:52:44,  1.92it/s] 15%|█▌        | 7309/48008 [1:02:54<6:23:24,  1.77it/s] 15%|█▌        | 7310/48008 [1:02:55<6:06:03,  1.85it/s] 15%|█▌        | 7311/48008 [1:02:55<5:58:27,  1.89it/s] 15%|█▌        | 7312/48008 [1:02:56<6:00:04,  1.88it/s] 15%|█▌        | 7313/48008 [1:02:56<5:50:00,  1.94it/s] 15%|█▌        | 7314/48008 [1:02:57<5:47:19,  1.95it/s] 15%|█▌        | 7315/48008 [1:02:57<5:26:34,  2.08it/s] 15%|█▌        | 7316/48008 [1:02:58<5:11:54,  2.17it/s] 15%|█▌        | 7317/48008 [1:02:58<5:16:30,  2.14it/s] 15%|█▌        | 7318/48008 [1:02:59<5:23:37,  2.10it/s] 15%|█▌        | 7319/48008 [1:02:59<5:29:13,  2.06it/s] 15%|█▌        | 7320/48008 [1:03:00<5:14:34,  2.16it/s] 15%|█▌        | 7321/48008 [1:03:00<5:17:14,  2.14it/s] 15%|█▌        | 7322/48008 [1:03:01<5:19:03,  2.13it/s] 15%|█▌        | 7323/48008 [1:03:01<5:29:00,  2.06it/s] 15%|█▌        | 7324/48008 [1:03:02<5:32:04,  2.04it/s] 15%|█▌        | 7325/48008 [1:03:02<5:29:51,  2.06it/s] 15%|█▌        | 7326/48008 [1:03:03<5:28:31,  2.06it/s] 15%|█▌        | 7327/48008 [1:03:03<5:14:21,  2.16it/s] 15%|█▌        | 7328/48008 [1:03:03<5:22:16,  2.10it/s] 15%|█▌        | 7329/48008 [1:03:04<5:09:40,  2.19it/s] 15%|█▌        | 7330/48008 [1:03:04<5:13:54,  2.16it/s] 15%|█▌        | 7331/48008 [1:03:05<5:21:36,  2.11it/s] 15%|█▌        | 7332/48008 [1:03:05<5:34:19,  2.03it/s] 15%|█▌        | 7333/48008 [1:03:06<5:36:16,  2.02it/s] 15%|█▌        | 7334/48008 [1:03:06<5:41:05,  1.99it/s] 15%|█▌        | 7335/48008 [1:03:07<5:36:17,  2.02it/s] 15%|█▌        | 7336/48008 [1:03:07<5:32:37,  2.04it/s] 15%|█▌        | 7337/48008 [1:03:08<5:31:01,  2.05it/s] 15%|█▌        | 7338/48008 [1:03:08<5:28:43,  2.06it/s] 15%|█▌        | 7339/48008 [1:03:09<5:32:33,  2.04it/s] 15%|█▌        | 7340/48008 [1:03:09<5:16:49,  2.14it/s] 15%|█▌        | 7341/48008 [1:03:10<5:06:08,  2.21it/s] 15%|█▌        | 7342/48008 [1:03:10<5:11:37,  2.17it/s] 15%|█▌        | 7343/48008 [1:03:11<5:15:34,  2.15it/s] 15%|█▌        | 7344/48008 [1:03:11<5:26:18,  2.08it/s] 15%|█▌        | 7345/48008 [1:03:12<5:31:02,  2.05it/s] 15%|█▌        | 7346/48008 [1:03:13<6:49:48,  1.65it/s] 15%|█▌        | 7347/48008 [1:03:13<6:23:53,  1.77it/s] 15%|█▌        | 7348/48008 [1:03:14<6:11:06,  1.83it/s] 15%|█▌        | 7349/48008 [1:03:14<5:44:16,  1.97it/s] 15%|█▌        | 7350/48008 [1:03:14<5:42:20,  1.98it/s]                                                        {'loss': 4.2518, 'grad_norm': 0.49224188923835754, 'learning_rate': 0.00016938426928845193, 'epoch': 0.15}
 15%|█▌        | 7350/48008 [1:03:14<5:42:20,  1.98it/s] 15%|█▌        | 7351/48008 [1:03:15<5:36:30,  2.01it/s] 15%|█▌        | 7352/48008 [1:03:16<6:52:55,  1.64it/s] 15%|█▌        | 7353/48008 [1:03:16<6:12:48,  1.82it/s] 15%|█▌        | 7354/48008 [1:03:17<6:37:53,  1.70it/s] 15%|█▌        | 7355/48008 [1:03:17<6:15:06,  1.81it/s] 15%|█▌        | 7356/48008 [1:03:18<6:07:47,  1.84it/s] 15%|█▌        | 7357/48008 [1:03:19<8:30:40,  1.33it/s] 15%|█▌        | 7358/48008 [1:03:20<7:39:34,  1.47it/s] 15%|█▌        | 7359/48008 [1:03:20<6:46:15,  1.67it/s] 15%|█▌        | 7360/48008 [1:03:21<6:21:55,  1.77it/s] 15%|█▌        | 7361/48008 [1:03:21<6:04:53,  1.86it/s] 15%|█▌        | 7362/48008 [1:03:22<6:32:21,  1.73it/s] 15%|█▌        | 7363/48008 [1:03:22<6:11:59,  1.82it/s] 15%|█▌        | 7364/48008 [1:03:23<5:57:33,  1.89it/s] 15%|█▌        | 7365/48008 [1:03:23<6:26:40,  1.75it/s] 15%|█▌        | 7366/48008 [1:03:24<6:19:46,  1.78it/s] 15%|█▌        | 7367/48008 [1:03:24<6:06:56,  1.85it/s] 15%|█▌        | 7368/48008 [1:03:25<5:41:13,  1.98it/s] 15%|█▌        | 7369/48008 [1:03:25<5:35:57,  2.02it/s] 15%|█▌        | 7370/48008 [1:03:26<5:37:44,  2.01it/s] 15%|█▌        | 7371/48008 [1:03:26<5:44:55,  1.96it/s] 15%|█▌        | 7372/48008 [1:03:27<5:25:23,  2.08it/s] 15%|█▌        | 7373/48008 [1:03:27<5:37:11,  2.01it/s] 15%|█▌        | 7374/48008 [1:03:28<5:38:10,  2.00it/s] 15%|█▌        | 7375/48008 [1:03:28<5:34:17,  2.03it/s] 15%|█▌        | 7376/48008 [1:03:29<5:36:54,  2.01it/s] 15%|█▌        | 7377/48008 [1:03:29<5:37:59,  2.00it/s] 15%|█▌        | 7378/48008 [1:03:30<5:33:32,  2.03it/s] 15%|█▌        | 7379/48008 [1:03:30<5:35:02,  2.02it/s] 15%|█▌        | 7380/48008 [1:03:31<5:32:18,  2.04it/s] 15%|█▌        | 7381/48008 [1:03:31<5:35:09,  2.02it/s] 15%|█▌        | 7382/48008 [1:03:32<5:44:16,  1.97it/s] 15%|█▌        | 7383/48008 [1:03:32<5:37:32,  2.01it/s] 15%|█▌        | 7384/48008 [1:03:33<5:33:46,  2.03it/s] 15%|█▌        | 7385/48008 [1:03:33<5:39:37,  1.99it/s] 15%|█▌        | 7386/48008 [1:03:34<5:42:16,  1.98it/s] 15%|█▌        | 7387/48008 [1:03:34<5:38:00,  2.00it/s] 15%|█▌        | 7388/48008 [1:03:35<5:20:06,  2.11it/s] 15%|█▌        | 7389/48008 [1:03:35<5:21:24,  2.11it/s] 15%|█▌        | 7390/48008 [1:03:36<5:26:43,  2.07it/s] 15%|█▌        | 7391/48008 [1:03:36<5:26:16,  2.07it/s] 15%|█▌        | 7392/48008 [1:03:37<5:25:12,  2.08it/s] 15%|█▌        | 7393/48008 [1:03:37<5:32:14,  2.04it/s] 15%|█▌        | 7394/48008 [1:03:37<5:16:40,  2.14it/s] 15%|█▌        | 7395/48008 [1:03:38<5:05:43,  2.21it/s] 15%|█▌        | 7396/48008 [1:03:38<4:58:19,  2.27it/s] 15%|█▌        | 7397/48008 [1:03:39<4:52:35,  2.31it/s] 15%|█▌        | 7398/48008 [1:03:39<5:14:44,  2.15it/s] 15%|█▌        | 7399/48008 [1:03:40<5:21:49,  2.10it/s] 15%|█▌        | 7400/48008 [1:03:40<5:23:08,  2.09it/s]                                                         15%|█▌        | 7400/48008 [1:03:40<5:23:08,  2.09it/s]{'loss': 4.293, 'grad_norm': 0.42433878779411316, 'learning_rate': 0.00016917597067155475, 'epoch': 0.15}
 15%|█▌        | 7401/48008 [1:03:41<5:11:07,  2.18it/s] 15%|█▌        | 7402/48008 [1:03:41<5:15:23,  2.15it/s] 15%|█▌        | 7403/48008 [1:03:42<5:17:54,  2.13it/s] 15%|█▌        | 7404/48008 [1:03:42<5:19:40,  2.12it/s] 15%|█▌        | 7405/48008 [1:03:43<5:59:54,  1.88it/s] 15%|█▌        | 7406/48008 [1:03:43<5:48:41,  1.94it/s] 15%|█▌        | 7407/48008 [1:03:44<5:41:07,  1.98it/s] 15%|█▌        | 7408/48008 [1:03:44<5:48:10,  1.94it/s] 15%|█▌        | 7409/48008 [1:03:45<5:41:08,  1.98it/s] 15%|█▌        | 7410/48008 [1:03:45<5:36:26,  2.01it/s] 15%|█▌        | 7411/48008 [1:03:46<5:43:53,  1.97it/s] 15%|█▌        | 7412/48008 [1:03:46<5:25:01,  2.08it/s] 15%|█▌        | 7413/48008 [1:03:47<5:24:37,  2.08it/s] 15%|█▌        | 7414/48008 [1:03:47<5:11:09,  2.17it/s] 15%|█▌        | 7415/48008 [1:03:48<6:35:52,  1.71it/s] 15%|█▌        | 7416/48008 [1:03:48<6:21:48,  1.77it/s] 15%|█▌        | 7417/48008 [1:03:49<6:03:47,  1.86it/s] 15%|█▌        | 7418/48008 [1:03:49<5:59:28,  1.88it/s] 15%|█▌        | 7419/48008 [1:03:50<6:00:12,  1.88it/s] 15%|█▌        | 7420/48008 [1:03:50<5:49:12,  1.94it/s] 15%|█▌        | 7421/48008 [1:03:51<5:41:47,  1.98it/s] 15%|█▌        | 7422/48008 [1:03:51<5:40:43,  1.99it/s] 15%|█▌        | 7423/48008 [1:03:52<5:35:24,  2.02it/s] 15%|█▌        | 7424/48008 [1:03:52<5:19:05,  2.12it/s] 15%|█▌        | 7425/48008 [1:03:53<5:07:10,  2.20it/s] 15%|█▌        | 7426/48008 [1:03:53<5:11:51,  2.17it/s] 15%|█▌        | 7427/48008 [1:03:54<5:02:22,  2.24it/s] 15%|█▌        | 7428/48008 [1:03:54<5:20:16,  2.11it/s] 15%|█▌        | 7429/48008 [1:03:55<5:21:17,  2.11it/s] 15%|█▌        | 7430/48008 [1:03:55<5:22:14,  2.10it/s] 15%|█▌        | 7431/48008 [1:03:56<5:22:00,  2.10it/s] 15%|█▌        | 7432/48008 [1:03:56<6:01:21,  1.87it/s] 15%|█▌        | 7433/48008 [1:03:57<5:36:57,  2.01it/s] 15%|█▌        | 7434/48008 [1:03:57<5:37:05,  2.01it/s] 15%|█▌        | 7435/48008 [1:03:58<5:38:18,  2.00it/s] 15%|█▌        | 7436/48008 [1:03:58<5:41:33,  1.98it/s] 15%|█▌        | 7437/48008 [1:03:59<5:36:20,  2.01it/s] 15%|█▌        | 7438/48008 [1:03:59<5:33:23,  2.03it/s] 15%|█▌        | 7439/48008 [1:04:00<5:35:41,  2.01it/s] 15%|█▌        | 7440/48008 [1:04:00<5:36:59,  2.01it/s] 15%|█▌        | 7441/48008 [1:04:01<5:41:13,  1.98it/s] 16%|█▌        | 7442/48008 [1:04:02<8:11:51,  1.37it/s] 16%|█▌        | 7443/48008 [1:04:02<7:07:58,  1.58it/s] 16%|█▌        | 7444/48008 [1:04:03<6:44:28,  1.67it/s] 16%|█▌        | 7445/48008 [1:04:03<6:32:29,  1.72it/s] 16%|█▌        | 7446/48008 [1:04:04<6:11:26,  1.82it/s] 16%|█▌        | 7447/48008 [1:04:04<5:57:14,  1.89it/s] 16%|█▌        | 7448/48008 [1:04:05<5:34:23,  2.02it/s] 16%|█▌        | 7449/48008 [1:04:05<5:30:36,  2.04it/s] 16%|█▌        | 7450/48008 [1:04:06<5:33:10,  2.03it/s]                                                        {'loss': 4.3222, 'grad_norm': 0.5251763463020325, 'learning_rate': 0.00016896767205465757, 'epoch': 0.16} 16%|█▌        | 7450/48008 [1:04:06<5:33:10,  2.03it/s]
 16%|█▌        | 7451/48008 [1:04:06<5:17:20,  2.13it/s] 16%|█▌        | 7452/48008 [1:04:07<5:06:04,  2.21it/s] 16%|█▌        | 7453/48008 [1:04:07<5:23:27,  2.09it/s] 16%|█▌        | 7454/48008 [1:04:08<5:28:55,  2.05it/s] 16%|█▌        | 7455/48008 [1:04:08<5:07:20,  2.20it/s] 16%|█▌        | 7456/48008 [1:04:08<4:59:06,  2.26it/s] 16%|█▌        | 7457/48008 [1:04:09<5:06:25,  2.21it/s] 16%|█▌        | 7458/48008 [1:04:09<5:16:02,  2.14it/s] 16%|█▌        | 7459/48008 [1:04:10<5:57:12,  1.89it/s] 16%|█▌        | 7460/48008 [1:04:11<5:47:23,  1.95it/s] 16%|█▌        | 7461/48008 [1:04:11<5:26:46,  2.07it/s] 16%|█▌        | 7462/48008 [1:04:11<5:30:37,  2.04it/s] 16%|█▌        | 7463/48008 [1:04:12<5:40:00,  1.99it/s] 16%|█▌        | 7464/48008 [1:04:13<6:14:53,  1.80it/s] 16%|█▌        | 7465/48008 [1:04:14<7:19:16,  1.54it/s] 16%|█▌        | 7466/48008 [1:04:14<6:45:01,  1.67it/s] 16%|█▌        | 7467/48008 [1:04:15<6:59:26,  1.61it/s] 16%|█▌        | 7468/48008 [1:04:15<6:30:58,  1.73it/s] 16%|█▌        | 7469/48008 [1:04:16<5:57:56,  1.89it/s] 16%|█▌        | 7470/48008 [1:04:16<5:55:26,  1.90it/s] 16%|█▌        | 7471/48008 [1:04:17<5:46:27,  1.95it/s] 16%|█▌        | 7472/48008 [1:04:17<5:51:13,  1.92it/s] 16%|█▌        | 7473/48008 [1:04:18<5:47:02,  1.95it/s] 16%|█▌        | 7474/48008 [1:04:18<5:39:20,  1.99it/s] 16%|█▌        | 7475/48008 [1:04:19<5:34:33,  2.02it/s] 16%|█▌        | 7476/48008 [1:04:19<5:31:37,  2.04it/s] 16%|█▌        | 7477/48008 [1:04:20<5:36:43,  2.01it/s] 16%|█▌        | 7478/48008 [1:04:20<5:40:22,  1.98it/s] 16%|█▌        | 7479/48008 [1:04:21<5:22:28,  2.09it/s] 16%|█▌        | 7480/48008 [1:04:21<5:09:12,  2.18it/s] 16%|█▌        | 7481/48008 [1:04:21<5:12:56,  2.16it/s] 16%|█▌        | 7482/48008 [1:04:22<5:24:00,  2.08it/s] 16%|█▌        | 7483/48008 [1:04:22<5:23:48,  2.09it/s] 16%|█▌        | 7484/48008 [1:04:23<5:32:02,  2.03it/s] 16%|█▌        | 7485/48008 [1:04:23<5:16:30,  2.13it/s] 16%|█▌        | 7486/48008 [1:04:24<5:05:31,  2.21it/s] 16%|█▌        | 7487/48008 [1:04:24<5:10:36,  2.17it/s] 16%|█▌        | 7488/48008 [1:04:25<5:19:26,  2.11it/s] 16%|█▌        | 7489/48008 [1:04:25<5:28:57,  2.05it/s] 16%|█▌        | 7490/48008 [1:04:26<5:31:12,  2.04it/s] 16%|█▌        | 7491/48008 [1:04:26<6:07:46,  1.84it/s] 16%|█▌        | 7492/48008 [1:04:27<6:33:06,  1.72it/s] 16%|█▌        | 7493/48008 [1:04:28<5:59:08,  1.88it/s] 16%|█▌        | 7494/48008 [1:04:28<5:35:04,  2.02it/s] 16%|█▌        | 7495/48008 [1:04:28<5:36:16,  2.01it/s] 16%|█▌        | 7496/48008 [1:04:29<5:40:17,  1.98it/s] 16%|█▌        | 7497/48008 [1:04:29<5:35:53,  2.01it/s] 16%|█▌        | 7498/48008 [1:04:30<5:19:18,  2.11it/s] 16%|█▌        | 7499/48008 [1:04:30<5:20:33,  2.11it/s] 16%|█▌        | 7500/48008 [1:04:31<5:21:53,  2.10it/s]                                                        {'loss': 4.2891, 'grad_norm': 0.527065634727478, 'learning_rate': 0.00016875937343776038, 'epoch': 0.16} 16%|█▌        | 7500/48008 [1:04:31<5:21:53,  2.10it/s]
 16%|█▌        | 7501/48008 [1:04:31<5:22:40,  2.09it/s] 16%|█▌        | 7502/48008 [1:04:32<5:09:47,  2.18it/s] 16%|█▌        | 7503/48008 [1:04:32<5:14:13,  2.15it/s] 16%|█▌        | 7504/48008 [1:04:33<5:04:07,  2.22it/s] 16%|█▌        | 7505/48008 [1:04:33<5:09:56,  2.18it/s] 16%|█▌        | 7506/48008 [1:04:34<5:20:05,  2.11it/s] 16%|█▌        | 7507/48008 [1:04:34<5:59:45,  1.88it/s] 16%|█▌        | 7508/48008 [1:04:35<5:35:32,  2.01it/s] 16%|█▌        | 7509/48008 [1:04:35<5:18:53,  2.12it/s] 16%|█▌        | 7510/48008 [1:04:35<5:07:20,  2.20it/s] 16%|█▌        | 7511/48008 [1:04:36<5:13:07,  2.16it/s] 16%|█▌        | 7512/48008 [1:04:36<5:16:01,  2.14it/s] 16%|█▌        | 7513/48008 [1:04:37<5:31:04,  2.04it/s] 16%|█▌        | 7514/48008 [1:04:38<6:08:49,  1.83it/s] 16%|█▌        | 7515/48008 [1:04:38<5:54:30,  1.90it/s] 16%|█▌        | 7516/48008 [1:04:39<5:50:05,  1.93it/s] 16%|█▌        | 7517/48008 [1:04:39<5:47:18,  1.94it/s] 16%|█▌        | 7518/48008 [1:04:40<5:52:27,  1.91it/s] 16%|█▌        | 7519/48008 [1:04:40<5:52:48,  1.91it/s] 16%|█▌        | 7520/48008 [1:04:41<5:50:07,  1.93it/s] 16%|█▌        | 7521/48008 [1:04:41<5:42:36,  1.97it/s] 16%|█▌        | 7522/48008 [1:04:42<5:48:05,  1.94it/s] 16%|█▌        | 7523/48008 [1:04:42<5:48:47,  1.93it/s] 16%|█▌        | 7524/48008 [1:04:43<6:20:40,  1.77it/s] 16%|█▌        | 7525/48008 [1:04:43<6:03:57,  1.85it/s] 16%|█▌        | 7526/48008 [1:04:44<5:57:10,  1.89it/s] 16%|█▌        | 7527/48008 [1:04:44<5:47:14,  1.94it/s] 16%|█▌        | 7528/48008 [1:04:45<5:27:11,  2.06it/s] 16%|█▌        | 7529/48008 [1:04:45<5:25:16,  2.07it/s] 16%|█▌        | 7530/48008 [1:04:46<5:25:10,  2.07it/s] 16%|█▌        | 7531/48008 [1:04:46<5:11:55,  2.16it/s] 16%|█▌        | 7532/48008 [1:04:47<5:24:16,  2.08it/s] 16%|█▌        | 7533/48008 [1:04:47<6:03:11,  1.86it/s] 16%|█▌        | 7534/48008 [1:04:48<5:51:22,  1.92it/s] 16%|█▌        | 7535/48008 [1:04:48<5:42:42,  1.97it/s] 16%|█▌        | 7536/48008 [1:04:49<5:36:57,  2.00it/s] 16%|█▌        | 7537/48008 [1:04:49<5:33:36,  2.02it/s] 16%|█▌        | 7538/48008 [1:04:50<6:09:17,  1.83it/s] 16%|█▌        | 7539/48008 [1:04:50<5:42:30,  1.97it/s] 16%|█▌        | 7540/48008 [1:04:51<5:37:10,  2.00it/s] 16%|█▌        | 7541/48008 [1:04:51<5:19:57,  2.11it/s] 16%|█▌        | 7542/48008 [1:04:52<5:21:26,  2.10it/s] 16%|█▌        | 7543/48008 [1:04:52<5:21:57,  2.09it/s] 16%|█▌        | 7544/48008 [1:04:53<5:21:36,  2.10it/s] 16%|█▌        | 7545/48008 [1:04:53<5:22:09,  2.09it/s] 16%|█▌        | 7546/48008 [1:04:54<5:09:29,  2.18it/s] 16%|█▌        | 7547/48008 [1:04:54<5:21:31,  2.10it/s] 16%|█▌        | 7548/48008 [1:04:55<5:27:23,  2.06it/s] 16%|█▌        | 7549/48008 [1:04:55<5:27:15,  2.06it/s] 16%|█▌        | 7550/48008 [1:04:56<5:38:24,  1.99it/s]                                                        {'loss': 4.3121, 'grad_norm': 0.7234795093536377, 'learning_rate': 0.0001685510748208632, 'epoch': 0.16} 16%|█▌        | 7550/48008 [1:04:56<5:38:24,  1.99it/s]
 16%|█▌        | 7551/48008 [1:04:56<5:34:34,  2.02it/s] 16%|█▌        | 7552/48008 [1:04:57<5:31:36,  2.03it/s] 16%|█▌        | 7553/48008 [1:04:57<5:28:48,  2.05it/s] 16%|█▌        | 7554/48008 [1:04:58<5:27:40,  2.06it/s] 16%|█▌        | 7555/48008 [1:04:58<5:27:07,  2.06it/s] 16%|█▌        | 7556/48008 [1:04:59<5:33:22,  2.02it/s] 16%|█▌        | 7557/48008 [1:04:59<5:35:01,  2.01it/s] 16%|█▌        | 7558/48008 [1:05:00<5:31:13,  2.04it/s] 16%|█▌        | 7559/48008 [1:05:00<5:36:08,  2.01it/s] 16%|█▌        | 7560/48008 [1:05:01<5:32:01,  2.03it/s] 16%|█▌        | 7561/48008 [1:05:01<5:34:01,  2.02it/s] 16%|█▌        | 7562/48008 [1:05:02<5:30:49,  2.04it/s] 16%|█▌        | 7563/48008 [1:05:02<5:15:21,  2.14it/s] 16%|█▌        | 7564/48008 [1:05:03<5:30:00,  2.04it/s] 16%|█▌        | 7565/48008 [1:05:03<5:32:29,  2.03it/s] 16%|█▌        | 7566/48008 [1:05:04<5:34:18,  2.02it/s] 16%|█▌        | 7567/48008 [1:05:04<5:18:16,  2.12it/s] 16%|█▌        | 7568/48008 [1:05:04<5:24:42,  2.08it/s] 16%|█▌        | 7569/48008 [1:05:05<5:24:02,  2.08it/s] 16%|█▌        | 7570/48008 [1:05:05<5:31:18,  2.03it/s] 16%|█▌        | 7571/48008 [1:05:06<5:16:03,  2.13it/s] 16%|█▌        | 7572/48008 [1:05:06<5:05:14,  2.21it/s] 16%|█▌        | 7573/48008 [1:05:07<5:49:57,  1.93it/s] 16%|█▌        | 7574/48008 [1:05:07<5:41:42,  1.97it/s] 16%|█▌        | 7575/48008 [1:05:08<5:35:56,  2.01it/s] 16%|█▌        | 7576/48008 [1:05:08<5:19:01,  2.11it/s] 16%|█▌        | 7577/48008 [1:05:09<5:28:24,  2.05it/s] 16%|█▌        | 7578/48008 [1:05:09<5:13:05,  2.15it/s] 16%|█▌        | 7579/48008 [1:05:10<5:02:30,  2.23it/s] 16%|█▌        | 7580/48008 [1:05:10<5:08:54,  2.18it/s] 16%|█▌        | 7581/48008 [1:05:11<5:00:01,  2.25it/s] 16%|█▌        | 7582/48008 [1:05:11<5:07:26,  2.19it/s] 16%|█▌        | 7583/48008 [1:05:12<5:12:43,  2.15it/s] 16%|█▌        | 7584/48008 [1:05:12<5:15:26,  2.14it/s] 16%|█▌        | 7585/48008 [1:05:12<5:22:11,  2.09it/s] 16%|█▌        | 7586/48008 [1:05:13<5:26:15,  2.06it/s] 16%|█▌        | 7587/48008 [1:05:13<5:29:47,  2.04it/s] 16%|█▌        | 7588/48008 [1:05:14<5:27:38,  2.06it/s] 16%|█▌        | 7589/48008 [1:05:14<5:25:42,  2.07it/s] 16%|█▌        | 7590/48008 [1:05:15<5:24:39,  2.07it/s] 16%|█▌        | 7591/48008 [1:05:15<5:35:40,  2.01it/s] 16%|█▌        | 7592/48008 [1:05:16<5:43:13,  1.96it/s] 16%|█▌        | 7593/48008 [1:05:17<5:42:09,  1.97it/s] 16%|█▌        | 7594/48008 [1:05:17<5:36:10,  2.00it/s] 16%|█▌        | 7595/48008 [1:05:17<5:32:34,  2.03it/s] 16%|█▌        | 7596/48008 [1:05:18<5:29:16,  2.05it/s] 16%|█▌        | 7597/48008 [1:05:18<5:13:15,  2.15it/s] 16%|█▌        | 7598/48008 [1:05:19<5:03:17,  2.22it/s] 16%|█▌        | 7599/48008 [1:05:19<5:13:53,  2.15it/s] 16%|█▌        | 7600/48008 [1:05:20<5:16:32,  2.13it/s]                                                        {'loss': 4.2781, 'grad_norm': 0.8170482516288757, 'learning_rate': 0.00016834277620396602, 'epoch': 0.16}
 16%|█▌        | 7600/48008 [1:05:20<5:16:32,  2.13it/s] 16%|█▌        | 7601/48008 [1:05:20<5:26:09,  2.06it/s] 16%|█▌        | 7602/48008 [1:05:21<5:29:51,  2.04it/s] 16%|█▌        | 7603/48008 [1:05:21<5:28:06,  2.05it/s] 16%|█▌        | 7604/48008 [1:05:22<5:38:21,  1.99it/s] 16%|█▌        | 7605/48008 [1:05:22<5:33:07,  2.02it/s] 16%|█▌        | 7606/48008 [1:05:23<5:42:14,  1.97it/s] 16%|█▌        | 7607/48008 [1:05:23<5:36:34,  2.00it/s] 16%|█▌        | 7608/48008 [1:05:24<5:19:28,  2.11it/s] 16%|█▌        | 7609/48008 [1:05:24<5:20:37,  2.10it/s] 16%|█▌        | 7610/48008 [1:05:25<5:26:20,  2.06it/s] 16%|█▌        | 7611/48008 [1:05:25<5:33:09,  2.02it/s] 16%|█▌        | 7612/48008 [1:05:26<5:30:04,  2.04it/s] 16%|█▌        | 7613/48008 [1:05:26<5:31:54,  2.03it/s] 16%|█▌        | 7614/48008 [1:05:27<5:29:31,  2.04it/s] 16%|█▌        | 7615/48008 [1:05:27<6:07:02,  1.83it/s] 16%|█▌        | 7616/48008 [1:05:28<5:57:38,  1.88it/s] 16%|█▌        | 7617/48008 [1:05:28<5:47:20,  1.94it/s] 16%|█▌        | 7618/48008 [1:05:29<5:27:16,  2.06it/s] 16%|█▌        | 7619/48008 [1:05:29<5:33:47,  2.02it/s] 16%|█▌        | 7620/48008 [1:05:30<5:34:30,  2.01it/s] 16%|█▌        | 7621/48008 [1:05:30<5:42:10,  1.97it/s] 16%|█▌        | 7622/48008 [1:05:31<5:47:40,  1.94it/s] 16%|█▌        | 7623/48008 [1:05:31<5:44:58,  1.95it/s] 16%|█▌        | 7624/48008 [1:05:32<5:37:29,  1.99it/s] 16%|█▌        | 7625/48008 [1:05:32<5:37:07,  2.00it/s] 16%|█▌        | 7626/48008 [1:05:33<5:32:35,  2.02it/s] 16%|█▌        | 7627/48008 [1:05:33<6:08:20,  1.83it/s] 16%|█▌        | 7628/48008 [1:05:34<5:42:13,  1.97it/s] 16%|█▌        | 7629/48008 [1:05:34<5:37:37,  1.99it/s] 16%|█▌        | 7630/48008 [1:05:35<5:33:41,  2.02it/s] 16%|█▌        | 7631/48008 [1:05:35<5:17:15,  2.12it/s] 16%|█▌        | 7632/48008 [1:05:36<5:24:48,  2.07it/s] 16%|█▌        | 7633/48008 [1:05:37<6:45:18,  1.66it/s] 16%|█▌        | 7634/48008 [1:05:37<6:24:26,  1.75it/s] 16%|█▌        | 7635/48008 [1:05:38<6:06:14,  1.84it/s] 16%|█▌        | 7636/48008 [1:05:38<5:53:29,  1.90it/s] 16%|█▌        | 7637/48008 [1:05:39<5:44:10,  1.95it/s] 16%|█▌        | 7638/48008 [1:05:39<5:24:22,  2.07it/s] 16%|█▌        | 7639/48008 [1:05:39<5:10:37,  2.17it/s] 16%|█▌        | 7640/48008 [1:05:40<5:13:13,  2.15it/s] 16%|█▌        | 7641/48008 [1:05:41<7:50:53,  1.43it/s] 16%|█▌        | 7642/48008 [1:05:42<7:14:11,  1.55it/s] 16%|█▌        | 7643/48008 [1:05:42<6:45:24,  1.66it/s] 16%|█▌        | 7644/48008 [1:05:43<7:00:02,  1.60it/s] 16%|█▌        | 7645/48008 [1:05:43<6:34:40,  1.70it/s] 16%|█▌        | 7646/48008 [1:05:44<6:20:47,  1.77it/s] 16%|█▌        | 7647/48008 [1:05:44<6:08:02,  1.83it/s] 16%|█▌        | 7648/48008 [1:05:45<5:58:59,  1.87it/s] 16%|█▌        | 7649/48008 [1:05:45<5:35:15,  2.01it/s] 16%|█▌        | 7650/48008 [1:05:46<5:31:35,  2.03it/s]                                                        {'loss': 4.3194, 'grad_norm': 0.6207615733146667, 'learning_rate': 0.00016813447758706884, 'epoch': 0.16} 16%|█▌        | 7650/48008 [1:05:46<5:31:35,  2.03it/s]
 16%|█▌        | 7651/48008 [1:05:46<5:29:19,  2.04it/s] 16%|█▌        | 7652/48008 [1:05:47<5:27:05,  2.06it/s] 16%|█▌        | 7653/48008 [1:05:47<5:26:17,  2.06it/s] 16%|█▌        | 7654/48008 [1:05:48<5:29:57,  2.04it/s] 16%|█▌        | 7655/48008 [1:05:48<5:26:51,  2.06it/s] 16%|█▌        | 7656/48008 [1:05:49<8:01:10,  1.40it/s] 16%|█▌        | 7657/48008 [1:05:50<7:21:58,  1.52it/s] 16%|█▌        | 7658/48008 [1:05:50<6:57:31,  1.61it/s] 16%|█▌        | 7659/48008 [1:05:51<6:15:14,  1.79it/s] 16%|█▌        | 7660/48008 [1:05:51<5:59:18,  1.87it/s] 16%|█▌        | 7661/48008 [1:05:52<5:48:22,  1.93it/s] 16%|█▌        | 7662/48008 [1:05:52<5:48:41,  1.93it/s] 16%|█▌        | 7663/48008 [1:05:53<5:27:34,  2.05it/s] 16%|█▌        | 7664/48008 [1:05:53<5:29:57,  2.04it/s] 16%|█▌        | 7665/48008 [1:05:54<5:33:06,  2.02it/s] 16%|█▌        | 7666/48008 [1:05:54<5:37:44,  1.99it/s] 16%|█▌        | 7667/48008 [1:05:55<5:19:28,  2.10it/s] 16%|█▌        | 7668/48008 [1:05:55<5:20:15,  2.10it/s] 16%|█▌        | 7669/48008 [1:05:56<5:21:14,  2.09it/s] 16%|█▌        | 7670/48008 [1:05:56<5:21:50,  2.09it/s] 16%|█▌        | 7671/48008 [1:05:57<5:26:10,  2.06it/s] 16%|█▌        | 7672/48008 [1:05:57<5:24:37,  2.07it/s] 16%|█▌        | 7673/48008 [1:05:58<5:23:28,  2.08it/s] 16%|█▌        | 7674/48008 [1:05:58<5:22:30,  2.08it/s] 16%|█▌        | 7675/48008 [1:05:59<5:27:05,  2.06it/s] 16%|█▌        | 7676/48008 [1:05:59<5:12:45,  2.15it/s] 16%|█▌        | 7677/48008 [1:06:00<5:23:10,  2.08it/s] 16%|█▌        | 7678/48008 [1:06:00<5:30:14,  2.04it/s] 16%|█▌        | 7679/48008 [1:06:01<5:32:32,  2.02it/s] 16%|█▌        | 7680/48008 [1:06:01<5:40:48,  1.97it/s] 16%|█▌        | 7681/48008 [1:06:01<5:21:53,  2.09it/s] 16%|█▌        | 7682/48008 [1:06:02<5:09:08,  2.17it/s] 16%|█▌        | 7683/48008 [1:06:02<5:00:19,  2.24it/s] 16%|█▌        | 7684/48008 [1:06:03<5:06:05,  2.20it/s] 16%|█▌        | 7685/48008 [1:06:03<5:18:53,  2.11it/s] 16%|█▌        | 7686/48008 [1:06:04<5:19:42,  2.10it/s] 16%|█▌        | 7687/48008 [1:06:04<5:20:18,  2.10it/s] 16%|█▌        | 7688/48008 [1:06:05<5:21:00,  2.09it/s] 16%|█▌        | 7689/48008 [1:06:05<5:28:35,  2.05it/s] 16%|█▌        | 7690/48008 [1:06:06<5:31:21,  2.03it/s] 16%|█▌        | 7691/48008 [1:06:06<5:28:42,  2.04it/s] 16%|█▌        | 7692/48008 [1:06:07<5:34:06,  2.01it/s] 16%|█▌        | 7693/48008 [1:06:07<5:35:03,  2.01it/s] 16%|█▌        | 7694/48008 [1:06:08<5:31:04,  2.03it/s] 16%|█▌        | 7695/48008 [1:06:08<5:40:42,  1.97it/s] 16%|█▌        | 7696/48008 [1:06:09<5:43:20,  1.96it/s] 16%|█▌        | 7697/48008 [1:06:09<5:44:25,  1.95it/s] 16%|█▌        | 7698/48008 [1:06:10<5:38:05,  1.99it/s] 16%|█▌        | 7699/48008 [1:06:10<5:33:22,  2.02it/s] 16%|█▌        | 7700/48008 [1:06:11<5:30:09,  2.03it/s]                                                        {'loss': 4.3098, 'grad_norm': 0.5676591992378235, 'learning_rate': 0.00016792617897017165, 'epoch': 0.16} 16%|█▌        | 7700/48008 [1:06:11<5:30:09,  2.03it/s]
 16%|█▌        | 7701/48008 [1:06:11<5:32:22,  2.02it/s] 16%|█▌        | 7702/48008 [1:06:12<5:15:54,  2.13it/s] 16%|█▌        | 7703/48008 [1:06:12<5:18:13,  2.11it/s] 16%|█▌        | 7704/48008 [1:06:13<5:19:18,  2.10it/s] 16%|█▌        | 7705/48008 [1:06:13<5:07:46,  2.18it/s] 16%|█▌        | 7706/48008 [1:06:14<5:12:21,  2.15it/s] 16%|█▌        | 7707/48008 [1:06:14<5:15:09,  2.13it/s] 16%|█▌        | 7708/48008 [1:06:15<5:21:30,  2.09it/s] 16%|█▌        | 7709/48008 [1:06:15<5:21:08,  2.09it/s] 16%|█▌        | 7710/48008 [1:06:15<5:21:33,  2.09it/s] 16%|█▌        | 7711/48008 [1:06:16<5:08:19,  2.18it/s] 16%|█▌        | 7712/48008 [1:06:16<4:58:53,  2.25it/s] 16%|█▌        | 7713/48008 [1:06:17<5:13:41,  2.14it/s] 16%|█▌        | 7714/48008 [1:06:17<5:16:29,  2.12it/s] 16%|█▌        | 7715/48008 [1:06:18<6:37:16,  1.69it/s] 16%|█▌        | 7716/48008 [1:06:19<6:14:20,  1.79it/s] 16%|█▌        | 7717/48008 [1:06:19<6:38:05,  1.69it/s] 16%|█▌        | 7718/48008 [1:06:20<6:19:51,  1.77it/s] 16%|█▌        | 7719/48008 [1:06:20<6:02:17,  1.85it/s] 16%|█▌        | 7720/48008 [1:06:21<5:36:46,  1.99it/s] 16%|█▌        | 7721/48008 [1:06:21<5:33:14,  2.01it/s] 16%|█▌        | 7722/48008 [1:06:22<5:37:17,  1.99it/s] 16%|█▌        | 7723/48008 [1:06:22<5:19:32,  2.10it/s] 16%|█▌        | 7724/48008 [1:06:23<5:24:25,  2.07it/s] 16%|█▌        | 7725/48008 [1:06:23<5:24:20,  2.07it/s] 16%|█▌        | 7726/48008 [1:06:24<5:22:59,  2.08it/s] 16%|█▌        | 7727/48008 [1:06:24<5:09:47,  2.17it/s] 16%|█▌        | 7728/48008 [1:06:24<5:00:13,  2.24it/s] 16%|█▌        | 7729/48008 [1:06:25<5:06:38,  2.19it/s] 16%|█▌        | 7730/48008 [1:06:25<4:58:10,  2.25it/s] 16%|█▌        | 7731/48008 [1:06:26<5:04:55,  2.20it/s] 16%|█▌        | 7732/48008 [1:06:27<7:45:12,  1.44it/s] 16%|█▌        | 7733/48008 [1:06:28<7:40:29,  1.46it/s] 16%|█▌        | 7734/48008 [1:06:28<6:46:30,  1.65it/s] 16%|█▌        | 7735/48008 [1:06:29<6:25:40,  1.74it/s] 16%|█▌        | 7736/48008 [1:06:29<6:06:22,  1.83it/s] 16%|█▌        | 7737/48008 [1:06:30<5:52:41,  1.90it/s] 16%|█▌        | 7738/48008 [1:06:30<5:51:19,  1.91it/s] 16%|█▌        | 7739/48008 [1:06:31<5:42:25,  1.96it/s] 16%|█▌        | 7740/48008 [1:06:31<6:55:19,  1.62it/s] 16%|█▌        | 7741/48008 [1:06:32<6:31:29,  1.71it/s] 16%|█▌        | 7742/48008 [1:06:32<5:57:13,  1.88it/s] 16%|█▌        | 7743/48008 [1:06:33<5:46:51,  1.93it/s] 16%|█▌        | 7744/48008 [1:06:33<5:27:24,  2.05it/s] 16%|█▌        | 7745/48008 [1:06:34<5:12:25,  2.15it/s] 16%|█▌        | 7746/48008 [1:06:34<5:24:00,  2.07it/s] 16%|█▌        | 7747/48008 [1:06:35<5:10:01,  2.16it/s] 16%|█▌        | 7748/48008 [1:06:35<5:00:07,  2.24it/s] 16%|█▌        | 7749/48008 [1:06:36<5:10:27,  2.16it/s] 16%|█▌        | 7750/48008 [1:06:36<5:00:42,  2.23it/s]                                                        {'loss': 4.2948, 'grad_norm': 0.6241239309310913, 'learning_rate': 0.00016771788035327447, 'epoch': 0.16}
 16%|█▌        | 7750/48008 [1:06:36<5:00:42,  2.23it/s] 16%|█▌        | 7751/48008 [1:06:36<5:07:02,  2.19it/s] 16%|█▌        | 7752/48008 [1:06:37<4:57:32,  2.25it/s] 16%|█▌        | 7753/48008 [1:06:37<5:05:21,  2.20it/s] 16%|█▌        | 7754/48008 [1:06:38<4:57:49,  2.25it/s] 16%|█▌        | 7755/48008 [1:06:38<5:17:43,  2.11it/s] 16%|█▌        | 7756/48008 [1:06:39<5:19:13,  2.10it/s] 16%|█▌        | 7757/48008 [1:06:39<5:07:36,  2.18it/s] 16%|█▌        | 7758/48008 [1:06:40<5:23:37,  2.07it/s] 16%|█▌        | 7759/48008 [1:06:40<5:23:45,  2.07it/s] 16%|█▌        | 7760/48008 [1:06:41<5:30:56,  2.03it/s] 16%|█▌        | 7761/48008 [1:06:41<5:28:00,  2.05it/s] 16%|█▌        | 7762/48008 [1:06:42<5:37:37,  1.99it/s] 16%|█▌        | 7763/48008 [1:06:42<5:38:01,  1.98it/s] 16%|█▌        | 7764/48008 [1:06:43<5:37:49,  1.99it/s] 16%|█▌        | 7765/48008 [1:06:43<5:33:03,  2.01it/s] 16%|█▌        | 7766/48008 [1:06:44<8:04:03,  1.39it/s] 16%|█▌        | 7767/48008 [1:06:45<7:19:41,  1.53it/s] 16%|█▌        | 7768/48008 [1:06:46<8:03:54,  1.39it/s] 16%|█▌        | 7769/48008 [1:06:46<7:16:05,  1.54it/s] 16%|█▌        | 7770/48008 [1:06:47<6:53:31,  1.62it/s] 16%|█▌        | 7771/48008 [1:06:47<6:30:23,  1.72it/s] 16%|█▌        | 7772/48008 [1:06:48<5:56:52,  1.88it/s] 16%|█▌        | 7773/48008 [1:06:48<5:46:12,  1.94it/s] 16%|█▌        | 7774/48008 [1:06:49<5:43:29,  1.95it/s] 16%|█▌        | 7775/48008 [1:06:49<5:23:27,  2.07it/s] 16%|█▌        | 7776/48008 [1:06:50<5:23:57,  2.07it/s] 16%|█▌        | 7777/48008 [1:06:50<6:02:31,  1.85it/s] 16%|█▌        | 7778/48008 [1:06:51<7:09:12,  1.56it/s] 16%|█▌        | 7779/48008 [1:06:52<6:23:30,  1.75it/s] 16%|█▌        | 7780/48008 [1:06:53<7:24:02,  1.51it/s] 16%|█▌        | 7781/48008 [1:06:53<6:52:34,  1.63it/s] 16%|█▌        | 7782/48008 [1:06:53<6:24:36,  1.74it/s] 16%|█▌        | 7783/48008 [1:06:54<6:13:00,  1.80it/s] 16%|█▌        | 7784/48008 [1:06:55<7:16:27,  1.54it/s] 16%|█▌        | 7785/48008 [1:06:55<6:28:22,  1.73it/s] 16%|█▌        | 7786/48008 [1:06:56<5:55:30,  1.89it/s] 16%|█▌        | 7787/48008 [1:06:56<5:45:22,  1.94it/s] 16%|█▌        | 7788/48008 [1:06:57<5:42:09,  1.96it/s] 16%|█▌        | 7789/48008 [1:06:57<5:22:59,  2.08it/s] 16%|█▌        | 7790/48008 [1:06:58<5:27:13,  2.05it/s] 16%|█▌        | 7791/48008 [1:06:58<5:12:06,  2.15it/s] 16%|█▌        | 7792/48008 [1:06:59<8:20:17,  1.34it/s] 16%|█▌        | 7793/48008 [1:07:00<7:27:24,  1.50it/s] 16%|█▌        | 7794/48008 [1:07:00<6:37:18,  1.69it/s] 16%|█▌        | 7795/48008 [1:07:01<6:19:11,  1.77it/s] 16%|█▌        | 7796/48008 [1:07:01<6:07:01,  1.83it/s] 16%|█▌        | 7797/48008 [1:07:02<5:53:02,  1.90it/s] 16%|█▌        | 7798/48008 [1:07:03<8:38:25,  1.29it/s] 16%|█▌        | 7799/48008 [1:07:04<8:17:37,  1.35it/s] 16%|█▌        | 7800/48008 [1:07:04<7:25:20,  1.50it/s]                                                        {'loss': 4.3042, 'grad_norm': 0.5118400454521179, 'learning_rate': 0.00016750958173637726, 'epoch': 0.16}
 16%|█▌        | 7800/48008 [1:07:04<7:25:20,  1.50it/s] 16%|█▌        | 7801/48008 [1:07:05<6:34:55,  1.70it/s] 16%|█▋        | 7802/48008 [1:07:05<6:17:28,  1.78it/s] 16%|█▋        | 7803/48008 [1:07:06<6:05:40,  1.83it/s] 16%|█▋        | 7804/48008 [1:07:06<6:01:03,  1.86it/s] 16%|█▋        | 7805/48008 [1:07:07<5:56:46,  1.88it/s] 16%|█▋        | 7806/48008 [1:07:07<5:46:10,  1.94it/s] 16%|█▋        | 7807/48008 [1:07:08<5:42:33,  1.96it/s] 16%|█▋        | 7808/48008 [1:07:08<5:22:22,  2.08it/s] 16%|█▋        | 7809/48008 [1:07:09<5:09:22,  2.17it/s] 16%|█▋        | 7810/48008 [1:07:09<5:13:20,  2.14it/s] 16%|█▋        | 7811/48008 [1:07:10<5:16:15,  2.12it/s] 16%|█▋        | 7812/48008 [1:07:10<5:18:50,  2.10it/s] 16%|█▋        | 7813/48008 [1:07:11<6:40:35,  1.67it/s] 16%|█▋        | 7814/48008 [1:07:12<7:37:26,  1.46it/s] 16%|█▋        | 7815/48008 [1:07:12<6:43:48,  1.66it/s] 16%|█▋        | 7816/48008 [1:07:13<6:19:27,  1.77it/s] 16%|█▋        | 7817/48008 [1:07:13<5:48:59,  1.92it/s] 16%|█▋        | 7818/48008 [1:07:14<8:16:53,  1.35it/s] 16%|█▋        | 7819/48008 [1:07:15<7:32:45,  1.48it/s] 16%|█▋        | 7820/48008 [1:07:15<6:53:41,  1.62it/s] 16%|█▋        | 7821/48008 [1:07:16<6:26:22,  1.73it/s] 16%|█▋        | 7822/48008 [1:07:16<6:12:29,  1.80it/s] 16%|█▋        | 7823/48008 [1:07:17<6:01:11,  1.85it/s] 16%|█▋        | 7824/48008 [1:07:17<5:53:06,  1.90it/s] 16%|█▋        | 7825/48008 [1:07:18<5:30:54,  2.02it/s] 16%|█▋        | 7826/48008 [1:07:18<5:28:37,  2.04it/s] 16%|█▋        | 7827/48008 [1:07:19<6:04:43,  1.84it/s] 16%|█▋        | 7828/48008 [1:07:19<6:00:07,  1.86it/s] 16%|█▋        | 7829/48008 [1:07:20<5:47:49,  1.93it/s] 16%|█▋        | 7830/48008 [1:07:20<5:38:55,  1.98it/s] 16%|█▋        | 7831/48008 [1:07:21<5:38:46,  1.98it/s] 16%|█▋        | 7832/48008 [1:07:21<5:20:51,  2.09it/s] 16%|█▋        | 7833/48008 [1:07:22<5:25:10,  2.06it/s] 16%|█▋        | 7834/48008 [1:07:22<5:11:03,  2.15it/s] 16%|█▋        | 7835/48008 [1:07:23<5:18:15,  2.10it/s] 16%|█▋        | 7836/48008 [1:07:23<5:23:53,  2.07it/s] 16%|█▋        | 7837/48008 [1:07:24<5:24:05,  2.07it/s] 16%|█▋        | 7838/48008 [1:07:24<5:23:42,  2.07it/s] 16%|█▋        | 7839/48008 [1:07:25<5:09:10,  2.17it/s] 16%|█▋        | 7840/48008 [1:07:25<5:20:05,  2.09it/s] 16%|█▋        | 7841/48008 [1:07:26<5:59:13,  1.86it/s] 16%|█▋        | 7842/48008 [1:07:26<5:52:16,  1.90it/s] 16%|█▋        | 7843/48008 [1:07:27<5:43:04,  1.95it/s] 16%|█▋        | 7844/48008 [1:07:27<6:14:47,  1.79it/s] 16%|█▋        | 7845/48008 [1:07:28<6:02:55,  1.84it/s] 16%|█▋        | 7846/48008 [1:07:28<6:02:33,  1.85it/s] 16%|█▋        | 7847/48008 [1:07:29<5:58:54,  1.86it/s] 16%|█▋        | 7848/48008 [1:07:29<5:47:05,  1.93it/s] 16%|█▋        | 7849/48008 [1:07:30<5:45:04,  1.94it/s] 16%|█▋        | 7850/48008 [1:07:30<5:37:49,  1.98it/s]                                                        {'loss': 4.2835, 'grad_norm': 0.5010377764701843, 'learning_rate': 0.0001673012831194801, 'epoch': 0.16} 16%|█▋        | 7850/48008 [1:07:30<5:37:49,  1.98it/s]
 16%|█▋        | 7851/48008 [1:07:31<5:20:33,  2.09it/s] 16%|█▋        | 7852/48008 [1:07:31<5:26:10,  2.05it/s] 16%|█▋        | 7853/48008 [1:07:32<5:36:55,  1.99it/s] 16%|█▋        | 7854/48008 [1:07:32<5:31:43,  2.02it/s] 16%|█▋        | 7855/48008 [1:07:34<8:04:40,  1.38it/s] 16%|█▋        | 7856/48008 [1:07:34<7:55:20,  1.41it/s] 16%|█▋        | 7857/48008 [1:07:35<7:08:28,  1.56it/s] 16%|█▋        | 7858/48008 [1:07:35<6:42:37,  1.66it/s] 16%|█▋        | 7859/48008 [1:07:36<6:57:37,  1.60it/s] 16%|█▋        | 7860/48008 [1:07:36<6:08:33,  1.82it/s] 16%|█▋        | 7861/48008 [1:07:37<5:54:58,  1.88it/s] 16%|█▋        | 7862/48008 [1:07:37<5:49:29,  1.91it/s] 16%|█▋        | 7863/48008 [1:07:38<5:40:36,  1.96it/s] 16%|█▋        | 7864/48008 [1:07:39<6:14:43,  1.79it/s] 16%|█▋        | 7865/48008 [1:07:39<6:06:55,  1.82it/s] 16%|█▋        | 7866/48008 [1:07:39<5:39:29,  1.97it/s] 16%|█▋        | 7867/48008 [1:07:40<5:34:09,  2.00it/s] 16%|█▋        | 7868/48008 [1:07:40<5:30:59,  2.02it/s] 16%|█▋        | 7869/48008 [1:07:41<5:27:18,  2.04it/s] 16%|█▋        | 7870/48008 [1:07:41<5:30:58,  2.02it/s] 16%|█▋        | 7871/48008 [1:07:42<5:32:30,  2.01it/s] 16%|█▋        | 7872/48008 [1:07:43<6:07:40,  1.82it/s] 16%|█▋        | 7873/48008 [1:07:43<5:41:20,  1.96it/s] 16%|█▋        | 7874/48008 [1:07:43<5:15:37,  2.12it/s] 16%|█▋        | 7875/48008 [1:07:44<5:22:59,  2.07it/s] 16%|█▋        | 7876/48008 [1:07:44<5:26:15,  2.05it/s] 16%|█▋        | 7877/48008 [1:07:45<5:29:54,  2.03it/s] 16%|█▋        | 7878/48008 [1:07:45<5:27:48,  2.04it/s] 16%|█▋        | 7879/48008 [1:07:46<5:33:25,  2.01it/s] 16%|█▋        | 7880/48008 [1:07:46<5:30:28,  2.02it/s] 16%|█▋        | 7881/48008 [1:07:47<5:27:04,  2.04it/s] 16%|█▋        | 7882/48008 [1:07:47<5:25:51,  2.05it/s] 16%|█▋        | 7883/48008 [1:07:48<5:24:58,  2.06it/s] 16%|█▋        | 7884/48008 [1:07:48<5:24:02,  2.06it/s] 16%|█▋        | 7885/48008 [1:07:49<5:10:15,  2.16it/s] 16%|█▋        | 7886/48008 [1:07:49<5:14:05,  2.13it/s] 16%|█▋        | 7887/48008 [1:07:50<6:35:13,  1.69it/s] 16%|█▋        | 7888/48008 [1:07:51<6:52:04,  1.62it/s] 16%|█▋        | 7889/48008 [1:07:51<6:30:53,  1.71it/s] 16%|█▋        | 7890/48008 [1:07:52<5:57:03,  1.87it/s] 16%|█▋        | 7891/48008 [1:07:52<5:49:59,  1.91it/s] 16%|█▋        | 7892/48008 [1:07:53<5:52:16,  1.90it/s] 16%|█▋        | 7893/48008 [1:07:53<5:52:04,  1.90it/s] 16%|█▋        | 7894/48008 [1:07:54<5:47:40,  1.92it/s] 16%|█▋        | 7895/48008 [1:07:54<5:43:16,  1.95it/s] 16%|█▋        | 7896/48008 [1:07:55<5:35:46,  1.99it/s] 16%|█▋        | 7897/48008 [1:07:55<5:32:31,  2.01it/s] 16%|█▋        | 7898/48008 [1:07:56<5:29:51,  2.03it/s] 16%|█▋        | 7899/48008 [1:07:56<5:31:09,  2.02it/s] 16%|█▋        | 7900/48008 [1:07:57<5:39:25,  1.97it/s]                                                        {'loss': 4.3136, 'grad_norm': 0.3876720070838928, 'learning_rate': 0.0001670929845025829, 'epoch': 0.16} 16%|█▋        | 7900/48008 [1:07:57<5:39:25,  1.97it/s]
 16%|█▋        | 7901/48008 [1:07:57<6:14:24,  1.79it/s] 16%|█▋        | 7902/48008 [1:07:58<6:03:15,  1.84it/s] 16%|█▋        | 7903/48008 [1:07:58<5:59:14,  1.86it/s] 16%|█▋        | 7904/48008 [1:07:59<5:55:23,  1.88it/s] 16%|█▋        | 7905/48008 [1:07:59<5:49:28,  1.91it/s] 16%|█▋        | 7906/48008 [1:08:00<5:46:17,  1.93it/s] 16%|█▋        | 7907/48008 [1:08:00<5:25:49,  2.05it/s] 16%|█▋        | 7908/48008 [1:08:01<5:24:02,  2.06it/s] 16%|█▋        | 7909/48008 [1:08:01<5:22:49,  2.07it/s] 16%|█▋        | 7910/48008 [1:08:02<5:21:32,  2.08it/s] 16%|█▋        | 7911/48008 [1:08:02<5:26:54,  2.04it/s] 16%|█▋        | 7912/48008 [1:08:03<5:25:31,  2.05it/s] 16%|█▋        | 7913/48008 [1:08:03<5:28:51,  2.03it/s] 16%|█▋        | 7914/48008 [1:08:04<5:31:51,  2.01it/s] 16%|█▋        | 7915/48008 [1:08:04<5:27:44,  2.04it/s] 16%|█▋        | 7916/48008 [1:08:05<5:30:28,  2.02it/s] 16%|█▋        | 7917/48008 [1:08:05<5:39:09,  1.97it/s] 16%|█▋        | 7918/48008 [1:08:06<5:38:08,  1.98it/s] 16%|█▋        | 7919/48008 [1:08:06<5:44:00,  1.94it/s] 16%|█▋        | 7920/48008 [1:08:07<5:42:00,  1.95it/s] 16%|█▋        | 7921/48008 [1:08:07<5:36:15,  1.99it/s] 17%|█▋        | 7922/48008 [1:08:08<5:18:49,  2.10it/s] 17%|█▋        | 7923/48008 [1:08:08<5:27:25,  2.04it/s] 17%|█▋        | 7924/48008 [1:08:09<5:26:02,  2.05it/s] 17%|█▋        | 7925/48008 [1:08:09<6:02:46,  1.84it/s] 17%|█▋        | 7926/48008 [1:08:10<5:51:01,  1.90it/s] 17%|█▋        | 7927/48008 [1:08:10<5:28:39,  2.03it/s] 17%|█▋        | 7928/48008 [1:08:11<5:26:38,  2.05it/s] 17%|█▋        | 7929/48008 [1:08:11<5:32:14,  2.01it/s] 17%|█▋        | 7930/48008 [1:08:12<5:33:27,  2.00it/s] 17%|█▋        | 7931/48008 [1:08:12<5:29:42,  2.03it/s] 17%|█▋        | 7932/48008 [1:08:13<5:35:21,  1.99it/s] 17%|█▋        | 7933/48008 [1:08:13<5:18:24,  2.10it/s] 17%|█▋        | 7934/48008 [1:08:14<5:22:44,  2.07it/s] 17%|█▋        | 7935/48008 [1:08:14<5:08:23,  2.17it/s] 17%|█▋        | 7936/48008 [1:08:15<5:20:50,  2.08it/s] 17%|█▋        | 7937/48008 [1:08:15<5:26:27,  2.05it/s] 17%|█▋        | 7938/48008 [1:08:16<5:30:46,  2.02it/s] 17%|█▋        | 7939/48008 [1:08:17<6:47:52,  1.64it/s] 17%|█▋        | 7940/48008 [1:08:17<6:27:00,  1.73it/s] 17%|█▋        | 7941/48008 [1:08:18<6:06:53,  1.82it/s] 17%|█▋        | 7942/48008 [1:08:18<5:57:26,  1.87it/s] 17%|█▋        | 7943/48008 [1:08:19<5:51:35,  1.90it/s] 17%|█▋        | 7944/48008 [1:08:19<5:46:05,  1.93it/s] 17%|█▋        | 7945/48008 [1:08:20<5:38:50,  1.97it/s] 17%|█▋        | 7946/48008 [1:08:20<5:38:36,  1.97it/s] 17%|█▋        | 7947/48008 [1:08:21<5:37:51,  1.98it/s] 17%|█▋        | 7948/48008 [1:08:21<5:33:33,  2.00it/s] 17%|█▋        | 7949/48008 [1:08:22<5:33:29,  2.00it/s] 17%|█▋        | 7950/48008 [1:08:22<5:36:37,  1.98it/s]                                                        {'loss': 4.3495, 'grad_norm': 0.3084680438041687, 'learning_rate': 0.00016688468588568574, 'epoch': 0.17} 17%|█▋        | 7950/48008 [1:08:22<5:36:37,  1.98it/s]
 17%|█▋        | 7951/48008 [1:08:23<5:36:47,  1.98it/s] 17%|█▋        | 7952/48008 [1:08:23<6:10:53,  1.80it/s] 17%|█▋        | 7953/48008 [1:08:24<5:43:06,  1.95it/s] 17%|█▋        | 7954/48008 [1:08:24<5:45:07,  1.93it/s] 17%|█▋        | 7955/48008 [1:08:25<5:36:49,  1.98it/s] 17%|█▋        | 7956/48008 [1:08:26<8:05:02,  1.38it/s] 17%|█▋        | 7957/48008 [1:08:26<7:20:42,  1.51it/s] 17%|█▋        | 7958/48008 [1:08:27<6:32:00,  1.70it/s] 17%|█▋        | 7959/48008 [1:08:27<6:10:58,  1.80it/s] 17%|█▋        | 7960/48008 [1:08:28<6:04:22,  1.83it/s] 17%|█▋        | 7961/48008 [1:08:28<5:38:13,  1.97it/s] 17%|█▋        | 7962/48008 [1:08:29<5:38:10,  1.97it/s] 17%|█▋        | 7963/48008 [1:08:29<5:33:41,  2.00it/s] 17%|█▋        | 7964/48008 [1:08:30<5:37:13,  1.98it/s] 17%|█▋        | 7965/48008 [1:08:30<5:31:42,  2.01it/s] 17%|█▋        | 7966/48008 [1:08:31<5:28:48,  2.03it/s] 17%|█▋        | 7967/48008 [1:08:31<5:12:50,  2.13it/s] 17%|█▋        | 7968/48008 [1:08:32<5:20:44,  2.08it/s] 17%|█▋        | 7969/48008 [1:08:32<5:32:58,  2.00it/s] 17%|█▋        | 7970/48008 [1:08:33<5:37:10,  1.98it/s] 17%|█▋        | 7971/48008 [1:08:33<5:19:21,  2.09it/s] 17%|█▋        | 7972/48008 [1:08:34<5:07:03,  2.17it/s] 17%|█▋        | 7973/48008 [1:08:34<5:10:14,  2.15it/s] 17%|█▋        | 7974/48008 [1:08:35<5:13:41,  2.13it/s] 17%|█▋        | 7975/48008 [1:08:35<5:02:17,  2.21it/s] 17%|█▋        | 7976/48008 [1:08:35<4:54:49,  2.26it/s] 17%|█▋        | 7977/48008 [1:08:36<5:06:19,  2.18it/s] 17%|█▋        | 7978/48008 [1:08:36<4:57:43,  2.24it/s] 17%|█▋        | 7979/48008 [1:08:37<5:04:32,  2.19it/s] 17%|█▋        | 7980/48008 [1:08:37<4:56:49,  2.25it/s] 17%|█▋        | 7981/48008 [1:08:38<4:44:16,  2.35it/s] 17%|█▋        | 7982/48008 [1:08:38<4:55:52,  2.25it/s] 17%|█▋        | 7983/48008 [1:08:38<4:52:33,  2.28it/s] 17%|█▋        | 7984/48008 [1:08:39<6:21:08,  1.75it/s] 17%|█▋        | 7985/48008 [1:08:40<6:03:36,  1.83it/s] 17%|█▋        | 7986/48008 [1:08:40<5:54:19,  1.88it/s] 17%|█▋        | 7987/48008 [1:08:41<5:31:06,  2.01it/s] 17%|█▋        | 7988/48008 [1:08:41<5:15:30,  2.11it/s] 17%|█▋        | 7989/48008 [1:08:42<5:18:29,  2.09it/s] 17%|█▋        | 7990/48008 [1:08:42<5:19:30,  2.09it/s] 17%|█▋        | 7991/48008 [1:08:43<5:23:43,  2.06it/s] 17%|█▋        | 7992/48008 [1:08:43<5:21:59,  2.07it/s] 17%|█▋        | 7993/48008 [1:08:44<5:08:56,  2.16it/s] 17%|█▋        | 7994/48008 [1:08:44<6:32:45,  1.70it/s] 17%|█▋        | 7995/48008 [1:08:45<6:22:01,  1.75it/s] 17%|█▋        | 7996/48008 [1:08:45<5:50:50,  1.90it/s] 17%|█▋        | 7997/48008 [1:08:46<5:28:59,  2.03it/s] 17%|█▋        | 7998/48008 [1:08:46<5:27:22,  2.04it/s] 17%|█▋        | 7999/48008 [1:08:47<5:30:28,  2.02it/s] 17%|█▋        | 8000/48008 [1:08:47<6:05:36,  1.82it/s]{'loss': 4.257, 'grad_norm': 0.43919870257377625, 'learning_rate': 0.00016667638726878853, 'epoch': 0.17}                                                         17%|█▋        | 8000/48008 [1:08:47<6:05:36,  1.82it/s]
 17%|█▋        | 8001/48008 [1:08:48<5:56:08,  1.87it/s] 17%|█▋        | 8002/48008 [1:08:48<5:48:57,  1.91it/s] 17%|█▋        | 8003/48008 [1:08:49<5:39:36,  1.96it/s] 17%|█▋        | 8004/48008 [1:08:49<5:33:58,  2.00it/s] 17%|█▋        | 8005/48008 [1:08:50<5:29:18,  2.02it/s] 17%|█▋        | 8006/48008 [1:08:50<5:13:35,  2.13it/s] 17%|█▋        | 8007/48008 [1:08:51<5:19:52,  2.08it/s] 17%|█▋        | 8008/48008 [1:08:51<5:28:03,  2.03it/s] 17%|█▋        | 8009/48008 [1:08:52<5:29:22,  2.02it/s] 17%|█▋        | 8010/48008 [1:08:52<5:31:53,  2.01it/s] 17%|█▋        | 8011/48008 [1:08:53<5:15:42,  2.11it/s] 17%|█▋        | 8012/48008 [1:08:53<5:03:19,  2.20it/s] 17%|█▋        | 8013/48008 [1:08:54<5:12:42,  2.13it/s] 17%|█▋        | 8014/48008 [1:08:54<5:26:01,  2.04it/s] 17%|█▋        | 8015/48008 [1:08:55<5:23:35,  2.06it/s] 17%|█▋        | 8016/48008 [1:08:55<5:26:59,  2.04it/s] 17%|█▋        | 8017/48008 [1:08:56<7:57:58,  1.39it/s] 17%|█▋        | 8018/48008 [1:08:57<7:10:46,  1.55it/s] 17%|█▋        | 8019/48008 [1:08:57<6:37:47,  1.68it/s] 17%|█▋        | 8020/48008 [1:08:58<6:01:25,  1.84it/s] 17%|█▋        | 8021/48008 [1:08:58<5:48:42,  1.91it/s] 17%|█▋        | 8022/48008 [1:08:59<5:40:31,  1.96it/s] 17%|█▋        | 8023/48008 [1:08:59<5:38:57,  1.97it/s] 17%|█▋        | 8024/48008 [1:09:00<5:32:54,  2.00it/s] 17%|█▋        | 8025/48008 [1:09:00<5:34:48,  1.99it/s] 17%|█▋        | 8026/48008 [1:09:01<5:17:41,  2.10it/s] 17%|█▋        | 8027/48008 [1:09:01<5:25:20,  2.05it/s] 17%|█▋        | 8028/48008 [1:09:02<5:27:29,  2.03it/s] 17%|█▋        | 8029/48008 [1:09:02<5:25:33,  2.05it/s] 17%|█▋        | 8030/48008 [1:09:03<5:27:38,  2.03it/s] 17%|█▋        | 8031/48008 [1:09:03<5:26:17,  2.04it/s] 17%|█▋        | 8032/48008 [1:09:04<5:24:58,  2.05it/s] 17%|█▋        | 8033/48008 [1:09:04<5:31:19,  2.01it/s] 17%|█▋        | 8034/48008 [1:09:05<5:27:41,  2.03it/s] 17%|█▋        | 8035/48008 [1:09:05<5:25:16,  2.05it/s] 17%|█▋        | 8036/48008 [1:09:06<5:31:16,  2.01it/s] 17%|█▋        | 8037/48008 [1:09:06<6:06:03,  1.82it/s] 17%|█▋        | 8038/48008 [1:09:07<5:51:08,  1.90it/s] 17%|█▋        | 8039/48008 [1:09:08<8:17:46,  1.34it/s] 17%|█▋        | 8040/48008 [1:09:09<7:27:59,  1.49it/s] 17%|█▋        | 8041/48008 [1:09:09<6:48:31,  1.63it/s] 17%|█▋        | 8042/48008 [1:09:10<6:28:59,  1.71it/s] 17%|█▋        | 8043/48008 [1:09:10<5:55:00,  1.88it/s] 17%|█▋        | 8044/48008 [1:09:10<5:48:51,  1.91it/s] 17%|█▋        | 8045/48008 [1:09:12<8:14:40,  1.35it/s] 17%|█▋        | 8046/48008 [1:09:12<7:26:11,  1.49it/s] 17%|█▋        | 8047/48008 [1:09:13<6:53:27,  1.61it/s] 17%|█▋        | 8048/48008 [1:09:13<6:31:06,  1.70it/s] 17%|█▋        | 8049/48008 [1:09:14<6:10:04,  1.80it/s] 17%|█▋        | 8050/48008 [1:09:15<8:30:39,  1.30it/s]                                                        {'loss': 4.3455, 'grad_norm': 0.29278355836868286, 'learning_rate': 0.00016646808865189138, 'epoch': 0.17}
 17%|█▋        | 8050/48008 [1:09:15<8:30:39,  1.30it/s] 17%|█▋        | 8051/48008 [1:09:15<7:39:04,  1.45it/s] 17%|█▋        | 8052/48008 [1:09:16<6:57:39,  1.59it/s] 17%|█▋        | 8053/48008 [1:09:17<9:01:22,  1.23it/s] 17%|█▋        | 8054/48008 [1:09:18<8:00:38,  1.39it/s] 17%|█▋        | 8055/48008 [1:09:18<7:00:02,  1.59it/s] 17%|█▋        | 8056/48008 [1:09:19<6:34:16,  1.69it/s] 17%|█▋        | 8057/48008 [1:09:19<6:23:11,  1.74it/s] 17%|█▋        | 8058/48008 [1:09:20<6:03:56,  1.83it/s] 17%|█▋        | 8059/48008 [1:09:20<6:02:50,  1.84it/s] 17%|█▋        | 8060/48008 [1:09:21<5:54:48,  1.88it/s] 17%|█▋        | 8061/48008 [1:09:21<5:44:08,  1.93it/s] 17%|█▋        | 8062/48008 [1:09:22<5:23:53,  2.06it/s] 17%|█▋        | 8063/48008 [1:09:22<5:27:09,  2.03it/s] 17%|█▋        | 8064/48008 [1:09:23<5:25:12,  2.05it/s] 17%|█▋        | 8065/48008 [1:09:23<5:23:44,  2.06it/s] 17%|█▋        | 8066/48008 [1:09:24<5:33:30,  2.00it/s] 17%|█▋        | 8067/48008 [1:09:24<5:34:04,  1.99it/s] 17%|█▋        | 8068/48008 [1:09:25<5:17:25,  2.10it/s] 17%|█▋        | 8069/48008 [1:09:25<5:18:08,  2.09it/s] 17%|█▋        | 8070/48008 [1:09:25<5:23:33,  2.06it/s] 17%|█▋        | 8071/48008 [1:09:26<5:29:41,  2.02it/s] 17%|█▋        | 8072/48008 [1:09:26<5:14:00,  2.12it/s] 17%|█▋        | 8073/48008 [1:09:27<5:54:29,  1.88it/s] 17%|█▋        | 8074/48008 [1:09:28<5:51:05,  1.90it/s] 17%|█▋        | 8075/48008 [1:09:28<5:40:57,  1.95it/s] 17%|█▋        | 8076/48008 [1:09:29<5:34:43,  1.99it/s] 17%|█▋        | 8077/48008 [1:09:29<5:30:13,  2.02it/s] 17%|█▋        | 8078/48008 [1:09:30<5:30:46,  2.01it/s] 17%|█▋        | 8079/48008 [1:09:30<5:14:22,  2.12it/s] 17%|█▋        | 8080/48008 [1:09:30<5:20:22,  2.08it/s] 17%|█▋        | 8081/48008 [1:09:31<5:32:25,  2.00it/s] 17%|█▋        | 8082/48008 [1:09:31<5:15:47,  2.11it/s] 17%|█▋        | 8083/48008 [1:09:32<5:25:03,  2.05it/s] 17%|█▋        | 8084/48008 [1:09:32<5:24:06,  2.05it/s] 17%|█▋        | 8085/48008 [1:09:33<5:22:12,  2.07it/s] 17%|█▋        | 8086/48008 [1:09:33<5:21:45,  2.07it/s] 17%|█▋        | 8087/48008 [1:09:34<5:25:17,  2.05it/s] 17%|█▋        | 8088/48008 [1:09:34<5:11:06,  2.14it/s] 17%|█▋        | 8089/48008 [1:09:35<5:13:18,  2.12it/s] 17%|█▋        | 8090/48008 [1:09:35<5:14:58,  2.11it/s] 17%|█▋        | 8091/48008 [1:09:36<5:16:40,  2.10it/s] 17%|█▋        | 8092/48008 [1:09:36<5:18:24,  2.09it/s] 17%|█▋        | 8093/48008 [1:09:37<5:19:41,  2.08it/s] 17%|█▋        | 8094/48008 [1:09:37<5:20:18,  2.08it/s] 17%|█▋        | 8095/48008 [1:09:38<5:19:17,  2.08it/s] 17%|█▋        | 8096/48008 [1:09:38<5:27:37,  2.03it/s] 17%|█▋        | 8097/48008 [1:09:39<5:25:09,  2.05it/s] 17%|█▋        | 8098/48008 [1:09:39<6:02:03,  1.84it/s] 17%|█▋        | 8099/48008 [1:09:40<5:59:20,  1.85it/s] 17%|█▋        | 8100/48008 [1:09:41<8:20:19,  1.33it/s]                                                        {'loss': 4.3004, 'grad_norm': 0.32865098118782043, 'learning_rate': 0.00016625979003499417, 'epoch': 0.17}
 17%|█▋        | 8100/48008 [1:09:41<8:20:19,  1.33it/s] 17%|█▋        | 8101/48008 [1:09:42<8:05:47,  1.37it/s] 17%|█▋        | 8102/48008 [1:09:42<7:15:50,  1.53it/s] 17%|█▋        | 8103/48008 [1:09:43<6:51:35,  1.62it/s] 17%|█▋        | 8104/48008 [1:09:43<6:23:12,  1.74it/s] 17%|█▋        | 8105/48008 [1:09:44<6:03:37,  1.83it/s] 17%|█▋        | 8106/48008 [1:09:44<5:57:59,  1.86it/s] 17%|█▋        | 8107/48008 [1:09:45<5:54:09,  1.88it/s] 17%|█▋        | 8108/48008 [1:09:45<5:58:02,  1.86it/s] 17%|█▋        | 8109/48008 [1:09:46<5:46:10,  1.92it/s] 17%|█▋        | 8110/48008 [1:09:46<5:39:09,  1.96it/s] 17%|█▋        | 8111/48008 [1:09:47<5:33:04,  2.00it/s] 17%|█▋        | 8112/48008 [1:09:47<5:27:57,  2.03it/s] 17%|█▋        | 8113/48008 [1:09:48<6:04:10,  1.83it/s] 17%|█▋        | 8114/48008 [1:09:48<5:55:08,  1.87it/s] 17%|█▋        | 8115/48008 [1:09:49<5:44:28,  1.93it/s] 17%|█▋        | 8116/48008 [1:09:49<5:37:19,  1.97it/s] 17%|█▋        | 8117/48008 [1:09:50<5:19:34,  2.08it/s] 17%|█▋        | 8118/48008 [1:09:50<5:19:09,  2.08it/s] 17%|█▋        | 8119/48008 [1:09:51<5:06:04,  2.17it/s] 17%|█▋        | 8120/48008 [1:09:51<5:09:34,  2.15it/s] 17%|█▋        | 8121/48008 [1:09:52<4:59:14,  2.22it/s] 17%|█▋        | 8122/48008 [1:09:52<5:04:51,  2.18it/s] 17%|█▋        | 8123/48008 [1:09:53<5:08:45,  2.15it/s] 17%|█▋        | 8124/48008 [1:09:53<5:15:48,  2.10it/s] 17%|█▋        | 8125/48008 [1:09:54<5:21:36,  2.07it/s] 17%|█▋        | 8126/48008 [1:09:54<5:20:50,  2.07it/s] 17%|█▋        | 8127/48008 [1:09:55<5:24:40,  2.05it/s] 17%|█▋        | 8128/48008 [1:09:55<5:30:18,  2.01it/s] 17%|█▋        | 8129/48008 [1:09:56<5:27:05,  2.03it/s] 17%|█▋        | 8130/48008 [1:09:56<5:24:42,  2.05it/s] 17%|█▋        | 8131/48008 [1:09:56<5:09:22,  2.15it/s] 17%|█▋        | 8132/48008 [1:09:57<5:13:15,  2.12it/s] 17%|█▋        | 8133/48008 [1:09:57<5:14:49,  2.11it/s] 17%|█▋        | 8134/48008 [1:09:58<5:23:02,  2.06it/s] 17%|█▋        | 8135/48008 [1:09:58<5:21:22,  2.07it/s] 17%|█▋        | 8136/48008 [1:09:59<5:19:55,  2.08it/s] 17%|█▋        | 8137/48008 [1:10:00<5:58:54,  1.85it/s] 17%|█▋        | 8138/48008 [1:10:00<5:51:23,  1.89it/s] 17%|█▋        | 8139/48008 [1:10:01<5:40:56,  1.95it/s] 17%|█▋        | 8140/48008 [1:10:01<5:34:35,  1.99it/s] 17%|█▋        | 8141/48008 [1:10:02<5:37:01,  1.97it/s] 17%|█▋        | 8142/48008 [1:10:02<5:31:50,  2.00it/s] 17%|█▋        | 8143/48008 [1:10:03<6:07:32,  1.81it/s] 17%|█▋        | 8144/48008 [1:10:03<5:52:48,  1.88it/s] 17%|█▋        | 8145/48008 [1:10:04<5:41:44,  1.94it/s] 17%|█▋        | 8146/48008 [1:10:04<5:39:24,  1.96it/s] 17%|█▋        | 8147/48008 [1:10:05<5:40:33,  1.95it/s] 17%|█▋        | 8148/48008 [1:10:05<5:21:03,  2.07it/s] 17%|█▋        | 8149/48008 [1:10:06<5:07:50,  2.16it/s] 17%|█▋        | 8150/48008 [1:10:06<5:12:12,  2.13it/s]                                                        {'loss': 4.2574, 'grad_norm': 0.2221652716398239, 'learning_rate': 0.00016605149141809698, 'epoch': 0.17} 17%|█▋        | 8150/48008 [1:10:06<5:12:12,  2.13it/s]
 17%|█▋        | 8151/48008 [1:10:07<5:18:18,  2.09it/s] 17%|█▋        | 8152/48008 [1:10:07<5:18:32,  2.09it/s] 17%|█▋        | 8153/48008 [1:10:07<5:19:09,  2.08it/s] 17%|█▋        | 8154/48008 [1:10:08<5:19:07,  2.08it/s] 17%|█▋        | 8155/48008 [1:10:08<5:22:41,  2.06it/s] 17%|█▋        | 8156/48008 [1:10:09<5:07:33,  2.16it/s] 17%|█▋        | 8157/48008 [1:10:09<5:10:08,  2.14it/s] 17%|█▋        | 8158/48008 [1:10:10<4:59:03,  2.22it/s] 17%|█▋        | 8159/48008 [1:10:10<4:51:21,  2.28it/s] 17%|█▋        | 8160/48008 [1:10:11<5:01:16,  2.20it/s] 17%|█▋        | 8161/48008 [1:10:11<5:06:37,  2.17it/s] 17%|█▋        | 8162/48008 [1:10:12<5:10:05,  2.14it/s] 17%|█▋        | 8163/48008 [1:10:12<5:17:03,  2.09it/s] 17%|█▋        | 8164/48008 [1:10:13<5:17:54,  2.09it/s] 17%|█▋        | 8165/48008 [1:10:13<5:30:33,  2.01it/s] 17%|█▋        | 8166/48008 [1:10:14<5:27:40,  2.03it/s] 17%|█▋        | 8167/48008 [1:10:14<5:25:33,  2.04it/s] 17%|█▋        | 8168/48008 [1:10:15<5:28:16,  2.02it/s] 17%|█▋        | 8169/48008 [1:10:15<5:25:44,  2.04it/s] 17%|█▋        | 8170/48008 [1:10:15<5:10:47,  2.14it/s] 17%|█▋        | 8171/48008 [1:10:16<5:13:37,  2.12it/s] 17%|█▋        | 8172/48008 [1:10:17<5:23:05,  2.05it/s] 17%|█▋        | 8173/48008 [1:10:17<5:32:36,  2.00it/s] 17%|█▋        | 8174/48008 [1:10:18<5:32:18,  2.00it/s] 17%|█▋        | 8175/48008 [1:10:18<5:28:12,  2.02it/s] 17%|█▋        | 8176/48008 [1:10:19<5:26:29,  2.03it/s] 17%|█▋        | 8177/48008 [1:10:19<5:30:36,  2.01it/s] 17%|█▋        | 8178/48008 [1:10:19<5:26:49,  2.03it/s] 17%|█▋        | 8179/48008 [1:10:21<7:57:07,  1.39it/s] 17%|█▋        | 8180/48008 [1:10:21<7:11:29,  1.54it/s] 17%|█▋        | 8181/48008 [1:10:22<6:41:44,  1.65it/s] 17%|█▋        | 8182/48008 [1:10:22<6:23:55,  1.73it/s] 17%|█▋        | 8183/48008 [1:10:23<6:16:29,  1.76it/s] 17%|█▋        | 8184/48008 [1:10:23<5:58:33,  1.85it/s] 17%|█▋        | 8185/48008 [1:10:24<5:50:21,  1.89it/s] 17%|█▋        | 8186/48008 [1:10:24<5:45:45,  1.92it/s] 17%|█▋        | 8187/48008 [1:10:25<5:38:02,  1.96it/s] 17%|█▋        | 8188/48008 [1:10:25<5:40:26,  1.95it/s] 17%|█▋        | 8189/48008 [1:10:26<5:45:48,  1.92it/s] 17%|█▋        | 8190/48008 [1:10:27<8:12:21,  1.35it/s] 17%|█▋        | 8191/48008 [1:10:27<7:07:46,  1.55it/s] 17%|█▋        | 8192/48008 [1:10:28<6:35:42,  1.68it/s] 17%|█▋        | 8193/48008 [1:10:28<6:21:06,  1.74it/s] 17%|█▋        | 8194/48008 [1:10:29<6:02:25,  1.83it/s] 17%|█▋        | 8195/48008 [1:10:29<5:36:23,  1.97it/s] 17%|█▋        | 8196/48008 [1:10:30<5:31:21,  2.00it/s] 17%|█▋        | 8197/48008 [1:10:30<5:34:51,  1.98it/s] 17%|█▋        | 8198/48008 [1:10:31<5:34:31,  1.98it/s] 17%|█▋        | 8199/48008 [1:10:31<5:36:13,  1.97it/s] 17%|█▋        | 8200/48008 [1:10:32<5:40:24,  1.95it/s]                                                        {'loss': 4.2507, 'grad_norm': 0.20253966748714447, 'learning_rate': 0.0001658431928011998, 'epoch': 0.17}
 17%|█▋        | 8200/48008 [1:10:32<5:40:24,  1.95it/s] 17%|█▋        | 8201/48008 [1:10:32<5:46:22,  1.92it/s] 17%|█▋        | 8202/48008 [1:10:33<6:16:41,  1.76it/s] 17%|█▋        | 8203/48008 [1:10:34<5:46:47,  1.91it/s] 17%|█▋        | 8204/48008 [1:10:34<5:42:00,  1.94it/s] 17%|█▋        | 8205/48008 [1:10:35<5:46:50,  1.91it/s] 17%|█▋        | 8206/48008 [1:10:35<5:24:19,  2.05it/s] 17%|█▋        | 8207/48008 [1:10:35<5:22:25,  2.06it/s] 17%|█▋        | 8208/48008 [1:10:36<5:21:36,  2.06it/s] 17%|█▋        | 8209/48008 [1:10:36<5:20:42,  2.07it/s] 17%|█▋        | 8210/48008 [1:10:37<5:19:37,  2.08it/s] 17%|█▋        | 8211/48008 [1:10:37<5:18:23,  2.08it/s] 17%|█▋        | 8212/48008 [1:10:38<5:05:24,  2.17it/s] 17%|█▋        | 8213/48008 [1:10:39<6:28:09,  1.71it/s] 17%|█▋        | 8214/48008 [1:10:39<6:06:18,  1.81it/s] 17%|█▋        | 8215/48008 [1:10:40<5:39:13,  1.96it/s] 17%|█▋        | 8216/48008 [1:10:40<5:41:51,  1.94it/s] 17%|█▋        | 8217/48008 [1:10:41<5:45:40,  1.92it/s] 17%|█▋        | 8218/48008 [1:10:41<5:46:05,  1.92it/s] 17%|█▋        | 8219/48008 [1:10:42<5:49:28,  1.90it/s] 17%|█▋        | 8220/48008 [1:10:42<5:39:57,  1.95it/s] 17%|█▋        | 8221/48008 [1:10:43<7:27:25,  1.48it/s] 17%|█▋        | 8222/48008 [1:10:44<6:49:21,  1.62it/s] 17%|█▋        | 8223/48008 [1:10:44<6:09:06,  1.80it/s] 17%|█▋        | 8224/48008 [1:10:45<5:53:33,  1.88it/s] 17%|█▋        | 8225/48008 [1:10:45<5:42:05,  1.94it/s] 17%|█▋        | 8226/48008 [1:10:46<5:45:47,  1.92it/s] 17%|█▋        | 8227/48008 [1:10:46<5:49:11,  1.90it/s] 17%|█▋        | 8228/48008 [1:10:47<6:58:01,  1.59it/s] 17%|█▋        | 8229/48008 [1:10:48<6:27:12,  1.71it/s] 17%|█▋        | 8230/48008 [1:10:48<6:11:15,  1.79it/s] 17%|█▋        | 8231/48008 [1:10:49<5:59:45,  1.84it/s] 17%|█▋        | 8232/48008 [1:10:49<5:46:50,  1.91it/s] 17%|█▋        | 8233/48008 [1:10:49<5:38:37,  1.96it/s] 17%|█▋        | 8234/48008 [1:10:50<5:40:48,  1.95it/s] 17%|█▋        | 8235/48008 [1:10:50<5:21:18,  2.06it/s] 17%|█▋        | 8236/48008 [1:10:52<7:53:01,  1.40it/s] 17%|█▋        | 8237/48008 [1:10:52<7:07:07,  1.55it/s] 17%|█▋        | 8238/48008 [1:10:53<6:34:29,  1.68it/s] 17%|█▋        | 8239/48008 [1:10:53<5:51:53,  1.88it/s] 17%|█▋        | 8240/48008 [1:10:54<5:45:41,  1.92it/s] 17%|█▋        | 8241/48008 [1:10:54<5:43:12,  1.93it/s] 17%|█▋        | 8242/48008 [1:10:55<5:40:37,  1.95it/s] 17%|█▋        | 8243/48008 [1:10:55<5:20:35,  2.07it/s] 17%|█▋        | 8244/48008 [1:10:55<5:19:39,  2.07it/s] 17%|█▋        | 8245/48008 [1:10:56<5:23:56,  2.05it/s] 17%|█▋        | 8246/48008 [1:10:56<5:25:59,  2.03it/s] 17%|█▋        | 8247/48008 [1:10:57<5:23:38,  2.05it/s] 17%|█▋        | 8248/48008 [1:10:57<5:33:10,  1.99it/s] 17%|█▋        | 8249/48008 [1:10:58<5:32:41,  1.99it/s] 17%|█▋        | 8250/48008 [1:10:58<5:35:33,  1.97it/s]                                                        {'loss': 4.3189, 'grad_norm': 0.30441537499427795, 'learning_rate': 0.00016563489418430262, 'epoch': 0.17}
 17%|█▋        | 8250/48008 [1:10:58<5:35:33,  1.97it/s] 17%|█▋        | 8251/48008 [1:10:59<5:30:25,  2.01it/s] 17%|█▋        | 8252/48008 [1:10:59<5:26:57,  2.03it/s] 17%|█▋        | 8253/48008 [1:11:00<5:29:07,  2.01it/s] 17%|█▋        | 8254/48008 [1:11:00<5:29:38,  2.01it/s] 17%|█▋        | 8255/48008 [1:11:01<5:26:12,  2.03it/s] 17%|█▋        | 8256/48008 [1:11:01<5:11:05,  2.13it/s] 17%|█▋        | 8257/48008 [1:11:02<5:16:59,  2.09it/s] 17%|█▋        | 8258/48008 [1:11:02<5:17:22,  2.09it/s] 17%|█▋        | 8259/48008 [1:11:03<5:18:12,  2.08it/s] 17%|█▋        | 8260/48008 [1:11:03<5:17:43,  2.08it/s] 17%|█▋        | 8261/48008 [1:11:04<5:18:23,  2.08it/s] 17%|█▋        | 8262/48008 [1:11:04<5:26:41,  2.03it/s] 17%|█▋        | 8263/48008 [1:11:05<5:23:03,  2.05it/s] 17%|█▋        | 8264/48008 [1:11:05<5:21:00,  2.06it/s] 17%|█▋        | 8265/48008 [1:11:06<5:07:44,  2.15it/s] 17%|█▋        | 8266/48008 [1:11:06<5:13:58,  2.11it/s] 17%|█▋        | 8267/48008 [1:11:07<5:26:08,  2.03it/s] 17%|█▋        | 8268/48008 [1:11:07<5:36:04,  1.97it/s] 17%|█▋        | 8269/48008 [1:11:08<5:17:44,  2.08it/s] 17%|█▋        | 8270/48008 [1:11:08<5:05:05,  2.17it/s] 17%|█▋        | 8271/48008 [1:11:09<5:08:07,  2.15it/s] 17%|█▋        | 8272/48008 [1:11:09<4:57:56,  2.22it/s] 17%|█▋        | 8273/48008 [1:11:09<5:08:46,  2.14it/s] 17%|█▋        | 8274/48008 [1:11:10<4:58:38,  2.22it/s] 17%|█▋        | 8275/48008 [1:11:10<5:08:16,  2.15it/s] 17%|█▋        | 8276/48008 [1:11:11<5:10:38,  2.13it/s] 17%|█▋        | 8277/48008 [1:11:11<5:12:27,  2.12it/s] 17%|█▋        | 8278/48008 [1:11:12<5:17:50,  2.08it/s] 17%|█▋        | 8279/48008 [1:11:12<5:17:52,  2.08it/s] 17%|█▋        | 8280/48008 [1:11:13<5:21:38,  2.06it/s] 17%|█▋        | 8281/48008 [1:11:13<5:20:43,  2.06it/s] 17%|█▋        | 8282/48008 [1:11:14<5:19:18,  2.07it/s] 17%|█▋        | 8283/48008 [1:11:14<5:26:27,  2.03it/s] 17%|█▋        | 8284/48008 [1:11:15<5:23:19,  2.05it/s] 17%|█▋        | 8285/48008 [1:11:15<5:20:51,  2.06it/s] 17%|█▋        | 8286/48008 [1:11:16<5:20:09,  2.07it/s] 17%|█▋        | 8287/48008 [1:11:16<5:24:05,  2.04it/s] 17%|█▋        | 8288/48008 [1:11:17<5:08:47,  2.14it/s] 17%|█▋        | 8289/48008 [1:11:17<5:11:52,  2.12it/s] 17%|█▋        | 8290/48008 [1:11:18<5:13:22,  2.11it/s] 17%|█▋        | 8291/48008 [1:11:18<5:20:04,  2.07it/s] 17%|█▋        | 8292/48008 [1:11:19<5:56:59,  1.85it/s] 17%|█▋        | 8293/48008 [1:11:19<5:49:02,  1.90it/s] 17%|█▋        | 8294/48008 [1:11:20<5:43:56,  1.92it/s] 17%|█▋        | 8295/48008 [1:11:20<5:43:18,  1.93it/s] 17%|█▋        | 8296/48008 [1:11:21<5:36:05,  1.97it/s] 17%|█▋        | 8297/48008 [1:11:21<5:30:31,  2.00it/s] 17%|█▋        | 8298/48008 [1:11:22<5:27:47,  2.02it/s] 17%|█▋        | 8299/48008 [1:11:22<5:29:17,  2.01it/s] 17%|█▋        | 8300/48008 [1:11:23<5:13:06,  2.11it/s]                                                        {'loss': 4.2505, 'grad_norm': 0.20042479038238525, 'learning_rate': 0.00016542659556740546, 'epoch': 0.17}
 17%|█▋        | 8300/48008 [1:11:23<5:13:06,  2.11it/s] 17%|█▋        | 8301/48008 [1:11:23<5:19:50,  2.07it/s] 17%|█▋        | 8302/48008 [1:11:24<5:19:25,  2.07it/s] 17%|█▋        | 8303/48008 [1:11:24<5:27:20,  2.02it/s] 17%|█▋        | 8304/48008 [1:11:25<5:23:20,  2.05it/s] 17%|█▋        | 8305/48008 [1:11:26<7:55:59,  1.39it/s] 17%|█▋        | 8306/48008 [1:11:26<7:13:14,  1.53it/s] 17%|█▋        | 8307/48008 [1:11:27<6:50:28,  1.61it/s] 17%|█▋        | 8308/48008 [1:11:27<6:09:12,  1.79it/s] 17%|█▋        | 8309/48008 [1:11:28<7:11:23,  1.53it/s] 17%|█▋        | 8310/48008 [1:11:29<6:37:49,  1.66it/s] 17%|█▋        | 8311/48008 [1:11:29<6:14:13,  1.77it/s] 17%|█▋        | 8312/48008 [1:11:30<6:02:40,  1.82it/s] 17%|█▋        | 8313/48008 [1:11:30<5:53:40,  1.87it/s] 17%|█▋        | 8314/48008 [1:11:31<5:41:47,  1.94it/s] 17%|█▋        | 8315/48008 [1:11:31<5:38:37,  1.95it/s] 17%|█▋        | 8316/48008 [1:11:32<5:36:06,  1.97it/s] 17%|█▋        | 8317/48008 [1:11:32<5:30:55,  2.00it/s] 17%|█▋        | 8318/48008 [1:11:33<5:14:35,  2.10it/s] 17%|█▋        | 8319/48008 [1:11:33<5:20:27,  2.06it/s] 17%|█▋        | 8320/48008 [1:11:34<5:23:26,  2.05it/s] 17%|█▋        | 8321/48008 [1:11:34<5:22:04,  2.05it/s] 17%|█▋        | 8322/48008 [1:11:35<5:28:55,  2.01it/s] 17%|█▋        | 8323/48008 [1:11:35<5:29:06,  2.01it/s] 17%|█▋        | 8324/48008 [1:11:36<5:26:06,  2.03it/s] 17%|█▋        | 8325/48008 [1:11:36<5:23:40,  2.04it/s] 17%|█▋        | 8326/48008 [1:11:37<6:39:24,  1.66it/s] 17%|█▋        | 8327/48008 [1:11:37<6:14:39,  1.77it/s] 17%|█▋        | 8328/48008 [1:11:38<5:57:20,  1.85it/s] 17%|█▋        | 8329/48008 [1:11:38<5:45:59,  1.91it/s] 17%|█▋        | 8330/48008 [1:11:39<5:37:06,  1.96it/s] 17%|█▋        | 8331/48008 [1:11:39<5:30:39,  2.00it/s] 17%|█▋        | 8332/48008 [1:11:40<5:26:02,  2.03it/s] 17%|█▋        | 8333/48008 [1:11:40<5:27:09,  2.02it/s] 17%|█▋        | 8334/48008 [1:11:41<5:31:46,  1.99it/s] 17%|█▋        | 8335/48008 [1:11:42<7:59:42,  1.38it/s] 17%|█▋        | 8336/48008 [1:11:43<7:11:59,  1.53it/s] 17%|█▋        | 8337/48008 [1:11:43<6:42:52,  1.64it/s] 17%|█▋        | 8338/48008 [1:11:44<6:16:19,  1.76it/s] 17%|█▋        | 8339/48008 [1:11:44<5:44:46,  1.92it/s] 17%|█▋        | 8340/48008 [1:11:44<5:43:32,  1.92it/s] 17%|█▋        | 8341/48008 [1:11:45<5:23:06,  2.05it/s] 17%|█▋        | 8342/48008 [1:11:45<5:08:03,  2.15it/s] 17%|█▋        | 8343/48008 [1:11:46<5:19:32,  2.07it/s] 17%|█▋        | 8344/48008 [1:11:46<5:29:50,  2.00it/s] 17%|█▋        | 8345/48008 [1:11:47<5:33:53,  1.98it/s] 17%|█▋        | 8346/48008 [1:11:47<5:36:32,  1.96it/s] 17%|█▋        | 8347/48008 [1:11:48<5:18:00,  2.08it/s] 17%|█▋        | 8348/48008 [1:11:48<5:18:30,  2.08it/s] 17%|█▋        | 8349/48008 [1:11:49<5:18:37,  2.07it/s] 17%|█▋        | 8350/48008 [1:11:49<5:05:07,  2.17it/s]                                                        {'loss': 4.2787, 'grad_norm': 0.18291030824184418, 'learning_rate': 0.00016521829695050825, 'epoch': 0.17} 17%|█▋        | 8350/48008 [1:11:49<5:05:07,  2.17it/s]
 17%|█▋        | 8351/48008 [1:11:50<4:55:45,  2.23it/s] 17%|█▋        | 8352/48008 [1:11:50<4:48:34,  2.29it/s] 17%|█▋        | 8353/48008 [1:11:50<4:57:17,  2.22it/s] 17%|█▋        | 8354/48008 [1:11:51<4:50:31,  2.27it/s] 17%|█▋        | 8355/48008 [1:11:51<5:02:19,  2.19it/s] 17%|█▋        | 8356/48008 [1:11:52<5:06:57,  2.15it/s] 17%|█▋        | 8357/48008 [1:11:52<5:17:07,  2.08it/s] 17%|█▋        | 8358/48008 [1:11:53<5:21:18,  2.06it/s] 17%|█▋        | 8359/48008 [1:11:53<5:06:22,  2.16it/s] 17%|█▋        | 8360/48008 [1:11:54<5:09:55,  2.13it/s] 17%|█▋        | 8361/48008 [1:11:54<5:24:06,  2.04it/s] 17%|█▋        | 8362/48008 [1:11:55<5:34:59,  1.97it/s] 17%|█▋        | 8363/48008 [1:11:55<5:16:09,  2.09it/s] 17%|█▋        | 8364/48008 [1:11:56<5:16:49,  2.09it/s] 17%|█▋        | 8365/48008 [1:11:56<5:54:48,  1.86it/s] 17%|█▋        | 8366/48008 [1:11:57<5:43:45,  1.92it/s] 17%|█▋        | 8367/48008 [1:11:57<5:47:11,  1.90it/s] 17%|█▋        | 8368/48008 [1:11:58<5:25:22,  2.03it/s] 17%|█▋        | 8369/48008 [1:11:58<5:28:07,  2.01it/s] 17%|█▋        | 8370/48008 [1:11:59<5:24:20,  2.04it/s] 17%|█▋        | 8371/48008 [1:11:59<5:22:29,  2.05it/s] 17%|█▋        | 8372/48008 [1:12:00<5:29:21,  2.01it/s] 17%|█▋        | 8373/48008 [1:12:00<5:25:51,  2.03it/s] 17%|█▋        | 8374/48008 [1:12:01<5:27:29,  2.02it/s] 17%|█▋        | 8375/48008 [1:12:01<5:28:58,  2.01it/s] 17%|█▋        | 8376/48008 [1:12:02<5:29:09,  2.01it/s] 17%|█▋        | 8377/48008 [1:12:02<5:34:17,  1.98it/s] 17%|█▋        | 8378/48008 [1:12:03<5:29:57,  2.00it/s] 17%|█▋        | 8379/48008 [1:12:03<5:13:17,  2.11it/s] 17%|█▋        | 8380/48008 [1:12:04<5:17:57,  2.08it/s] 17%|█▋        | 8381/48008 [1:12:04<5:04:57,  2.17it/s] 17%|█▋        | 8382/48008 [1:12:05<4:55:22,  2.24it/s] 17%|█▋        | 8383/48008 [1:12:05<5:01:39,  2.19it/s] 17%|█▋        | 8384/48008 [1:12:06<5:10:39,  2.13it/s] 17%|█▋        | 8385/48008 [1:12:06<5:50:04,  1.89it/s] 17%|█▋        | 8386/48008 [1:12:07<5:45:18,  1.91it/s] 17%|█▋        | 8387/48008 [1:12:07<5:37:04,  1.96it/s] 17%|█▋        | 8388/48008 [1:12:08<5:31:56,  1.99it/s] 17%|█▋        | 8389/48008 [1:12:09<6:45:20,  1.63it/s] 17%|█▋        | 8390/48008 [1:12:09<6:19:03,  1.74it/s] 17%|█▋        | 8391/48008 [1:12:10<6:04:59,  1.81it/s] 17%|█▋        | 8392/48008 [1:12:10<6:28:55,  1.70it/s] 17%|█▋        | 8393/48008 [1:12:11<6:07:42,  1.80it/s] 17%|█▋        | 8394/48008 [1:12:11<5:52:30,  1.87it/s] 17%|█▋        | 8395/48008 [1:12:12<5:28:00,  2.01it/s] 17%|█▋        | 8396/48008 [1:12:12<5:12:21,  2.11it/s] 17%|█▋        | 8397/48008 [1:12:12<5:01:24,  2.19it/s] 17%|█▋        | 8398/48008 [1:12:13<5:10:16,  2.13it/s] 17%|█▋        | 8399/48008 [1:12:13<5:12:21,  2.11it/s] 17%|█▋        | 8400/48008 [1:12:14<5:12:37,  2.11it/s]                                                        {'loss': 4.2763, 'grad_norm': 0.16186757385730743, 'learning_rate': 0.00016500999833361107, 'epoch': 0.17} 17%|█▋        | 8400/48008 [1:12:14<5:12:37,  2.11it/s]
 17%|█▋        | 8401/48008 [1:12:14<5:01:31,  2.19it/s] 18%|█▊        | 8402/48008 [1:12:15<5:17:00,  2.08it/s] 18%|█▊        | 8403/48008 [1:12:15<5:04:02,  2.17it/s] 18%|█▊        | 8404/48008 [1:12:16<5:46:18,  1.91it/s] 18%|█▊        | 8405/48008 [1:12:16<5:41:59,  1.93it/s] 18%|█▊        | 8406/48008 [1:12:17<5:35:17,  1.97it/s] 18%|█▊        | 8407/48008 [1:12:17<5:16:50,  2.08it/s] 18%|█▊        | 8408/48008 [1:12:18<5:16:22,  2.09it/s] 18%|█▊        | 8409/48008 [1:12:18<5:16:59,  2.08it/s] 18%|█▊        | 8410/48008 [1:12:19<5:17:33,  2.08it/s] 18%|█▊        | 8411/48008 [1:12:19<5:17:33,  2.08it/s] 18%|█▊        | 8412/48008 [1:12:20<5:16:26,  2.09it/s] 18%|█▊        | 8413/48008 [1:12:20<5:16:44,  2.08it/s] 18%|█▊        | 8414/48008 [1:12:21<5:16:08,  2.09it/s] 18%|█▊        | 8415/48008 [1:12:21<5:15:29,  2.09it/s] 18%|█▊        | 8416/48008 [1:12:22<5:02:41,  2.18it/s] 18%|█▊        | 8417/48008 [1:12:22<5:06:08,  2.16it/s] 18%|█▊        | 8418/48008 [1:12:23<5:09:27,  2.13it/s] 18%|█▊        | 8419/48008 [1:12:23<5:12:16,  2.11it/s] 18%|█▊        | 8420/48008 [1:12:24<5:52:31,  1.87it/s] 18%|█▊        | 8421/48008 [1:12:24<5:41:48,  1.93it/s] 18%|█▊        | 8422/48008 [1:12:25<6:11:52,  1.77it/s] 18%|█▊        | 8423/48008 [1:12:26<7:13:33,  1.52it/s] 18%|█▊        | 8424/48008 [1:12:26<6:24:50,  1.71it/s] 18%|█▊        | 8425/48008 [1:12:27<6:08:23,  1.79it/s] 18%|█▊        | 8426/48008 [1:12:27<5:52:30,  1.87it/s] 18%|█▊        | 8427/48008 [1:12:28<6:20:45,  1.73it/s] 18%|█▊        | 8428/48008 [1:12:28<5:48:00,  1.90it/s] 18%|█▊        | 8429/48008 [1:12:29<5:38:47,  1.95it/s] 18%|█▊        | 8430/48008 [1:12:29<5:37:20,  1.96it/s] 18%|█▊        | 8431/48008 [1:12:30<5:36:01,  1.96it/s] 18%|█▊        | 8432/48008 [1:12:30<5:33:55,  1.98it/s] 18%|█▊        | 8433/48008 [1:12:31<5:29:40,  2.00it/s] 18%|█▊        | 8434/48008 [1:12:31<5:25:02,  2.03it/s] 18%|█▊        | 8435/48008 [1:12:32<5:27:31,  2.01it/s] 18%|█▊        | 8436/48008 [1:12:32<5:27:49,  2.01it/s] 18%|█▊        | 8437/48008 [1:12:33<5:35:37,  1.97it/s] 18%|█▊        | 8438/48008 [1:12:33<5:17:09,  2.08it/s] 18%|█▊        | 8439/48008 [1:12:34<5:21:41,  2.05it/s] 18%|█▊        | 8440/48008 [1:12:34<5:20:03,  2.06it/s] 18%|█▊        | 8441/48008 [1:12:35<5:06:30,  2.15it/s] 18%|█▊        | 8442/48008 [1:12:35<5:09:14,  2.13it/s] 18%|█▊        | 8443/48008 [1:12:35<5:15:32,  2.09it/s] 18%|█▊        | 8444/48008 [1:12:36<5:14:57,  2.09it/s] 18%|█▊        | 8445/48008 [1:12:36<5:02:15,  2.18it/s] 18%|█▊        | 8446/48008 [1:12:37<4:54:00,  2.24it/s] 18%|█▊        | 8447/48008 [1:12:37<5:06:24,  2.15it/s] 18%|█▊        | 8448/48008 [1:12:38<5:09:32,  2.13it/s] 18%|█▊        | 8449/48008 [1:12:38<5:18:36,  2.07it/s] 18%|█▊        | 8450/48008 [1:12:39<5:18:50,  2.07it/s]                                                        {'loss': 4.2447, 'grad_norm': 0.15685530006885529, 'learning_rate': 0.0001648016997167139, 'epoch': 0.18} 18%|█▊        | 8450/48008 [1:12:39<5:18:50,  2.07it/s]
 18%|█▊        | 8451/48008 [1:12:39<5:05:34,  2.16it/s] 18%|█▊        | 8452/48008 [1:12:40<5:12:35,  2.11it/s] 18%|█▊        | 8453/48008 [1:12:40<5:01:05,  2.19it/s] 18%|█▊        | 8454/48008 [1:12:41<4:52:53,  2.25it/s] 18%|█▊        | 8455/48008 [1:12:41<5:05:06,  2.16it/s] 18%|█▊        | 8456/48008 [1:12:42<5:13:26,  2.10it/s] 18%|█▊        | 8457/48008 [1:12:42<5:18:43,  2.07it/s] 18%|█▊        | 8458/48008 [1:12:43<5:18:17,  2.07it/s] 18%|█▊        | 8459/48008 [1:12:43<5:17:44,  2.07it/s] 18%|█▊        | 8460/48008 [1:12:43<5:05:00,  2.16it/s] 18%|█▊        | 8461/48008 [1:12:44<5:12:34,  2.11it/s] 18%|█▊        | 8462/48008 [1:12:44<5:13:41,  2.10it/s] 18%|█▊        | 8463/48008 [1:12:45<5:14:08,  2.10it/s] 18%|█▊        | 8464/48008 [1:12:46<5:53:06,  1.87it/s] 18%|█▊        | 8465/48008 [1:12:46<5:41:40,  1.93it/s] 18%|█▊        | 8466/48008 [1:12:47<5:38:15,  1.95it/s] 18%|█▊        | 8467/48008 [1:12:47<5:39:07,  1.94it/s] 18%|█▊        | 8468/48008 [1:12:48<5:39:38,  1.94it/s] 18%|█▊        | 8469/48008 [1:12:48<5:37:46,  1.95it/s] 18%|█▊        | 8470/48008 [1:12:49<5:39:58,  1.94it/s] 18%|█▊        | 8471/48008 [1:12:49<5:36:58,  1.96it/s] 18%|█▊        | 8472/48008 [1:12:50<5:34:33,  1.97it/s] 18%|█▊        | 8473/48008 [1:12:50<6:46:46,  1.62it/s] 18%|█▊        | 8474/48008 [1:12:51<6:05:56,  1.80it/s] 18%|█▊        | 8475/48008 [1:12:51<5:51:27,  1.87it/s] 18%|█▊        | 8476/48008 [1:12:52<5:42:05,  1.93it/s] 18%|█▊        | 8477/48008 [1:12:52<5:42:32,  1.92it/s] 18%|█▊        | 8478/48008 [1:12:53<6:54:33,  1.59it/s] 18%|█▊        | 8479/48008 [1:12:54<6:24:40,  1.71it/s] 18%|█▊        | 8480/48008 [1:12:54<6:04:29,  1.81it/s] 18%|█▊        | 8481/48008 [1:12:55<5:50:20,  1.88it/s] 18%|█▊        | 8482/48008 [1:12:55<5:39:16,  1.94it/s] 18%|█▊        | 8483/48008 [1:12:56<5:12:31,  2.11it/s] 18%|█▊        | 8484/48008 [1:12:56<5:18:46,  2.07it/s] 18%|█▊        | 8485/48008 [1:12:57<5:23:29,  2.04it/s] 18%|█▊        | 8486/48008 [1:12:57<5:21:06,  2.05it/s] 18%|█▊        | 8487/48008 [1:12:58<5:24:28,  2.03it/s] 18%|█▊        | 8488/48008 [1:12:58<5:21:56,  2.05it/s] 18%|█▊        | 8489/48008 [1:12:58<5:07:21,  2.14it/s] 18%|█▊        | 8490/48008 [1:12:59<5:10:05,  2.12it/s] 18%|█▊        | 8491/48008 [1:12:59<5:12:12,  2.11it/s] 18%|█▊        | 8492/48008 [1:13:00<5:17:38,  2.07it/s] 18%|█▊        | 8493/48008 [1:13:00<5:21:37,  2.05it/s] 18%|█▊        | 8494/48008 [1:13:01<5:57:16,  1.84it/s] 18%|█▊        | 8495/48008 [1:13:02<5:45:36,  1.91it/s] 18%|█▊        | 8496/48008 [1:13:02<5:23:53,  2.03it/s] 18%|█▊        | 8497/48008 [1:13:03<5:28:51,  2.00it/s] 18%|█▊        | 8498/48008 [1:13:03<5:29:58,  2.00it/s] 18%|█▊        | 8499/48008 [1:13:03<5:13:15,  2.10it/s] 18%|█▊        | 8500/48008 [1:13:04<5:14:37,  2.09it/s]                                                        {'loss': 4.2594, 'grad_norm': 0.17190082371234894, 'learning_rate': 0.0001645934010998167, 'epoch': 0.18}
 18%|█▊        | 8500/48008 [1:13:04<5:14:37,  2.09it/s] 18%|█▊        | 8501/48008 [1:13:04<4:57:27,  2.21it/s] 18%|█▊        | 8502/48008 [1:13:05<5:08:22,  2.14it/s] 18%|█▊        | 8503/48008 [1:13:05<5:10:58,  2.12it/s] 18%|█▊        | 8504/48008 [1:13:06<4:59:33,  2.20it/s] 18%|█▊        | 8505/48008 [1:13:06<5:04:27,  2.16it/s] 18%|█▊        | 8506/48008 [1:13:07<5:08:55,  2.13it/s] 18%|█▊        | 8507/48008 [1:13:07<5:15:43,  2.09it/s] 18%|█▊        | 8508/48008 [1:13:08<5:23:10,  2.04it/s] 18%|█▊        | 8509/48008 [1:13:08<5:25:01,  2.03it/s] 18%|█▊        | 8510/48008 [1:13:09<5:21:42,  2.05it/s] 18%|█▊        | 8511/48008 [1:13:09<5:30:49,  1.99it/s] 18%|█▊        | 8512/48008 [1:13:10<5:26:31,  2.02it/s] 18%|█▊        | 8513/48008 [1:13:10<5:22:44,  2.04it/s] 18%|█▊        | 8514/48008 [1:13:11<5:21:03,  2.05it/s] 18%|█▊        | 8515/48008 [1:13:11<5:19:37,  2.06it/s] 18%|█▊        | 8516/48008 [1:13:12<5:19:30,  2.06it/s] 18%|█▊        | 8517/48008 [1:13:12<5:18:57,  2.06it/s] 18%|█▊        | 8518/48008 [1:13:13<6:35:39,  1.66it/s] 18%|█▊        | 8519/48008 [1:13:13<5:59:01,  1.83it/s] 18%|█▊        | 8520/48008 [1:13:14<5:45:20,  1.91it/s] 18%|█▊        | 8521/48008 [1:13:14<5:37:17,  1.95it/s] 18%|█▊        | 8522/48008 [1:13:15<5:30:58,  1.99it/s] 18%|█▊        | 8523/48008 [1:13:15<5:13:20,  2.10it/s] 18%|█▊        | 8524/48008 [1:13:16<5:01:25,  2.18it/s] 18%|█▊        | 8525/48008 [1:13:16<5:17:59,  2.07it/s] 18%|█▊        | 8526/48008 [1:13:17<5:22:30,  2.04it/s] 18%|█▊        | 8527/48008 [1:13:17<5:21:00,  2.05it/s] 18%|█▊        | 8528/48008 [1:13:18<5:18:32,  2.07it/s] 18%|█▊        | 8529/48008 [1:13:18<5:17:59,  2.07it/s] 18%|█▊        | 8530/48008 [1:13:19<5:25:06,  2.02it/s] 18%|█▊        | 8531/48008 [1:13:19<5:22:48,  2.04it/s] 18%|█▊        | 8532/48008 [1:13:20<5:24:40,  2.03it/s] 18%|█▊        | 8533/48008 [1:13:20<5:21:40,  2.05it/s] 18%|█▊        | 8534/48008 [1:13:21<5:24:05,  2.03it/s] 18%|█▊        | 8535/48008 [1:13:21<5:21:05,  2.05it/s] 18%|█▊        | 8536/48008 [1:13:22<5:19:41,  2.06it/s] 18%|█▊        | 8537/48008 [1:13:22<5:18:43,  2.06it/s] 18%|█▊        | 8538/48008 [1:13:23<5:25:51,  2.02it/s] 18%|█▊        | 8539/48008 [1:13:23<5:23:09,  2.04it/s] 18%|█▊        | 8540/48008 [1:13:24<6:38:12,  1.65it/s] 18%|█▊        | 8541/48008 [1:13:24<6:18:10,  1.74it/s] 18%|█▊        | 8542/48008 [1:13:25<6:07:00,  1.79it/s] 18%|█▊        | 8543/48008 [1:13:25<5:56:32,  1.84it/s] 18%|█▊        | 8544/48008 [1:13:26<5:44:16,  1.91it/s] 18%|█▊        | 8545/48008 [1:13:26<5:46:54,  1.90it/s] 18%|█▊        | 8546/48008 [1:13:27<5:42:10,  1.92it/s] 18%|█▊        | 8547/48008 [1:13:27<5:21:55,  2.04it/s] 18%|█▊        | 8548/48008 [1:13:28<5:25:28,  2.02it/s] 18%|█▊        | 8549/48008 [1:13:28<5:28:16,  2.00it/s] 18%|█▊        | 8550/48008 [1:13:29<5:25:10,  2.02it/s]                                                        {'loss': 4.2641, 'grad_norm': 0.1600477546453476, 'learning_rate': 0.00016438510248291952, 'epoch': 0.18}
 18%|█▊        | 8550/48008 [1:13:29<5:25:10,  2.02it/s] 18%|█▊        | 8551/48008 [1:13:29<5:22:39,  2.04it/s] 18%|█▊        | 8552/48008 [1:13:30<5:20:18,  2.05it/s] 18%|█▊        | 8553/48008 [1:13:30<5:18:16,  2.07it/s] 18%|█▊        | 8554/48008 [1:13:31<5:22:27,  2.04it/s] 18%|█▊        | 8555/48008 [1:13:31<5:20:12,  2.05it/s] 18%|█▊        | 8556/48008 [1:13:32<5:22:45,  2.04it/s] 18%|█▊        | 8557/48008 [1:13:32<5:20:54,  2.05it/s] 18%|█▊        | 8558/48008 [1:13:33<5:19:30,  2.06it/s] 18%|█▊        | 8559/48008 [1:13:33<5:22:35,  2.04it/s] 18%|█▊        | 8560/48008 [1:13:34<5:07:23,  2.14it/s] 18%|█▊        | 8561/48008 [1:13:34<5:17:32,  2.07it/s] 18%|█▊        | 8562/48008 [1:13:35<5:21:40,  2.04it/s] 18%|█▊        | 8563/48008 [1:13:35<5:27:16,  2.01it/s] 18%|█▊        | 8564/48008 [1:13:36<5:24:17,  2.03it/s] 18%|█▊        | 8565/48008 [1:13:36<5:21:28,  2.04it/s] 18%|█▊        | 8566/48008 [1:13:37<5:07:35,  2.14it/s] 18%|█▊        | 8567/48008 [1:13:37<5:48:46,  1.88it/s] 18%|█▊        | 8568/48008 [1:13:38<5:39:30,  1.94it/s] 18%|█▊        | 8569/48008 [1:13:38<5:32:42,  1.98it/s] 18%|█▊        | 8570/48008 [1:13:39<5:35:24,  1.96it/s] 18%|█▊        | 8571/48008 [1:13:39<5:15:43,  2.08it/s] 18%|█▊        | 8572/48008 [1:13:40<5:20:26,  2.05it/s] 18%|█▊        | 8573/48008 [1:13:40<5:06:07,  2.15it/s] 18%|█▊        | 8574/48008 [1:13:41<5:13:21,  2.10it/s] 18%|█▊        | 8575/48008 [1:13:41<5:21:21,  2.05it/s] 18%|█▊        | 8576/48008 [1:13:42<5:18:50,  2.06it/s] 18%|█▊        | 8577/48008 [1:13:42<5:25:41,  2.02it/s] 18%|█▊        | 8578/48008 [1:13:43<5:22:50,  2.04it/s] 18%|█▊        | 8579/48008 [1:13:43<5:25:04,  2.02it/s] 18%|█▊        | 8580/48008 [1:13:44<5:09:24,  2.12it/s] 18%|█▊        | 8581/48008 [1:13:44<5:16:18,  2.08it/s] 18%|█▊        | 8582/48008 [1:13:44<5:03:15,  2.17it/s] 18%|█▊        | 8583/48008 [1:13:45<5:14:33,  2.09it/s] 18%|█▊        | 8584/48008 [1:13:46<5:27:10,  2.01it/s] 18%|█▊        | 8585/48008 [1:13:46<5:23:34,  2.03it/s] 18%|█▊        | 8586/48008 [1:13:47<5:28:44,  2.00it/s] 18%|█▊        | 8587/48008 [1:13:47<5:25:41,  2.02it/s] 18%|█▊        | 8588/48008 [1:13:47<5:22:58,  2.03it/s] 18%|█▊        | 8589/48008 [1:13:48<5:32:29,  1.98it/s] 18%|█▊        | 8590/48008 [1:13:49<6:06:30,  1.79it/s] 18%|█▊        | 8591/48008 [1:13:49<5:51:24,  1.87it/s] 18%|█▊        | 8592/48008 [1:13:50<5:40:32,  1.93it/s] 18%|█▊        | 8593/48008 [1:13:50<5:36:53,  1.95it/s] 18%|█▊        | 8594/48008 [1:13:51<5:31:29,  1.98it/s] 18%|█▊        | 8595/48008 [1:13:51<5:30:54,  1.99it/s] 18%|█▊        | 8596/48008 [1:13:52<6:05:32,  1.80it/s] 18%|█▊        | 8597/48008 [1:13:52<5:50:46,  1.87it/s] 18%|█▊        | 8598/48008 [1:13:53<5:45:03,  1.90it/s] 18%|█▊        | 8599/48008 [1:13:53<5:39:54,  1.93it/s] 18%|█▊        | 8600/48008 [1:13:54<5:45:22,  1.90it/s]                                                        {'loss': 4.2572, 'grad_norm': 0.17615343630313873, 'learning_rate': 0.00016417680386602234, 'epoch': 0.18}
 18%|█▊        | 8600/48008 [1:13:54<5:45:22,  1.90it/s] 18%|█▊        | 8601/48008 [1:13:54<5:40:58,  1.93it/s] 18%|█▊        | 8602/48008 [1:13:55<6:11:40,  1.77it/s] 18%|█▊        | 8603/48008 [1:13:56<5:54:25,  1.85it/s] 18%|█▊        | 8604/48008 [1:13:56<5:42:24,  1.92it/s] 18%|█▊        | 8605/48008 [1:13:56<5:41:41,  1.92it/s] 18%|█▊        | 8606/48008 [1:13:57<5:40:50,  1.93it/s] 18%|█▊        | 8607/48008 [1:13:57<5:33:18,  1.97it/s] 18%|█▊        | 8608/48008 [1:13:58<5:27:52,  2.00it/s] 18%|█▊        | 8609/48008 [1:13:59<5:33:02,  1.97it/s] 18%|█▊        | 8610/48008 [1:13:59<5:36:02,  1.95it/s] 18%|█▊        | 8611/48008 [1:14:00<6:07:19,  1.79it/s] 18%|█▊        | 8612/48008 [1:14:00<5:50:46,  1.87it/s] 18%|█▊        | 8613/48008 [1:14:01<5:43:48,  1.91it/s] 18%|█▊        | 8614/48008 [1:14:01<5:39:18,  1.93it/s] 18%|█▊        | 8615/48008 [1:14:02<5:38:43,  1.94it/s] 18%|█▊        | 8616/48008 [1:14:02<5:40:04,  1.93it/s] 18%|█▊        | 8617/48008 [1:14:03<5:19:12,  2.06it/s] 18%|█▊        | 8618/48008 [1:14:03<5:17:27,  2.07it/s] 18%|█▊        | 8619/48008 [1:14:04<5:03:59,  2.16it/s] 18%|█▊        | 8620/48008 [1:14:04<5:11:48,  2.11it/s] 18%|█▊        | 8621/48008 [1:14:04<5:11:46,  2.11it/s] 18%|█▊        | 8622/48008 [1:14:05<5:23:54,  2.03it/s] 18%|█▊        | 8623/48008 [1:14:06<5:20:48,  2.05it/s] 18%|█▊        | 8624/48008 [1:14:06<5:19:37,  2.05it/s] 18%|█▊        | 8625/48008 [1:14:06<5:05:37,  2.15it/s] 18%|█▊        | 8626/48008 [1:14:07<5:15:25,  2.08it/s] 18%|█▊        | 8627/48008 [1:14:07<5:22:46,  2.03it/s] 18%|█▊        | 8628/48008 [1:14:08<5:20:17,  2.05it/s] 18%|█▊        | 8629/48008 [1:14:08<5:23:13,  2.03it/s] 18%|█▊        | 8630/48008 [1:14:09<5:27:34,  2.00it/s] 18%|█▊        | 8631/48008 [1:14:09<5:34:32,  1.96it/s] 18%|█▊        | 8632/48008 [1:14:10<5:35:39,  1.96it/s] 18%|█▊        | 8633/48008 [1:14:10<5:16:52,  2.07it/s] 18%|█▊        | 8634/48008 [1:14:11<5:21:59,  2.04it/s] 18%|█▊        | 8635/48008 [1:14:11<5:24:09,  2.02it/s] 18%|█▊        | 8636/48008 [1:14:12<5:08:37,  2.13it/s] 18%|█▊        | 8637/48008 [1:14:12<5:10:08,  2.12it/s] 18%|█▊        | 8638/48008 [1:14:13<4:59:24,  2.19it/s] 18%|█▊        | 8639/48008 [1:14:13<5:11:49,  2.10it/s] 18%|█▊        | 8640/48008 [1:14:14<4:59:11,  2.19it/s] 18%|█▊        | 8641/48008 [1:14:14<5:03:44,  2.16it/s] 18%|█▊        | 8642/48008 [1:14:15<5:11:20,  2.11it/s] 18%|█▊        | 8643/48008 [1:14:15<5:12:05,  2.10it/s] 18%|█▊        | 8644/48008 [1:14:16<5:20:15,  2.05it/s] 18%|█▊        | 8645/48008 [1:14:16<5:23:44,  2.03it/s] 18%|█▊        | 8646/48008 [1:14:17<5:21:20,  2.04it/s] 18%|█▊        | 8647/48008 [1:14:17<5:19:44,  2.05it/s] 18%|█▊        | 8648/48008 [1:14:18<5:26:42,  2.01it/s] 18%|█▊        | 8649/48008 [1:14:18<5:29:57,  1.99it/s] 18%|█▊        | 8650/48008 [1:14:19<7:58:01,  1.37it/s]                                                        {'loss': 4.3095, 'grad_norm': 0.16517291963100433, 'learning_rate': 0.00016396850524912516, 'epoch': 0.18} 18%|█▊        | 8650/48008 [1:14:19<7:58:01,  1.37it/s]
 18%|█▊        | 8651/48008 [1:14:20<8:28:30,  1.29it/s] 18%|█▊        | 8652/48008 [1:14:21<7:17:43,  1.50it/s] 18%|█▊        | 8653/48008 [1:14:21<6:40:34,  1.64it/s] 18%|█▊        | 8654/48008 [1:14:22<6:01:34,  1.81it/s] 18%|█▊        | 8655/48008 [1:14:22<5:46:43,  1.89it/s] 18%|█▊        | 8656/48008 [1:14:23<5:37:17,  1.94it/s] 18%|█▊        | 8657/48008 [1:14:23<5:29:36,  1.99it/s] 18%|█▊        | 8658/48008 [1:14:23<5:25:08,  2.02it/s] 18%|█▊        | 8659/48008 [1:14:24<5:21:49,  2.04it/s] 18%|█▊        | 8660/48008 [1:14:24<5:23:15,  2.03it/s] 18%|█▊        | 8661/48008 [1:14:25<5:25:59,  2.01it/s] 18%|█▊        | 8662/48008 [1:14:25<5:22:54,  2.03it/s] 18%|█▊        | 8663/48008 [1:14:26<5:20:44,  2.04it/s] 18%|█▊        | 8664/48008 [1:14:26<5:23:21,  2.03it/s] 18%|█▊        | 8665/48008 [1:14:27<5:29:08,  1.99it/s] 18%|█▊        | 8666/48008 [1:14:27<5:28:50,  1.99it/s] 18%|█▊        | 8667/48008 [1:14:28<5:12:05,  2.10it/s] 18%|█▊        | 8668/48008 [1:14:28<4:59:39,  2.19it/s] 18%|█▊        | 8669/48008 [1:14:29<5:03:47,  2.16it/s] 18%|█▊        | 8670/48008 [1:14:29<5:07:22,  2.13it/s] 18%|█▊        | 8671/48008 [1:14:30<5:48:24,  1.88it/s] 18%|█▊        | 8672/48008 [1:14:31<6:55:24,  1.58it/s] 18%|█▊        | 8673/48008 [1:14:31<6:25:24,  1.70it/s] 18%|█▊        | 8674/48008 [1:14:32<5:50:14,  1.87it/s] 18%|█▊        | 8675/48008 [1:14:32<5:39:19,  1.93it/s] 18%|█▊        | 8676/48008 [1:14:33<5:32:18,  1.97it/s] 18%|█▊        | 8677/48008 [1:14:33<5:26:58,  2.00it/s] 18%|█▊        | 8678/48008 [1:14:34<5:10:14,  2.11it/s] 18%|█▊        | 8679/48008 [1:14:34<4:58:31,  2.20it/s] 18%|█▊        | 8680/48008 [1:14:34<5:03:06,  2.16it/s] 18%|█▊        | 8681/48008 [1:14:35<5:06:43,  2.14it/s] 18%|█▊        | 8682/48008 [1:14:35<5:13:13,  2.09it/s] 18%|█▊        | 8683/48008 [1:14:36<5:12:47,  2.10it/s] 18%|█▊        | 8684/48008 [1:14:36<5:17:24,  2.06it/s] 18%|█▊        | 8685/48008 [1:14:37<5:16:19,  2.07it/s] 18%|█▊        | 8686/48008 [1:14:37<5:15:07,  2.08it/s] 18%|█▊        | 8687/48008 [1:14:39<7:46:37,  1.40it/s] 18%|█▊        | 8688/48008 [1:14:39<7:08:24,  1.53it/s] 18%|█▊        | 8689/48008 [1:14:40<6:21:17,  1.72it/s] 18%|█▊        | 8690/48008 [1:14:40<6:05:23,  1.79it/s] 18%|█▊        | 8691/48008 [1:14:41<6:01:16,  1.81it/s] 18%|█▊        | 8692/48008 [1:14:41<5:46:25,  1.89it/s] 18%|█▊        | 8693/48008 [1:14:42<5:41:25,  1.92it/s] 18%|█▊        | 8694/48008 [1:14:42<5:20:09,  2.05it/s] 18%|█▊        | 8695/48008 [1:14:43<6:35:41,  1.66it/s] 18%|█▊        | 8696/48008 [1:14:44<8:42:18,  1.25it/s] 18%|█▊        | 8697/48008 [1:14:45<7:40:29,  1.42it/s] 18%|█▊        | 8698/48008 [1:14:45<7:04:11,  1.54it/s] 18%|█▊        | 8699/48008 [1:14:46<6:30:32,  1.68it/s] 18%|█▊        | 8700/48008 [1:14:46<6:12:20,  1.76it/s]                                                        {'loss': 4.2951, 'grad_norm': 0.17688988149166107, 'learning_rate': 0.00016376020663222797, 'epoch': 0.18} 18%|█▊        | 8700/48008 [1:14:46<6:12:20,  1.76it/s]
 18%|█▊        | 8701/48008 [1:14:47<5:58:56,  1.83it/s] 18%|█▊        | 8702/48008 [1:14:47<5:49:39,  1.87it/s] 18%|█▊        | 8703/48008 [1:14:48<5:42:34,  1.91it/s] 18%|█▊        | 8704/48008 [1:14:48<5:45:50,  1.89it/s] 18%|█▊        | 8705/48008 [1:14:49<5:36:31,  1.95it/s] 18%|█▊        | 8706/48008 [1:14:49<5:29:25,  1.99it/s] 18%|█▊        | 8707/48008 [1:14:50<5:24:32,  2.02it/s] 18%|█▊        | 8708/48008 [1:14:50<5:21:07,  2.04it/s] 18%|█▊        | 8709/48008 [1:14:51<5:22:51,  2.03it/s] 18%|█▊        | 8710/48008 [1:14:51<5:32:04,  1.97it/s] 18%|█▊        | 8711/48008 [1:14:52<5:25:38,  2.01it/s] 18%|█▊        | 8712/48008 [1:14:52<5:22:06,  2.03it/s] 18%|█▊        | 8713/48008 [1:14:53<5:28:53,  1.99it/s] 18%|█▊        | 8714/48008 [1:14:53<5:24:05,  2.02it/s] 18%|█▊        | 8715/48008 [1:14:53<5:21:11,  2.04it/s] 18%|█▊        | 8716/48008 [1:14:54<5:24:11,  2.02it/s] 18%|█▊        | 8717/48008 [1:14:54<5:21:35,  2.04it/s] 18%|█▊        | 8718/48008 [1:14:55<5:23:40,  2.02it/s] 18%|█▊        | 8719/48008 [1:14:55<5:25:58,  2.01it/s] 18%|█▊        | 8720/48008 [1:14:56<5:27:31,  2.00it/s] 18%|█▊        | 8721/48008 [1:14:56<5:23:44,  2.02it/s] 18%|█▊        | 8722/48008 [1:14:57<5:28:29,  1.99it/s] 18%|█▊        | 8723/48008 [1:14:58<5:29:18,  1.99it/s] 18%|█▊        | 8724/48008 [1:14:58<5:28:52,  1.99it/s] 18%|█▊        | 8725/48008 [1:14:58<5:24:52,  2.02it/s] 18%|█▊        | 8726/48008 [1:14:59<5:25:20,  2.01it/s] 18%|█▊        | 8727/48008 [1:14:59<5:09:06,  2.12it/s] 18%|█▊        | 8728/48008 [1:15:00<5:48:07,  1.88it/s] 18%|█▊        | 8729/48008 [1:15:01<5:37:21,  1.94it/s] 18%|█▊        | 8730/48008 [1:15:01<5:37:27,  1.94it/s] 18%|█▊        | 8731/48008 [1:15:02<5:30:10,  1.98it/s] 18%|█▊        | 8732/48008 [1:15:02<5:33:03,  1.97it/s] 18%|█▊        | 8733/48008 [1:15:03<5:27:23,  2.00it/s] 18%|█▊        | 8734/48008 [1:15:03<5:27:46,  2.00it/s] 18%|█▊        | 8735/48008 [1:15:04<5:23:23,  2.02it/s] 18%|█▊        | 8736/48008 [1:15:04<5:20:02,  2.05it/s] 18%|█▊        | 8737/48008 [1:15:04<5:17:49,  2.06it/s] 18%|█▊        | 8738/48008 [1:15:05<5:16:15,  2.07it/s] 18%|█▊        | 8739/48008 [1:15:05<5:16:00,  2.07it/s] 18%|█▊        | 8740/48008 [1:15:06<5:22:25,  2.03it/s] 18%|█▊        | 8741/48008 [1:15:07<5:58:04,  1.83it/s] 18%|█▊        | 8742/48008 [1:15:07<5:25:04,  2.01it/s] 18%|█▊        | 8743/48008 [1:15:07<5:21:32,  2.04it/s] 18%|█▊        | 8744/48008 [1:15:08<5:56:40,  1.83it/s] 18%|█▊        | 8745/48008 [1:15:09<5:43:43,  1.90it/s] 18%|█▊        | 8746/48008 [1:15:09<5:39:57,  1.92it/s] 18%|█▊        | 8747/48008 [1:15:10<5:40:27,  1.92it/s] 18%|█▊        | 8748/48008 [1:15:10<5:31:41,  1.97it/s] 18%|█▊        | 8749/48008 [1:15:11<5:31:02,  1.98it/s] 18%|█▊        | 8750/48008 [1:15:11<5:25:49,  2.01it/s]                                                        {'loss': 4.3111, 'grad_norm': 0.16280461847782135, 'learning_rate': 0.0001635519080153308, 'epoch': 0.18}
 18%|█▊        | 8750/48008 [1:15:11<5:25:49,  2.01it/s] 18%|█▊        | 8751/48008 [1:15:12<5:29:26,  1.99it/s] 18%|█▊        | 8752/48008 [1:15:12<5:29:03,  1.99it/s] 18%|█▊        | 8753/48008 [1:15:13<5:28:28,  1.99it/s] 18%|█▊        | 8754/48008 [1:15:13<5:32:18,  1.97it/s] 18%|█▊        | 8755/48008 [1:15:14<5:26:41,  2.00it/s] 18%|█▊        | 8756/48008 [1:15:14<5:22:48,  2.03it/s] 18%|█▊        | 8757/48008 [1:15:15<5:24:35,  2.02it/s] 18%|█▊        | 8758/48008 [1:15:15<5:29:19,  1.99it/s] 18%|█▊        | 8759/48008 [1:15:16<5:11:45,  2.10it/s] 18%|█▊        | 8760/48008 [1:15:16<5:16:47,  2.06it/s] 18%|█▊        | 8761/48008 [1:15:17<5:15:53,  2.07it/s] 18%|█▊        | 8762/48008 [1:15:17<5:19:58,  2.04it/s] 18%|█▊        | 8763/48008 [1:15:18<5:17:08,  2.06it/s] 18%|█▊        | 8764/48008 [1:15:18<5:16:18,  2.07it/s] 18%|█▊        | 8765/48008 [1:15:18<5:19:53,  2.04it/s] 18%|█▊        | 8766/48008 [1:15:19<5:18:03,  2.06it/s] 18%|█▊        | 8767/48008 [1:15:19<5:23:58,  2.02it/s] 18%|█▊        | 8768/48008 [1:15:20<5:21:21,  2.04it/s] 18%|█▊        | 8769/48008 [1:15:20<5:23:02,  2.02it/s] 18%|█▊        | 8770/48008 [1:15:21<5:20:34,  2.04it/s] 18%|█▊        | 8771/48008 [1:15:21<5:05:16,  2.14it/s] 18%|█▊        | 8772/48008 [1:15:22<5:12:20,  2.09it/s] 18%|█▊        | 8773/48008 [1:15:23<7:43:22,  1.41it/s] 18%|█▊        | 8774/48008 [1:15:24<6:58:44,  1.56it/s] 18%|█▊        | 8775/48008 [1:15:24<6:26:31,  1.69it/s] 18%|█▊        | 8776/48008 [1:15:25<6:04:16,  1.79it/s] 18%|█▊        | 8777/48008 [1:15:26<8:19:23,  1.31it/s] 18%|█▊        | 8778/48008 [1:15:26<7:23:41,  1.47it/s] 18%|█▊        | 8779/48008 [1:15:27<6:32:04,  1.67it/s] 18%|█▊        | 8780/48008 [1:15:27<6:45:45,  1.61it/s] 18%|█▊        | 8781/48008 [1:15:28<6:25:37,  1.70it/s] 18%|█▊        | 8782/48008 [1:15:28<6:03:30,  1.80it/s] 18%|█▊        | 8783/48008 [1:15:29<5:55:37,  1.84it/s] 18%|█▊        | 8784/48008 [1:15:29<5:50:50,  1.86it/s] 18%|█▊        | 8785/48008 [1:15:30<5:39:48,  1.92it/s] 18%|█▊        | 8786/48008 [1:15:30<5:35:39,  1.95it/s] 18%|█▊        | 8787/48008 [1:15:31<5:16:33,  2.06it/s] 18%|█▊        | 8788/48008 [1:15:31<5:20:10,  2.04it/s] 18%|█▊        | 8789/48008 [1:15:32<5:22:34,  2.03it/s] 18%|█▊        | 8790/48008 [1:15:32<5:56:58,  1.83it/s] 18%|█▊        | 8791/48008 [1:15:33<5:51:27,  1.86it/s] 18%|█▊        | 8792/48008 [1:15:33<5:27:18,  2.00it/s] 18%|█▊        | 8793/48008 [1:15:35<7:53:09,  1.38it/s] 18%|█▊        | 8794/48008 [1:15:35<7:04:57,  1.54it/s] 18%|█▊        | 8795/48008 [1:15:36<6:32:22,  1.67it/s] 18%|█▊        | 8796/48008 [1:15:36<6:20:05,  1.72it/s] 18%|█▊        | 8797/48008 [1:15:37<6:01:02,  1.81it/s] 18%|█▊        | 8798/48008 [1:15:37<5:54:35,  1.84it/s] 18%|█▊        | 8799/48008 [1:15:38<5:29:08,  1.99it/s] 18%|█▊        | 8800/48008 [1:15:38<5:29:11,  1.99it/s]                                                        {'loss': 4.2774, 'grad_norm': 0.18251730501651764, 'learning_rate': 0.0001633436093984336, 'epoch': 0.18}
 18%|█▊        | 8800/48008 [1:15:38<5:29:11,  1.99it/s] 18%|█▊        | 8801/48008 [1:15:39<5:28:31,  1.99it/s] 18%|█▊        | 8802/48008 [1:15:39<5:31:34,  1.97it/s] 18%|█▊        | 8803/48008 [1:15:40<5:27:10,  2.00it/s] 18%|█▊        | 8804/48008 [1:15:40<5:23:54,  2.02it/s] 18%|█▊        | 8805/48008 [1:15:41<5:27:53,  1.99it/s] 18%|█▊        | 8806/48008 [1:15:41<5:23:15,  2.02it/s] 18%|█▊        | 8807/48008 [1:15:42<5:19:19,  2.05it/s] 18%|█▊        | 8808/48008 [1:15:42<5:25:10,  2.01it/s] 18%|█▊        | 8809/48008 [1:15:43<5:22:04,  2.03it/s] 18%|█▊        | 8810/48008 [1:15:43<5:57:30,  1.83it/s] 18%|█▊        | 8811/48008 [1:15:44<8:15:21,  1.32it/s] 18%|█▊        | 8812/48008 [1:15:45<7:20:36,  1.48it/s] 18%|█▊        | 8813/48008 [1:15:45<6:42:17,  1.62it/s] 18%|█▊        | 8814/48008 [1:15:46<6:16:10,  1.74it/s] 18%|█▊        | 8815/48008 [1:15:46<6:00:52,  1.81it/s] 18%|█▊        | 8816/48008 [1:15:47<5:46:39,  1.88it/s] 18%|█▊        | 8817/48008 [1:15:47<5:43:53,  1.90it/s] 18%|█▊        | 8818/48008 [1:15:48<5:39:53,  1.92it/s] 18%|█▊        | 8819/48008 [1:15:48<5:18:25,  2.05it/s] 18%|█▊        | 8820/48008 [1:15:49<5:17:59,  2.05it/s] 18%|█▊        | 8821/48008 [1:15:49<5:28:10,  1.99it/s] 18%|█▊        | 8822/48008 [1:15:50<5:28:15,  1.99it/s] 18%|█▊        | 8823/48008 [1:15:50<5:33:38,  1.96it/s] 18%|█▊        | 8824/48008 [1:15:51<5:28:11,  1.99it/s] 18%|█▊        | 8825/48008 [1:15:51<5:23:05,  2.02it/s] 18%|█▊        | 8826/48008 [1:15:52<5:20:05,  2.04it/s] 18%|█▊        | 8827/48008 [1:15:52<5:25:48,  2.00it/s] 18%|█▊        | 8828/48008 [1:15:53<5:22:55,  2.02it/s] 18%|█▊        | 8829/48008 [1:15:53<5:58:15,  1.82it/s] 18%|█▊        | 8830/48008 [1:15:54<5:45:52,  1.89it/s] 18%|█▊        | 8831/48008 [1:15:54<5:39:54,  1.92it/s] 18%|█▊        | 8832/48008 [1:15:55<5:37:47,  1.93it/s] 18%|█▊        | 8833/48008 [1:15:55<5:30:32,  1.98it/s] 18%|█▊        | 8834/48008 [1:15:56<6:42:22,  1.62it/s] 18%|█▊        | 8835/48008 [1:15:57<6:16:26,  1.73it/s] 18%|█▊        | 8836/48008 [1:15:57<6:01:35,  1.81it/s] 18%|█▊        | 8837/48008 [1:15:58<5:34:41,  1.95it/s] 18%|█▊        | 8838/48008 [1:15:58<5:27:51,  1.99it/s] 18%|█▊        | 8839/48008 [1:15:59<5:24:04,  2.01it/s] 18%|█▊        | 8840/48008 [1:16:00<6:37:31,  1.64it/s] 18%|█▊        | 8841/48008 [1:16:00<5:59:49,  1.81it/s] 18%|█▊        | 8842/48008 [1:16:00<5:32:36,  1.96it/s] 18%|█▊        | 8843/48008 [1:16:01<5:13:41,  2.08it/s] 18%|█▊        | 8844/48008 [1:16:01<5:18:44,  2.05it/s] 18%|█▊        | 8845/48008 [1:16:02<5:18:06,  2.05it/s] 18%|█▊        | 8846/48008 [1:16:02<5:04:18,  2.14it/s] 18%|█▊        | 8847/48008 [1:16:03<5:06:45,  2.13it/s] 18%|█▊        | 8848/48008 [1:16:03<5:16:43,  2.06it/s] 18%|█▊        | 8849/48008 [1:16:04<5:19:23,  2.04it/s] 18%|█▊        | 8850/48008 [1:16:04<5:04:59,  2.14it/s]                                                        {'loss': 4.3365, 'grad_norm': 0.15467078983783722, 'learning_rate': 0.0001631353107815364, 'epoch': 0.18} 18%|█▊        | 8850/48008 [1:16:04<5:04:59,  2.14it/s]
 18%|█▊        | 8851/48008 [1:16:05<5:44:57,  1.89it/s] 18%|█▊        | 8852/48008 [1:16:05<5:36:04,  1.94it/s] 18%|█▊        | 8853/48008 [1:16:06<5:16:17,  2.06it/s] 18%|█▊        | 8854/48008 [1:16:06<5:19:08,  2.04it/s] 18%|█▊        | 8855/48008 [1:16:07<5:17:15,  2.06it/s] 18%|█▊        | 8856/48008 [1:16:07<5:16:03,  2.06it/s] 18%|█▊        | 8857/48008 [1:16:08<5:18:49,  2.05it/s] 18%|█▊        | 8858/48008 [1:16:08<5:55:30,  1.84it/s] 18%|█▊        | 8859/48008 [1:16:09<5:42:08,  1.91it/s] 18%|█▊        | 8860/48008 [1:16:09<5:37:50,  1.93it/s] 18%|█▊        | 8861/48008 [1:16:10<5:29:39,  1.98it/s] 18%|█▊        | 8862/48008 [1:16:10<5:30:03,  1.98it/s] 18%|█▊        | 8863/48008 [1:16:11<5:24:44,  2.01it/s] 18%|█▊        | 8864/48008 [1:16:11<5:26:23,  2.00it/s] 18%|█▊        | 8865/48008 [1:16:12<5:21:57,  2.03it/s] 18%|█▊        | 8866/48008 [1:16:12<5:06:44,  2.13it/s] 18%|█▊        | 8867/48008 [1:16:13<5:16:00,  2.06it/s] 18%|█▊        | 8868/48008 [1:16:13<5:02:33,  2.16it/s] 18%|█▊        | 8869/48008 [1:16:14<4:53:38,  2.22it/s] 18%|█▊        | 8870/48008 [1:16:15<7:07:23,  1.53it/s] 18%|█▊        | 8871/48008 [1:16:15<6:32:58,  1.66it/s] 18%|█▊        | 8872/48008 [1:16:16<6:12:44,  1.75it/s] 18%|█▊        | 8873/48008 [1:16:16<6:01:45,  1.80it/s] 18%|█▊        | 8874/48008 [1:16:17<5:46:31,  1.88it/s] 18%|█▊        | 8875/48008 [1:16:17<5:40:29,  1.92it/s] 18%|█▊        | 8876/48008 [1:16:18<5:32:07,  1.96it/s] 18%|█▊        | 8877/48008 [1:16:18<5:25:40,  2.00it/s] 18%|█▊        | 8878/48008 [1:16:19<5:29:34,  1.98it/s] 18%|█▊        | 8879/48008 [1:16:19<5:11:53,  2.09it/s] 18%|█▊        | 8880/48008 [1:16:19<4:58:15,  2.19it/s] 18%|█▊        | 8881/48008 [1:16:20<5:10:29,  2.10it/s] 19%|█▊        | 8882/48008 [1:16:20<5:15:48,  2.06it/s] 19%|█▊        | 8883/48008 [1:16:21<5:19:11,  2.04it/s] 19%|█▊        | 8884/48008 [1:16:22<7:47:53,  1.39it/s] 19%|█▊        | 8885/48008 [1:16:23<7:05:45,  1.53it/s] 19%|█▊        | 8886/48008 [1:16:23<6:32:41,  1.66it/s] 19%|█▊        | 8887/48008 [1:16:24<8:41:34,  1.25it/s] 19%|█▊        | 8888/48008 [1:16:25<7:50:03,  1.39it/s] 19%|█▊        | 8889/48008 [1:16:25<7:02:55,  1.54it/s] 19%|█▊        | 8890/48008 [1:16:26<6:31:03,  1.67it/s] 19%|█▊        | 8891/48008 [1:16:26<6:11:18,  1.76it/s] 19%|█▊        | 8892/48008 [1:16:27<5:58:51,  1.82it/s] 19%|█▊        | 8893/48008 [1:16:27<5:44:35,  1.89it/s] 19%|█▊        | 8894/48008 [1:16:28<5:34:59,  1.95it/s] 19%|█▊        | 8895/48008 [1:16:28<5:28:53,  1.98it/s] 19%|█▊        | 8896/48008 [1:16:29<5:23:47,  2.01it/s] 19%|█▊        | 8897/48008 [1:16:29<5:01:08,  2.16it/s] 19%|█▊        | 8898/48008 [1:16:30<5:15:50,  2.06it/s] 19%|█▊        | 8899/48008 [1:16:30<5:15:16,  2.07it/s] 19%|█▊        | 8900/48008 [1:16:31<5:15:05,  2.07it/s]                                                        {'loss': 4.3057, 'grad_norm': 0.15481431782245636, 'learning_rate': 0.00016292701216463924, 'epoch': 0.19} 19%|█▊        | 8900/48008 [1:16:31<5:15:05,  2.07it/s]
 19%|█▊        | 8901/48008 [1:16:31<5:14:19,  2.07it/s] 19%|█▊        | 8902/48008 [1:16:32<5:13:57,  2.08it/s] 19%|█▊        | 8903/48008 [1:16:32<5:14:33,  2.07it/s] 19%|█▊        | 8904/48008 [1:16:33<5:15:10,  2.07it/s] 19%|█▊        | 8905/48008 [1:16:33<5:18:23,  2.05it/s] 19%|█▊        | 8906/48008 [1:16:34<5:17:07,  2.06it/s] 19%|█▊        | 8907/48008 [1:16:34<5:20:39,  2.03it/s] 19%|█▊        | 8908/48008 [1:16:35<5:18:04,  2.05it/s] 19%|█▊        | 8909/48008 [1:16:35<5:21:41,  2.03it/s] 19%|█▊        | 8910/48008 [1:16:36<5:23:09,  2.02it/s] 19%|█▊        | 8911/48008 [1:16:36<5:20:40,  2.03it/s] 19%|█▊        | 8912/48008 [1:16:37<5:30:20,  1.97it/s] 19%|█▊        | 8913/48008 [1:16:38<6:42:37,  1.62it/s] 19%|█▊        | 8914/48008 [1:16:38<6:15:37,  1.73it/s] 19%|█▊        | 8915/48008 [1:16:39<5:55:57,  1.83it/s] 19%|█▊        | 8916/48008 [1:16:39<5:42:57,  1.90it/s] 19%|█▊        | 8917/48008 [1:16:40<5:44:32,  1.89it/s] 19%|█▊        | 8918/48008 [1:16:40<6:52:18,  1.58it/s] 19%|█▊        | 8919/48008 [1:16:41<6:23:08,  1.70it/s] 19%|█▊        | 8920/48008 [1:16:41<6:01:56,  1.80it/s] 19%|█▊        | 8921/48008 [1:16:42<5:52:31,  1.85it/s] 19%|█▊        | 8922/48008 [1:16:42<5:28:06,  1.99it/s] 19%|█▊        | 8923/48008 [1:16:43<5:10:55,  2.10it/s] 19%|█▊        | 8924/48008 [1:16:43<5:11:21,  2.09it/s] 19%|█▊        | 8925/48008 [1:16:44<5:16:17,  2.06it/s] 19%|█▊        | 8926/48008 [1:16:44<5:19:23,  2.04it/s] 19%|█▊        | 8927/48008 [1:16:45<5:29:16,  1.98it/s] 19%|█▊        | 8928/48008 [1:16:45<5:35:21,  1.94it/s] 19%|█▊        | 8929/48008 [1:16:46<5:29:09,  1.98it/s] 19%|█▊        | 8930/48008 [1:16:46<5:24:04,  2.01it/s] 19%|█▊        | 8931/48008 [1:16:47<5:28:52,  1.98it/s] 19%|█▊        | 8932/48008 [1:16:47<5:32:09,  1.96it/s] 19%|█▊        | 8933/48008 [1:16:48<5:13:33,  2.08it/s] 19%|█▊        | 8934/48008 [1:16:48<5:13:08,  2.08it/s] 19%|█▊        | 8935/48008 [1:16:49<6:30:10,  1.67it/s] 19%|█▊        | 8936/48008 [1:16:50<6:11:49,  1.75it/s] 19%|█▊        | 8937/48008 [1:16:50<5:57:47,  1.82it/s] 19%|█▊        | 8938/48008 [1:16:52<8:56:01,  1.21it/s] 19%|█▊        | 8939/48008 [1:16:52<7:50:08,  1.38it/s] 19%|█▊        | 8940/48008 [1:16:52<6:50:45,  1.59it/s] 19%|█▊        | 8941/48008 [1:16:53<6:26:18,  1.69it/s] 19%|█▊        | 8942/48008 [1:16:53<6:09:40,  1.76it/s] 19%|█▊        | 8943/48008 [1:16:54<5:56:29,  1.83it/s] 19%|█▊        | 8944/48008 [1:16:55<8:42:49,  1.25it/s] 19%|█▊        | 8945/48008 [1:16:56<7:38:47,  1.42it/s] 19%|█▊        | 8946/48008 [1:16:56<6:54:20,  1.57it/s] 19%|█▊        | 8947/48008 [1:16:57<6:24:25,  1.69it/s] 19%|█▊        | 8948/48008 [1:16:57<6:02:39,  1.80it/s] 19%|█▊        | 8949/48008 [1:16:58<5:58:17,  1.82it/s] 19%|█▊        | 8950/48008 [1:16:58<5:48:21,  1.87it/s]                                                        {'loss': 4.3126, 'grad_norm': 0.19756950438022614, 'learning_rate': 0.00016271871354774203, 'epoch': 0.19}
 19%|█▊        | 8950/48008 [1:16:58<5:48:21,  1.87it/s] 19%|█▊        | 8951/48008 [1:16:59<5:37:58,  1.93it/s] 19%|█▊        | 8952/48008 [1:16:59<5:34:53,  1.94it/s] 19%|█▊        | 8953/48008 [1:17:00<5:15:18,  2.06it/s] 19%|█▊        | 8954/48008 [1:17:00<5:13:24,  2.08it/s] 19%|█▊        | 8955/48008 [1:17:01<5:12:49,  2.08it/s] 19%|█▊        | 8956/48008 [1:17:01<5:12:50,  2.08it/s] 19%|█▊        | 8957/48008 [1:17:02<4:59:28,  2.17it/s] 19%|█▊        | 8958/48008 [1:17:02<5:02:25,  2.15it/s] 19%|█▊        | 8959/48008 [1:17:03<5:13:50,  2.07it/s] 19%|█▊        | 8960/48008 [1:17:03<5:14:14,  2.07it/s] 19%|█▊        | 8961/48008 [1:17:03<5:13:05,  2.08it/s] 19%|█▊        | 8962/48008 [1:17:04<5:12:52,  2.08it/s] 19%|█▊        | 8963/48008 [1:17:04<5:12:04,  2.09it/s] 19%|█▊        | 8964/48008 [1:17:05<4:59:43,  2.17it/s] 19%|█▊        | 8965/48008 [1:17:05<5:02:37,  2.15it/s] 19%|█▊        | 8966/48008 [1:17:06<5:06:13,  2.12it/s] 19%|█▊        | 8967/48008 [1:17:06<4:55:20,  2.20it/s] 19%|█▊        | 8968/48008 [1:17:07<5:05:30,  2.13it/s] 19%|█▊        | 8969/48008 [1:17:07<5:18:33,  2.04it/s] 19%|█▊        | 8970/48008 [1:17:08<5:16:55,  2.05it/s] 19%|█▊        | 8971/48008 [1:17:08<5:27:31,  1.99it/s] 19%|█▊        | 8972/48008 [1:17:09<5:34:36,  1.94it/s] 19%|█▊        | 8973/48008 [1:17:09<5:33:05,  1.95it/s] 19%|█▊        | 8974/48008 [1:17:10<5:26:43,  1.99it/s] 19%|█▊        | 8975/48008 [1:17:10<5:22:59,  2.01it/s] 19%|█▊        | 8976/48008 [1:17:11<5:28:07,  1.98it/s] 19%|█▊        | 8977/48008 [1:17:11<5:34:18,  1.95it/s] 19%|█▊        | 8978/48008 [1:17:12<5:28:15,  1.98it/s] 19%|█▊        | 8979/48008 [1:17:12<5:22:46,  2.02it/s] 19%|█▊        | 8980/48008 [1:17:13<5:19:06,  2.04it/s] 19%|█▊        | 8981/48008 [1:17:13<5:23:53,  2.01it/s] 19%|█▊        | 8982/48008 [1:17:14<5:21:24,  2.02it/s] 19%|█▊        | 8983/48008 [1:17:14<5:23:53,  2.01it/s] 19%|█▊        | 8984/48008 [1:17:15<5:27:22,  1.99it/s] 19%|█▊        | 8985/48008 [1:17:15<5:34:55,  1.94it/s] 19%|█▊        | 8986/48008 [1:17:16<5:32:55,  1.95it/s] 19%|█▊        | 8987/48008 [1:17:16<5:25:59,  1.99it/s] 19%|█▊        | 8988/48008 [1:17:17<5:22:31,  2.02it/s] 19%|█▊        | 8989/48008 [1:17:17<5:19:22,  2.04it/s] 19%|█▊        | 8990/48008 [1:17:18<5:05:14,  2.13it/s] 19%|█▊        | 8991/48008 [1:17:18<5:07:42,  2.11it/s] 19%|█▊        | 8992/48008 [1:17:19<5:20:56,  2.03it/s] 19%|█▊        | 8993/48008 [1:17:19<5:22:07,  2.02it/s] 19%|█▊        | 8994/48008 [1:17:20<5:19:32,  2.03it/s] 19%|█▊        | 8995/48008 [1:17:20<5:16:59,  2.05it/s] 19%|█▊        | 8996/48008 [1:17:21<5:19:12,  2.04it/s] 19%|█▊        | 8997/48008 [1:17:21<5:24:31,  2.00it/s] 19%|█▊        | 8998/48008 [1:17:22<5:21:34,  2.02it/s] 19%|█▊        | 8999/48008 [1:17:22<5:18:29,  2.04it/s] 19%|█▊        | 9000/48008 [1:17:23<5:15:50,  2.06it/s]                                                        {'loss': 4.2647, 'grad_norm': 0.3747343420982361, 'learning_rate': 0.00016251041493084488, 'epoch': 0.19}
 19%|█▊        | 9000/48008 [1:17:23<5:15:50,  2.06it/s] 19%|█▊        | 9001/48008 [1:17:23<5:14:51,  2.06it/s] 19%|█▉        | 9002/48008 [1:17:24<5:00:56,  2.16it/s] 19%|█▉        | 9003/48008 [1:17:24<6:22:01,  1.70it/s] 19%|█▉        | 9004/48008 [1:17:25<6:07:51,  1.77it/s] 19%|█▉        | 9005/48008 [1:17:25<5:38:46,  1.92it/s] 19%|█▉        | 9006/48008 [1:17:26<5:35:38,  1.94it/s] 19%|█▉        | 9007/48008 [1:17:26<5:27:26,  1.99it/s] 19%|█▉        | 9008/48008 [1:17:27<6:00:47,  1.80it/s] 19%|█▉        | 9009/48008 [1:17:28<5:46:29,  1.88it/s] 19%|█▉        | 9010/48008 [1:17:28<5:36:47,  1.93it/s] 19%|█▉        | 9011/48008 [1:17:28<5:29:19,  1.97it/s] 19%|█▉        | 9012/48008 [1:17:29<5:31:49,  1.96it/s] 19%|█▉        | 9013/48008 [1:17:29<5:29:49,  1.97it/s] 19%|█▉        | 9014/48008 [1:17:30<5:24:03,  2.01it/s] 19%|█▉        | 9015/48008 [1:17:30<5:19:36,  2.03it/s] 19%|█▉        | 9016/48008 [1:17:31<5:17:45,  2.05it/s] 19%|█▉        | 9017/48008 [1:17:31<5:20:05,  2.03it/s] 19%|█▉        | 9018/48008 [1:17:32<5:28:43,  1.98it/s] 19%|█▉        | 9019/48008 [1:17:32<5:24:17,  2.00it/s] 19%|█▉        | 9020/48008 [1:17:33<5:21:27,  2.02it/s] 19%|█▉        | 9021/48008 [1:17:33<5:17:41,  2.05it/s] 19%|█▉        | 9022/48008 [1:17:34<5:21:40,  2.02it/s] 19%|█▉        | 9023/48008 [1:17:34<5:26:27,  1.99it/s] 19%|█▉        | 9024/48008 [1:17:35<5:22:42,  2.01it/s] 19%|█▉        | 9025/48008 [1:17:35<5:06:56,  2.12it/s] 19%|█▉        | 9026/48008 [1:17:36<5:07:42,  2.11it/s] 19%|█▉        | 9027/48008 [1:17:36<5:20:39,  2.03it/s] 19%|█▉        | 9028/48008 [1:17:37<5:29:49,  1.97it/s] 19%|█▉        | 9029/48008 [1:17:37<5:11:38,  2.08it/s] 19%|█▉        | 9030/48008 [1:17:38<4:59:07,  2.17it/s] 19%|█▉        | 9031/48008 [1:17:38<4:50:04,  2.24it/s] 19%|█▉        | 9032/48008 [1:17:39<4:56:49,  2.19it/s] 19%|█▉        | 9033/48008 [1:17:39<5:06:33,  2.12it/s] 19%|█▉        | 9034/48008 [1:17:40<5:09:02,  2.10it/s] 19%|█▉        | 9035/48008 [1:17:40<5:10:18,  2.09it/s] 19%|█▉        | 9036/48008 [1:17:41<5:18:34,  2.04it/s] 19%|█▉        | 9037/48008 [1:17:41<5:24:00,  2.00it/s] 19%|█▉        | 9038/48008 [1:17:42<5:19:52,  2.03it/s] 19%|█▉        | 9039/48008 [1:17:42<5:17:12,  2.05it/s] 19%|█▉        | 9040/48008 [1:17:43<5:15:46,  2.06it/s] 19%|█▉        | 9041/48008 [1:17:43<5:22:17,  2.02it/s] 19%|█▉        | 9042/48008 [1:17:44<5:26:25,  1.99it/s] 19%|█▉        | 9043/48008 [1:17:44<5:21:22,  2.02it/s] 19%|█▉        | 9044/48008 [1:17:45<5:55:22,  1.83it/s] 19%|█▉        | 9045/48008 [1:17:45<5:42:39,  1.90it/s] 19%|█▉        | 9046/48008 [1:17:46<5:33:34,  1.95it/s] 19%|█▉        | 9047/48008 [1:17:46<5:26:09,  1.99it/s] 19%|█▉        | 9048/48008 [1:17:47<5:26:10,  1.99it/s] 19%|█▉        | 9049/48008 [1:17:47<5:25:37,  1.99it/s] 19%|█▉        | 9050/48008 [1:17:48<5:21:54,  2.02it/s]                                                        {'loss': 4.3343, 'grad_norm': 0.6307501196861267, 'learning_rate': 0.0001623021163139477, 'epoch': 0.19} 19%|█▉        | 9050/48008 [1:17:48<5:21:54,  2.02it/s]
 19%|█▉        | 9051/48008 [1:17:48<5:18:14,  2.04it/s] 19%|█▉        | 9052/48008 [1:17:49<5:23:05,  2.01it/s] 19%|█▉        | 9053/48008 [1:17:49<5:20:12,  2.03it/s] 19%|█▉        | 9054/48008 [1:17:50<5:18:07,  2.04it/s] 19%|█▉        | 9055/48008 [1:17:50<5:16:35,  2.05it/s] 19%|█▉        | 9056/48008 [1:17:51<5:15:17,  2.06it/s] 19%|█▉        | 9057/48008 [1:17:51<5:21:35,  2.02it/s] 19%|█▉        | 9058/48008 [1:17:52<5:05:57,  2.12it/s] 19%|█▉        | 9059/48008 [1:17:52<5:06:49,  2.12it/s] 19%|█▉        | 9060/48008 [1:17:53<7:39:26,  1.41it/s] 19%|█▉        | 9061/48008 [1:17:54<6:55:50,  1.56it/s] 19%|█▉        | 9062/48008 [1:17:54<6:24:23,  1.69it/s] 19%|█▉        | 9063/48008 [1:17:55<6:02:56,  1.79it/s] 19%|█▉        | 9064/48008 [1:17:55<5:35:06,  1.94it/s] 19%|█▉        | 9065/48008 [1:17:56<5:32:12,  1.95it/s] 19%|█▉        | 9066/48008 [1:17:56<6:04:07,  1.78it/s] 19%|█▉        | 9067/48008 [1:17:57<5:35:23,  1.94it/s] 19%|█▉        | 9068/48008 [1:17:57<5:14:43,  2.06it/s] 19%|█▉        | 9069/48008 [1:17:58<5:01:13,  2.15it/s] 19%|█▉        | 9070/48008 [1:17:58<4:52:29,  2.22it/s] 19%|█▉        | 9071/48008 [1:17:58<5:02:45,  2.14it/s] 19%|█▉        | 9072/48008 [1:17:59<5:09:02,  2.10it/s] 19%|█▉        | 9073/48008 [1:17:59<5:17:45,  2.04it/s] 19%|█▉        | 9074/48008 [1:18:00<5:19:25,  2.03it/s] 19%|█▉        | 9075/48008 [1:18:00<5:21:36,  2.02it/s] 19%|█▉        | 9076/48008 [1:18:01<5:18:50,  2.04it/s] 19%|█▉        | 9077/48008 [1:18:01<5:16:02,  2.05it/s] 19%|█▉        | 9078/48008 [1:18:02<5:18:50,  2.03it/s] 19%|█▉        | 9079/48008 [1:18:02<5:24:09,  2.00it/s] 19%|█▉        | 9080/48008 [1:18:03<5:07:25,  2.11it/s] 19%|█▉        | 9081/48008 [1:18:03<5:20:12,  2.03it/s] 19%|█▉        | 9082/48008 [1:18:04<5:22:53,  2.01it/s] 19%|█▉        | 9083/48008 [1:18:04<5:19:38,  2.03it/s] 19%|█▉        | 9084/48008 [1:18:05<5:25:08,  2.00it/s] 19%|█▉        | 9085/48008 [1:18:05<5:21:16,  2.02it/s] 19%|█▉        | 9086/48008 [1:18:06<5:18:21,  2.04it/s] 19%|█▉        | 9087/48008 [1:18:06<5:15:56,  2.05it/s] 19%|█▉        | 9088/48008 [1:18:07<5:01:19,  2.15it/s] 19%|█▉        | 9089/48008 [1:18:07<5:09:33,  2.10it/s] 19%|█▉        | 9090/48008 [1:18:08<5:09:56,  2.09it/s] 19%|█▉        | 9091/48008 [1:18:08<5:17:14,  2.04it/s] 19%|█▉        | 9092/48008 [1:18:09<5:15:15,  2.06it/s] 19%|█▉        | 9093/48008 [1:18:09<5:52:06,  1.84it/s] 19%|█▉        | 9094/48008 [1:18:10<5:44:34,  1.88it/s] 19%|█▉        | 9095/48008 [1:18:10<5:34:01,  1.94it/s] 19%|█▉        | 9096/48008 [1:18:11<5:26:36,  1.99it/s] 19%|█▉        | 9097/48008 [1:18:12<5:59:07,  1.81it/s] 19%|█▉        | 9098/48008 [1:18:12<5:44:14,  1.88it/s] 19%|█▉        | 9099/48008 [1:18:13<5:33:29,  1.94it/s] 19%|█▉        | 9100/48008 [1:18:13<5:32:14,  1.95it/s]                                                        {'loss': 4.2633, 'grad_norm': 0.8702807426452637, 'learning_rate': 0.00016209381769705049, 'epoch': 0.19} 19%|█▉        | 9100/48008 [1:18:13<5:32:14,  1.95it/s]
 19%|█▉        | 9101/48008 [1:18:14<5:30:24,  1.96it/s] 19%|█▉        | 9102/48008 [1:18:14<5:12:13,  2.08it/s] 19%|█▉        | 9103/48008 [1:18:14<5:18:31,  2.04it/s] 19%|█▉        | 9104/48008 [1:18:15<5:16:14,  2.05it/s] 19%|█▉        | 9105/48008 [1:18:15<5:15:02,  2.06it/s] 19%|█▉        | 9106/48008 [1:18:16<5:13:33,  2.07it/s] 19%|█▉        | 9107/48008 [1:18:17<5:50:06,  1.85it/s] 19%|█▉        | 9108/48008 [1:18:17<5:42:31,  1.89it/s] 19%|█▉        | 9109/48008 [1:18:18<5:33:18,  1.95it/s] 19%|█▉        | 9110/48008 [1:18:18<5:27:07,  1.98it/s] 19%|█▉        | 9111/48008 [1:18:19<5:33:15,  1.95it/s] 19%|█▉        | 9112/48008 [1:18:20<7:55:18,  1.36it/s] 19%|█▉        | 9113/48008 [1:18:20<7:10:47,  1.50it/s] 19%|█▉        | 9114/48008 [1:18:21<6:40:11,  1.62it/s] 19%|█▉        | 9115/48008 [1:18:21<6:18:02,  1.71it/s] 19%|█▉        | 9116/48008 [1:18:22<6:05:35,  1.77it/s] 19%|█▉        | 9117/48008 [1:18:22<5:36:42,  1.93it/s] 19%|█▉        | 9118/48008 [1:18:23<5:29:27,  1.97it/s] 19%|█▉        | 9119/48008 [1:18:23<5:28:25,  1.97it/s] 19%|█▉        | 9120/48008 [1:18:24<5:27:52,  1.98it/s] 19%|█▉        | 9121/48008 [1:18:24<5:26:22,  1.99it/s] 19%|█▉        | 9122/48008 [1:18:25<5:29:23,  1.97it/s] 19%|█▉        | 9123/48008 [1:18:25<5:11:38,  2.08it/s] 19%|█▉        | 9124/48008 [1:18:26<5:12:04,  2.08it/s] 19%|█▉        | 9125/48008 [1:18:26<5:12:08,  2.08it/s] 19%|█▉        | 9126/48008 [1:18:27<5:12:09,  2.08it/s] 19%|█▉        | 9127/48008 [1:18:27<5:16:26,  2.05it/s] 19%|█▉        | 9128/48008 [1:18:28<5:15:14,  2.06it/s] 19%|█▉        | 9129/48008 [1:18:28<5:13:46,  2.07it/s] 19%|█▉        | 9130/48008 [1:18:29<5:00:11,  2.16it/s] 19%|█▉        | 9131/48008 [1:18:29<5:07:57,  2.10it/s] 19%|█▉        | 9132/48008 [1:18:30<6:25:58,  1.68it/s] 19%|█▉        | 9133/48008 [1:18:30<6:03:31,  1.78it/s] 19%|█▉        | 9134/48008 [1:18:31<5:51:18,  1.84it/s] 19%|█▉        | 9135/48008 [1:18:31<5:25:56,  1.99it/s] 19%|█▉        | 9136/48008 [1:18:32<5:08:48,  2.10it/s] 19%|█▉        | 9137/48008 [1:18:32<5:13:05,  2.07it/s] 19%|█▉        | 9138/48008 [1:18:33<5:11:33,  2.08it/s] 19%|█▉        | 9139/48008 [1:18:33<5:10:12,  2.09it/s] 19%|█▉        | 9140/48008 [1:18:34<5:14:08,  2.06it/s] 19%|█▉        | 9141/48008 [1:18:34<5:00:39,  2.15it/s] 19%|█▉        | 9142/48008 [1:18:34<4:51:22,  2.22it/s] 19%|█▉        | 9143/48008 [1:18:35<5:08:09,  2.10it/s] 19%|█▉        | 9144/48008 [1:18:35<4:56:41,  2.18it/s] 19%|█▉        | 9145/48008 [1:18:37<7:30:18,  1.44it/s] 19%|█▉        | 9146/48008 [1:18:37<6:35:56,  1.64it/s] 19%|█▉        | 9147/48008 [1:18:38<5:57:50,  1.81it/s] 19%|█▉        | 9148/48008 [1:18:38<5:55:52,  1.82it/s] 19%|█▉        | 9149/48008 [1:18:39<5:49:08,  1.85it/s] 19%|█▉        | 9150/48008 [1:18:39<5:37:07,  1.92it/s]                                                        {'loss': 4.3104, 'grad_norm': 1.0299628973007202, 'learning_rate': 0.00016188551908015333, 'epoch': 0.19}
 19%|█▉        | 9150/48008 [1:18:39<5:37:07,  1.92it/s] 19%|█▉        | 9151/48008 [1:18:40<7:58:58,  1.35it/s] 19%|█▉        | 9152/48008 [1:18:41<7:08:35,  1.51it/s] 19%|█▉        | 9153/48008 [1:18:42<9:01:59,  1.19it/s] 19%|█▉        | 9154/48008 [1:18:43<8:04:35,  1.34it/s] 19%|█▉        | 9155/48008 [1:18:43<7:20:21,  1.47it/s] 19%|█▉        | 9156/48008 [1:18:44<6:40:57,  1.61it/s] 19%|█▉        | 9157/48008 [1:18:44<6:21:57,  1.70it/s] 19%|█▉        | 9158/48008 [1:18:45<6:00:41,  1.80it/s] 19%|█▉        | 9159/48008 [1:18:45<5:50:28,  1.85it/s] 19%|█▉        | 9160/48008 [1:18:46<5:38:39,  1.91it/s] 19%|█▉        | 9161/48008 [1:18:47<8:00:11,  1.35it/s] 19%|█▉        | 9162/48008 [1:18:47<7:09:42,  1.51it/s] 19%|█▉        | 9163/48008 [1:18:48<6:44:55,  1.60it/s] 19%|█▉        | 9164/48008 [1:18:48<6:20:16,  1.70it/s] 19%|█▉        | 9165/48008 [1:18:50<8:28:21,  1.27it/s] 19%|█▉        | 9166/48008 [1:18:50<7:33:32,  1.43it/s] 19%|█▉        | 9167/48008 [1:18:51<6:50:32,  1.58it/s] 19%|█▉        | 9168/48008 [1:18:51<6:21:06,  1.70it/s] 19%|█▉        | 9169/48008 [1:18:52<6:00:41,  1.79it/s] 19%|█▉        | 9170/48008 [1:18:52<5:45:55,  1.87it/s] 19%|█▉        | 9171/48008 [1:18:52<5:35:15,  1.93it/s] 19%|█▉        | 9172/48008 [1:18:53<5:31:34,  1.95it/s] 19%|█▉        | 9173/48008 [1:18:54<6:02:57,  1.78it/s] 19%|█▉        | 9174/48008 [1:18:54<5:46:36,  1.87it/s] 19%|█▉        | 9175/48008 [1:18:55<5:36:16,  1.92it/s] 19%|█▉        | 9176/48008 [1:18:55<5:15:57,  2.05it/s] 19%|█▉        | 9177/48008 [1:18:56<5:19:23,  2.03it/s] 19%|█▉        | 9178/48008 [1:18:56<5:27:46,  1.97it/s] 19%|█▉        | 9179/48008 [1:18:56<5:09:36,  2.09it/s] 19%|█▉        | 9180/48008 [1:18:57<5:13:46,  2.06it/s] 19%|█▉        | 9181/48008 [1:18:57<5:00:35,  2.15it/s] 19%|█▉        | 9182/48008 [1:18:58<5:03:56,  2.13it/s] 19%|█▉        | 9183/48008 [1:18:58<5:05:36,  2.12it/s] 19%|█▉        | 9184/48008 [1:18:59<5:14:43,  2.06it/s] 19%|█▉        | 9185/48008 [1:18:59<5:13:53,  2.06it/s] 19%|█▉        | 9186/48008 [1:19:00<5:17:15,  2.04it/s] 19%|█▉        | 9187/48008 [1:19:00<5:15:10,  2.05it/s] 19%|█▉        | 9188/48008 [1:19:01<5:17:48,  2.04it/s] 19%|█▉        | 9189/48008 [1:19:01<5:15:38,  2.05it/s] 19%|█▉        | 9190/48008 [1:19:02<5:24:56,  1.99it/s] 19%|█▉        | 9191/48008 [1:19:02<5:24:55,  1.99it/s] 19%|█▉        | 9192/48008 [1:19:03<5:20:55,  2.02it/s] 19%|█▉        | 9193/48008 [1:19:03<5:17:09,  2.04it/s] 19%|█▉        | 9194/48008 [1:19:04<5:15:49,  2.05it/s] 19%|█▉        | 9195/48008 [1:19:04<5:01:33,  2.15it/s] 19%|█▉        | 9196/48008 [1:19:05<5:41:57,  1.89it/s] 19%|█▉        | 9197/48008 [1:19:05<5:19:24,  2.03it/s] 19%|█▉        | 9198/48008 [1:19:06<5:28:46,  1.97it/s] 19%|█▉        | 9199/48008 [1:19:06<5:24:09,  2.00it/s] 19%|█▉        | 9200/48008 [1:19:07<5:08:14,  2.10it/s]                                                        {'loss': 4.371, 'grad_norm': 0.8001706004142761, 'learning_rate': 0.00016167722046325612, 'epoch': 0.19}
 19%|█▉        | 9200/48008 [1:19:07<5:08:14,  2.10it/s] 19%|█▉        | 9201/48008 [1:19:07<5:47:42,  1.86it/s] 19%|█▉        | 9202/48008 [1:19:08<5:41:24,  1.89it/s] 19%|█▉        | 9203/48008 [1:19:09<6:10:19,  1.75it/s] 19%|█▉        | 9204/48008 [1:19:09<5:52:34,  1.83it/s] 19%|█▉        | 9205/48008 [1:19:10<5:48:04,  1.86it/s] 19%|█▉        | 9206/48008 [1:19:10<5:45:49,  1.87it/s] 19%|█▉        | 9207/48008 [1:19:11<5:40:08,  1.90it/s] 19%|█▉        | 9208/48008 [1:19:11<5:18:47,  2.03it/s] 19%|█▉        | 9209/48008 [1:19:11<5:03:46,  2.13it/s] 19%|█▉        | 9210/48008 [1:19:12<5:13:53,  2.06it/s] 19%|█▉        | 9211/48008 [1:19:12<5:13:26,  2.06it/s] 19%|█▉        | 9212/48008 [1:19:13<5:16:52,  2.04it/s] 19%|█▉        | 9213/48008 [1:19:13<5:18:20,  2.03it/s] 19%|█▉        | 9214/48008 [1:19:14<5:27:01,  1.98it/s] 19%|█▉        | 9215/48008 [1:19:15<6:40:12,  1.62it/s] 19%|█▉        | 9216/48008 [1:19:15<6:14:19,  1.73it/s] 19%|█▉        | 9217/48008 [1:19:16<6:33:43,  1.64it/s] 19%|█▉        | 9218/48008 [1:19:17<6:13:44,  1.73it/s] 19%|█▉        | 9219/48008 [1:19:17<5:54:48,  1.82it/s] 19%|█▉        | 9220/48008 [1:19:18<5:40:31,  1.90it/s] 19%|█▉        | 9221/48008 [1:19:18<5:43:13,  1.88it/s] 19%|█▉        | 9222/48008 [1:19:18<5:20:57,  2.01it/s] 19%|█▉        | 9223/48008 [1:19:19<5:21:40,  2.01it/s] 19%|█▉        | 9224/48008 [1:19:19<5:23:14,  2.00it/s] 19%|█▉        | 9225/48008 [1:19:20<5:20:09,  2.02it/s] 19%|█▉        | 9226/48008 [1:19:20<5:16:40,  2.04it/s] 19%|█▉        | 9227/48008 [1:19:21<5:14:52,  2.05it/s] 19%|█▉        | 9228/48008 [1:19:21<5:00:53,  2.15it/s] 19%|█▉        | 9229/48008 [1:19:22<5:03:17,  2.13it/s] 19%|█▉        | 9230/48008 [1:19:22<5:04:55,  2.12it/s] 19%|█▉        | 9231/48008 [1:19:23<6:22:46,  1.69it/s] 19%|█▉        | 9232/48008 [1:19:24<6:01:27,  1.79it/s] 19%|█▉        | 9233/48008 [1:19:24<5:50:54,  1.84it/s] 19%|█▉        | 9234/48008 [1:19:25<5:42:16,  1.89it/s] 19%|█▉        | 9235/48008 [1:19:25<5:32:44,  1.94it/s] 19%|█▉        | 9236/48008 [1:19:26<5:13:33,  2.06it/s] 19%|█▉        | 9237/48008 [1:19:26<5:16:38,  2.04it/s] 19%|█▉        | 9238/48008 [1:19:27<5:13:50,  2.06it/s] 19%|█▉        | 9239/48008 [1:19:27<5:17:01,  2.04it/s] 19%|█▉        | 9240/48008 [1:19:28<5:22:03,  2.01it/s] 19%|█▉        | 9241/48008 [1:19:28<5:22:13,  2.01it/s] 19%|█▉        | 9242/48008 [1:19:29<5:24:15,  1.99it/s] 19%|█▉        | 9243/48008 [1:19:29<5:07:29,  2.10it/s] 19%|█▉        | 9244/48008 [1:19:29<4:55:46,  2.18it/s] 19%|█▉        | 9245/48008 [1:19:30<5:04:12,  2.12it/s] 19%|█▉        | 9246/48008 [1:19:31<6:23:17,  1.69it/s] 19%|█▉        | 9247/48008 [1:19:31<6:01:53,  1.79it/s] 19%|█▉        | 9248/48008 [1:19:32<5:33:48,  1.94it/s] 19%|█▉        | 9249/48008 [1:19:32<5:27:02,  1.98it/s] 19%|█▉        | 9250/48008 [1:19:33<5:21:35,  2.01it/s]                                                        {'loss': 4.3456, 'grad_norm': 0.8336932063102722, 'learning_rate': 0.00016146892184635897, 'epoch': 0.19}
 19%|█▉        | 9250/48008 [1:19:33<5:21:35,  2.01it/s] 19%|█▉        | 9251/48008 [1:19:33<5:23:25,  2.00it/s] 19%|█▉        | 9252/48008 [1:19:34<5:23:32,  2.00it/s] 19%|█▉        | 9253/48008 [1:19:34<5:06:48,  2.11it/s] 19%|█▉        | 9254/48008 [1:19:35<5:08:10,  2.10it/s] 19%|█▉        | 9255/48008 [1:19:35<5:12:18,  2.07it/s] 19%|█▉        | 9256/48008 [1:19:36<5:19:23,  2.02it/s] 19%|█▉        | 9257/48008 [1:19:36<5:24:39,  1.99it/s] 19%|█▉        | 9258/48008 [1:19:36<5:07:43,  2.10it/s] 19%|█▉        | 9259/48008 [1:19:37<4:55:33,  2.19it/s] 19%|█▉        | 9260/48008 [1:19:37<5:03:36,  2.13it/s] 19%|█▉        | 9261/48008 [1:19:38<5:09:05,  2.09it/s] 19%|█▉        | 9262/48008 [1:19:38<5:09:15,  2.09it/s] 19%|█▉        | 9263/48008 [1:19:39<5:12:56,  2.06it/s] 19%|█▉        | 9264/48008 [1:19:39<5:11:51,  2.07it/s] 19%|█▉        | 9265/48008 [1:19:40<5:10:39,  2.08it/s] 19%|█▉        | 9266/48008 [1:19:41<5:47:40,  1.86it/s] 19%|█▉        | 9267/48008 [1:19:41<5:35:15,  1.93it/s] 19%|█▉        | 9268/48008 [1:19:41<5:28:05,  1.97it/s] 19%|█▉        | 9269/48008 [1:19:42<5:27:00,  1.97it/s] 19%|█▉        | 9270/48008 [1:19:43<7:52:50,  1.37it/s] 19%|█▉        | 9271/48008 [1:19:44<7:08:23,  1.51it/s] 19%|█▉        | 9272/48008 [1:19:44<6:36:29,  1.63it/s] 19%|█▉        | 9273/48008 [1:19:45<7:27:00,  1.44it/s] 19%|█▉        | 9274/48008 [1:19:46<6:53:00,  1.56it/s] 19%|█▉        | 9275/48008 [1:19:46<6:09:17,  1.75it/s] 19%|█▉        | 9276/48008 [1:19:47<5:50:45,  1.84it/s] 19%|█▉        | 9277/48008 [1:19:47<6:15:30,  1.72it/s] 19%|█▉        | 9278/48008 [1:19:48<5:55:32,  1.82it/s] 19%|█▉        | 9279/48008 [1:19:48<5:29:40,  1.96it/s] 19%|█▉        | 9280/48008 [1:19:49<5:23:44,  1.99it/s] 19%|█▉        | 9281/48008 [1:19:49<5:19:58,  2.02it/s] 19%|█▉        | 9282/48008 [1:19:50<5:24:53,  1.99it/s] 19%|█▉        | 9283/48008 [1:19:50<5:19:52,  2.02it/s] 19%|█▉        | 9284/48008 [1:19:50<5:04:28,  2.12it/s] 19%|█▉        | 9285/48008 [1:19:51<5:13:03,  2.06it/s] 19%|█▉        | 9286/48008 [1:19:51<5:12:23,  2.07it/s] 19%|█▉        | 9287/48008 [1:19:52<4:59:00,  2.16it/s] 19%|█▉        | 9288/48008 [1:19:53<5:38:56,  1.90it/s] 19%|█▉        | 9289/48008 [1:19:53<5:30:47,  1.95it/s] 19%|█▉        | 9290/48008 [1:19:54<6:01:16,  1.79it/s] 19%|█▉        | 9291/48008 [1:19:54<5:45:47,  1.87it/s] 19%|█▉        | 9292/48008 [1:19:55<5:34:29,  1.93it/s] 19%|█▉        | 9293/48008 [1:19:55<5:14:22,  2.05it/s] 19%|█▉        | 9294/48008 [1:19:56<5:20:49,  2.01it/s] 19%|█▉        | 9295/48008 [1:19:56<5:22:33,  2.00it/s] 19%|█▉        | 9296/48008 [1:19:57<5:19:01,  2.02it/s] 19%|█▉        | 9297/48008 [1:19:57<5:03:53,  2.12it/s] 19%|█▉        | 9298/48008 [1:19:57<4:53:06,  2.20it/s] 19%|█▉        | 9299/48008 [1:19:58<4:58:07,  2.16it/s] 19%|█▉        | 9300/48008 [1:19:58<5:01:50,  2.14it/s]                                                        {'loss': 4.2993, 'grad_norm': 0.5041126012802124, 'learning_rate': 0.00016126062322946176, 'epoch': 0.19}
 19%|█▉        | 9300/48008 [1:19:58<5:01:50,  2.14it/s] 19%|█▉        | 9301/48008 [1:19:59<4:51:45,  2.21it/s] 19%|█▉        | 9302/48008 [1:19:59<5:02:24,  2.13it/s] 19%|█▉        | 9303/48008 [1:20:00<5:04:49,  2.12it/s] 19%|█▉        | 9304/48008 [1:20:00<5:07:14,  2.10it/s] 19%|█▉        | 9305/48008 [1:20:01<5:12:27,  2.06it/s] 19%|█▉        | 9306/48008 [1:20:01<5:11:49,  2.07it/s] 19%|█▉        | 9307/48008 [1:20:02<5:18:24,  2.03it/s] 19%|█▉        | 9308/48008 [1:20:02<5:27:42,  1.97it/s] 19%|█▉        | 9309/48008 [1:20:03<5:22:11,  2.00it/s] 19%|█▉        | 9310/48008 [1:20:03<5:05:02,  2.11it/s] 19%|█▉        | 9311/48008 [1:20:04<5:06:51,  2.10it/s] 19%|█▉        | 9312/48008 [1:20:04<5:07:32,  2.10it/s] 19%|█▉        | 9313/48008 [1:20:05<5:07:32,  2.10it/s] 19%|█▉        | 9314/48008 [1:20:05<5:19:57,  2.02it/s] 19%|█▉        | 9315/48008 [1:20:06<5:17:43,  2.03it/s] 19%|█▉        | 9316/48008 [1:20:06<5:24:25,  1.99it/s] 19%|█▉        | 9317/48008 [1:20:07<5:06:30,  2.10it/s] 19%|█▉        | 9318/48008 [1:20:07<5:11:09,  2.07it/s] 19%|█▉        | 9319/48008 [1:20:08<5:17:21,  2.03it/s] 19%|█▉        | 9320/48008 [1:20:08<5:53:20,  1.82it/s] 19%|█▉        | 9321/48008 [1:20:09<5:40:59,  1.89it/s] 19%|█▉        | 9322/48008 [1:20:09<6:09:48,  1.74it/s] 19%|█▉        | 9323/48008 [1:20:10<5:51:50,  1.83it/s] 19%|█▉        | 9324/48008 [1:20:10<5:48:58,  1.85it/s] 19%|█▉        | 9325/48008 [1:20:11<5:38:46,  1.90it/s] 19%|█▉        | 9326/48008 [1:20:11<5:31:18,  1.95it/s] 19%|█▉        | 9327/48008 [1:20:12<5:29:34,  1.96it/s] 19%|█▉        | 9328/48008 [1:20:12<5:22:38,  2.00it/s] 19%|█▉        | 9329/48008 [1:20:13<5:06:19,  2.10it/s] 19%|█▉        | 9330/48008 [1:20:13<5:19:24,  2.02it/s] 19%|█▉        | 9331/48008 [1:20:14<5:03:54,  2.12it/s] 19%|█▉        | 9332/48008 [1:20:14<5:05:13,  2.11it/s] 19%|█▉        | 9333/48008 [1:20:15<5:17:08,  2.03it/s] 19%|█▉        | 9334/48008 [1:20:15<5:15:44,  2.04it/s] 19%|█▉        | 9335/48008 [1:20:16<5:25:15,  1.98it/s] 19%|█▉        | 9336/48008 [1:20:16<5:21:18,  2.01it/s] 19%|█▉        | 9337/48008 [1:20:17<5:18:27,  2.02it/s] 19%|█▉        | 9338/48008 [1:20:18<6:32:32,  1.64it/s] 19%|█▉        | 9339/48008 [1:20:18<6:07:56,  1.75it/s] 19%|█▉        | 9340/48008 [1:20:19<5:37:39,  1.91it/s] 19%|█▉        | 9341/48008 [1:20:19<5:28:56,  1.96it/s] 19%|█▉        | 9342/48008 [1:20:20<5:22:21,  2.00it/s] 19%|█▉        | 9343/48008 [1:20:20<5:19:16,  2.02it/s] 19%|█▉        | 9344/48008 [1:20:20<5:15:35,  2.04it/s] 19%|█▉        | 9345/48008 [1:20:21<5:18:14,  2.02it/s] 19%|█▉        | 9346/48008 [1:20:22<6:31:34,  1.65it/s] 19%|█▉        | 9347/48008 [1:20:22<6:06:26,  1.76it/s] 19%|█▉        | 9348/48008 [1:20:23<6:26:15,  1.67it/s] 19%|█▉        | 9349/48008 [1:20:23<5:50:37,  1.84it/s] 19%|█▉        | 9350/48008 [1:20:24<5:25:36,  1.98it/s]                                                        {'loss': 4.3133, 'grad_norm': 0.4753885865211487, 'learning_rate': 0.0001610523246125646, 'epoch': 0.19}
 19%|█▉        | 9350/48008 [1:20:24<5:25:36,  1.98it/s] 19%|█▉        | 9351/48008 [1:20:24<5:28:43,  1.96it/s] 19%|█▉        | 9352/48008 [1:20:25<5:26:37,  1.97it/s] 19%|█▉        | 9353/48008 [1:20:25<5:32:23,  1.94it/s] 19%|█▉        | 9354/48008 [1:20:26<5:32:19,  1.94it/s] 19%|█▉        | 9355/48008 [1:20:27<6:41:04,  1.61it/s] 19%|█▉        | 9356/48008 [1:20:27<6:18:48,  1.70it/s] 19%|█▉        | 9357/48008 [1:20:28<5:58:02,  1.80it/s] 19%|█▉        | 9358/48008 [1:20:28<5:50:44,  1.84it/s] 19%|█▉        | 9359/48008 [1:20:29<5:38:36,  1.90it/s] 19%|█▉        | 9360/48008 [1:20:29<5:35:00,  1.92it/s] 19%|█▉        | 9361/48008 [1:20:30<5:26:59,  1.97it/s] 20%|█▉        | 9362/48008 [1:20:30<5:02:08,  2.13it/s] 20%|█▉        | 9363/48008 [1:20:31<5:41:52,  1.88it/s] 20%|█▉        | 9364/48008 [1:20:31<5:32:06,  1.94it/s] 20%|█▉        | 9365/48008 [1:20:32<5:24:15,  1.99it/s] 20%|█▉        | 9366/48008 [1:20:32<5:20:11,  2.01it/s] 20%|█▉        | 9367/48008 [1:20:33<5:16:45,  2.03it/s] 20%|█▉        | 9368/48008 [1:20:34<7:43:12,  1.39it/s] 20%|█▉        | 9369/48008 [1:20:34<6:57:25,  1.54it/s] 20%|█▉        | 9370/48008 [1:20:35<6:25:33,  1.67it/s] 20%|█▉        | 9371/48008 [1:20:35<6:01:54,  1.78it/s] 20%|█▉        | 9372/48008 [1:20:36<5:45:11,  1.87it/s] 20%|█▉        | 9373/48008 [1:20:37<8:04:50,  1.33it/s] 20%|█▉        | 9374/48008 [1:20:38<6:59:47,  1.53it/s] 20%|█▉        | 9375/48008 [1:20:38<6:26:18,  1.67it/s] 20%|█▉        | 9376/48008 [1:20:39<6:03:00,  1.77it/s] 20%|█▉        | 9377/48008 [1:20:39<7:02:42,  1.52it/s] 20%|█▉        | 9378/48008 [1:20:40<6:29:17,  1.65it/s] 20%|█▉        | 9379/48008 [1:20:40<6:09:30,  1.74it/s] 20%|█▉        | 9380/48008 [1:20:41<5:39:35,  1.90it/s] 20%|█▉        | 9381/48008 [1:20:41<5:30:31,  1.95it/s] 20%|█▉        | 9382/48008 [1:20:42<6:02:36,  1.78it/s] 20%|█▉        | 9383/48008 [1:20:42<5:47:38,  1.85it/s] 20%|█▉        | 9384/48008 [1:20:43<5:43:29,  1.87it/s] 20%|█▉        | 9385/48008 [1:20:44<5:45:33,  1.86it/s] 20%|█▉        | 9386/48008 [1:20:44<5:43:39,  1.87it/s] 20%|█▉        | 9387/48008 [1:20:45<5:32:56,  1.93it/s] 20%|█▉        | 9388/48008 [1:20:45<6:02:30,  1.78it/s] 20%|█▉        | 9389/48008 [1:20:46<5:34:11,  1.93it/s] 20%|█▉        | 9390/48008 [1:20:46<6:03:41,  1.77it/s] 20%|█▉        | 9391/48008 [1:20:47<5:51:27,  1.83it/s] 20%|█▉        | 9392/48008 [1:20:47<5:43:22,  1.87it/s] 20%|█▉        | 9393/48008 [1:20:48<5:41:33,  1.88it/s] 20%|█▉        | 9394/48008 [1:20:48<5:36:28,  1.91it/s] 20%|█▉        | 9395/48008 [1:20:49<5:32:17,  1.94it/s] 20%|█▉        | 9396/48008 [1:20:49<5:25:24,  1.98it/s] 20%|█▉        | 9397/48008 [1:20:50<5:31:44,  1.94it/s] 20%|█▉        | 9398/48008 [1:20:50<5:28:59,  1.96it/s] 20%|█▉        | 9399/48008 [1:20:51<5:27:55,  1.96it/s] 20%|█▉        | 9400/48008 [1:20:51<5:21:45,  2.00it/s]                                                        {'loss': 4.3236, 'grad_norm': 0.3471270501613617, 'learning_rate': 0.0001608440259956674, 'epoch': 0.2}
 20%|█▉        | 9400/48008 [1:20:51<5:21:45,  2.00it/s] 20%|█▉        | 9401/48008 [1:20:52<5:25:11,  1.98it/s] 20%|█▉        | 9402/48008 [1:20:52<5:07:51,  2.09it/s] 20%|█▉        | 9403/48008 [1:20:53<5:09:39,  2.08it/s] 20%|█▉        | 9404/48008 [1:20:53<5:16:48,  2.03it/s] 20%|█▉        | 9405/48008 [1:20:54<5:01:47,  2.13it/s] 20%|█▉        | 9406/48008 [1:20:54<5:08:47,  2.08it/s] 20%|█▉        | 9407/48008 [1:20:55<6:24:43,  1.67it/s] 20%|█▉        | 9408/48008 [1:20:56<6:13:54,  1.72it/s] 20%|█▉        | 9409/48008 [1:20:56<6:32:35,  1.64it/s] 20%|█▉        | 9410/48008 [1:20:57<6:44:48,  1.59it/s] 20%|█▉        | 9411/48008 [1:20:57<6:03:57,  1.77it/s] 20%|█▉        | 9412/48008 [1:20:58<5:47:54,  1.85it/s] 20%|█▉        | 9413/48008 [1:20:58<5:37:07,  1.91it/s] 20%|█▉        | 9414/48008 [1:20:59<5:38:05,  1.90it/s] 20%|█▉        | 9415/48008 [1:20:59<5:18:08,  2.02it/s] 20%|█▉        | 9416/48008 [1:21:00<5:21:09,  2.00it/s] 20%|█▉        | 9417/48008 [1:21:00<5:04:45,  2.11it/s] 20%|█▉        | 9418/48008 [1:21:01<4:53:37,  2.19it/s] 20%|█▉        | 9419/48008 [1:21:01<5:02:21,  2.13it/s] 20%|█▉        | 9420/48008 [1:21:02<5:08:35,  2.08it/s] 20%|█▉        | 9421/48008 [1:21:02<5:09:24,  2.08it/s] 20%|█▉        | 9422/48008 [1:21:03<4:57:18,  2.16it/s] 20%|█▉        | 9423/48008 [1:21:03<5:08:20,  2.09it/s] 20%|█▉        | 9424/48008 [1:21:04<5:08:04,  2.09it/s] 20%|█▉        | 9425/48008 [1:21:04<5:13:40,  2.05it/s] 20%|█▉        | 9426/48008 [1:21:04<4:59:54,  2.14it/s] 20%|█▉        | 9427/48008 [1:21:05<4:50:53,  2.21it/s] 20%|█▉        | 9428/48008 [1:21:05<5:03:44,  2.12it/s] 20%|█▉        | 9429/48008 [1:21:06<5:05:19,  2.11it/s] 20%|█▉        | 9430/48008 [1:21:06<5:12:00,  2.06it/s] 20%|█▉        | 9431/48008 [1:21:07<5:10:04,  2.07it/s] 20%|█▉        | 9432/48008 [1:21:07<5:21:51,  2.00it/s] 20%|█▉        | 9433/48008 [1:21:08<5:18:47,  2.02it/s] 20%|█▉        | 9434/48008 [1:21:08<5:19:10,  2.01it/s] 20%|█▉        | 9435/48008 [1:21:09<5:53:10,  1.82it/s] 20%|█▉        | 9436/48008 [1:21:09<5:27:11,  1.96it/s] 20%|█▉        | 9437/48008 [1:21:10<5:22:14,  1.99it/s] 20%|█▉        | 9438/48008 [1:21:10<5:17:30,  2.02it/s] 20%|█▉        | 9439/48008 [1:21:11<5:15:54,  2.03it/s] 20%|█▉        | 9440/48008 [1:21:11<5:13:22,  2.05it/s] 20%|█▉        | 9441/48008 [1:21:12<5:19:19,  2.01it/s] 20%|█▉        | 9442/48008 [1:21:12<5:03:46,  2.12it/s] 20%|█▉        | 9443/48008 [1:21:13<5:12:30,  2.06it/s] 20%|█▉        | 9444/48008 [1:21:13<4:58:48,  2.15it/s] 20%|█▉        | 9445/48008 [1:21:14<4:49:49,  2.22it/s] 20%|█▉        | 9446/48008 [1:21:14<4:56:04,  2.17it/s] 20%|█▉        | 9447/48008 [1:21:15<4:47:57,  2.23it/s] 20%|█▉        | 9448/48008 [1:21:15<4:54:34,  2.18it/s] 20%|█▉        | 9449/48008 [1:21:16<5:02:40,  2.12it/s] 20%|█▉        | 9450/48008 [1:21:16<4:51:03,  2.21it/s]                                                        {'loss': 4.259, 'grad_norm': 0.29521411657333374, 'learning_rate': 0.0001606357273787702, 'epoch': 0.2} 20%|█▉        | 9450/48008 [1:21:16<4:51:03,  2.21it/s]
 20%|█▉        | 9451/48008 [1:21:16<5:00:12,  2.14it/s] 20%|█▉        | 9452/48008 [1:21:17<4:50:10,  2.21it/s] 20%|█▉        | 9453/48008 [1:21:17<4:56:10,  2.17it/s] 20%|█▉        | 9454/48008 [1:21:18<4:59:06,  2.15it/s] 20%|█▉        | 9455/48008 [1:21:18<4:49:43,  2.22it/s] 20%|█▉        | 9456/48008 [1:21:19<4:36:19,  2.33it/s] 20%|█▉        | 9457/48008 [1:21:19<4:51:23,  2.21it/s] 20%|█▉        | 9458/48008 [1:21:20<7:25:32,  1.44it/s] 20%|█▉        | 9459/48008 [1:21:21<6:44:22,  1.59it/s] 20%|█▉        | 9460/48008 [1:21:21<6:03:18,  1.77it/s] 20%|█▉        | 9461/48008 [1:21:22<5:34:38,  1.92it/s] 20%|█▉        | 9462/48008 [1:21:22<5:14:38,  2.04it/s] 20%|█▉        | 9463/48008 [1:21:23<5:00:06,  2.14it/s] 20%|█▉        | 9464/48008 [1:21:23<5:07:10,  2.09it/s] 20%|█▉        | 9465/48008 [1:21:23<4:55:17,  2.18it/s] 20%|█▉        | 9466/48008 [1:21:24<5:06:32,  2.10it/s] 20%|█▉        | 9467/48008 [1:21:24<4:55:04,  2.18it/s] 20%|█▉        | 9468/48008 [1:21:25<4:46:54,  2.24it/s] 20%|█▉        | 9469/48008 [1:21:25<5:00:37,  2.14it/s] 20%|█▉        | 9470/48008 [1:21:26<4:51:15,  2.21it/s] 20%|█▉        | 9471/48008 [1:21:26<5:04:00,  2.11it/s] 20%|█▉        | 9472/48008 [1:21:27<5:10:43,  2.07it/s] 20%|█▉        | 9473/48008 [1:21:27<5:13:57,  2.05it/s] 20%|█▉        | 9474/48008 [1:21:28<5:13:16,  2.05it/s] 20%|█▉        | 9475/48008 [1:21:28<5:17:32,  2.02it/s] 20%|█▉        | 9476/48008 [1:21:29<5:18:55,  2.01it/s] 20%|█▉        | 9477/48008 [1:21:29<5:03:33,  2.12it/s] 20%|█▉        | 9478/48008 [1:21:30<5:12:32,  2.05it/s] 20%|█▉        | 9479/48008 [1:21:30<5:14:54,  2.04it/s] 20%|█▉        | 9480/48008 [1:21:31<5:00:07,  2.14it/s] 20%|█▉        | 9481/48008 [1:21:31<5:13:50,  2.05it/s] 20%|█▉        | 9482/48008 [1:21:32<5:12:36,  2.05it/s] 20%|█▉        | 9483/48008 [1:21:32<5:22:19,  1.99it/s] 20%|█▉        | 9484/48008 [1:21:33<5:18:03,  2.02it/s] 20%|█▉        | 9485/48008 [1:21:33<5:15:32,  2.03it/s] 20%|█▉        | 9486/48008 [1:21:34<5:13:12,  2.05it/s] 20%|█▉        | 9487/48008 [1:21:34<5:12:02,  2.06it/s] 20%|█▉        | 9488/48008 [1:21:35<5:10:12,  2.07it/s] 20%|█▉        | 9489/48008 [1:21:35<5:10:08,  2.07it/s] 20%|█▉        | 9490/48008 [1:21:36<5:10:16,  2.07it/s] 20%|█▉        | 9491/48008 [1:21:36<5:14:51,  2.04it/s] 20%|█▉        | 9492/48008 [1:21:37<5:13:08,  2.05it/s] 20%|█▉        | 9493/48008 [1:21:37<4:59:47,  2.14it/s] 20%|█▉        | 9494/48008 [1:21:37<5:07:55,  2.08it/s] 20%|█▉        | 9495/48008 [1:21:38<4:56:06,  2.17it/s] 20%|█▉        | 9496/48008 [1:21:38<5:03:51,  2.11it/s] 20%|█▉        | 9497/48008 [1:21:39<5:05:41,  2.10it/s] 20%|█▉        | 9498/48008 [1:21:39<5:10:32,  2.07it/s] 20%|█▉        | 9499/48008 [1:21:40<5:10:37,  2.07it/s] 20%|█▉        | 9500/48008 [1:21:40<5:14:02,  2.04it/s]                                                        {'loss': 4.2595, 'grad_norm': 0.2797352075576782, 'learning_rate': 0.00016042742876187303, 'epoch': 0.2}
 20%|█▉        | 9500/48008 [1:21:40<5:14:02,  2.04it/s] 20%|█▉        | 9501/48008 [1:21:41<5:19:23,  2.01it/s] 20%|█▉        | 9502/48008 [1:21:41<5:16:53,  2.03it/s] 20%|█▉        | 9503/48008 [1:21:42<5:19:34,  2.01it/s] 20%|█▉        | 9504/48008 [1:21:42<5:16:31,  2.03it/s] 20%|█▉        | 9505/48008 [1:21:43<5:18:50,  2.01it/s] 20%|█▉        | 9506/48008 [1:21:43<5:16:37,  2.03it/s] 20%|█▉        | 9507/48008 [1:21:44<5:21:24,  2.00it/s] 20%|█▉        | 9508/48008 [1:21:44<5:24:45,  1.98it/s] 20%|█▉        | 9509/48008 [1:21:45<5:23:59,  1.98it/s] 20%|█▉        | 9510/48008 [1:21:45<5:26:46,  1.96it/s] 20%|█▉        | 9511/48008 [1:21:46<5:08:24,  2.08it/s] 20%|█▉        | 9512/48008 [1:21:46<5:16:08,  2.03it/s] 20%|█▉        | 9513/48008 [1:21:47<5:17:35,  2.02it/s] 20%|█▉        | 9514/48008 [1:21:47<5:19:55,  2.01it/s] 20%|█▉        | 9515/48008 [1:21:48<5:15:34,  2.03it/s] 20%|█▉        | 9516/48008 [1:21:48<5:12:57,  2.05it/s] 20%|█▉        | 9517/48008 [1:21:49<5:22:04,  1.99it/s] 20%|█▉        | 9518/48008 [1:21:49<5:17:26,  2.02it/s] 20%|█▉        | 9519/48008 [1:21:50<5:14:24,  2.04it/s] 20%|█▉        | 9520/48008 [1:21:50<5:11:47,  2.06it/s] 20%|█▉        | 9521/48008 [1:21:51<5:17:33,  2.02it/s] 20%|█▉        | 9522/48008 [1:21:51<5:51:18,  1.83it/s] 20%|█▉        | 9523/48008 [1:21:52<5:26:12,  1.97it/s] 20%|█▉        | 9524/48008 [1:21:52<5:20:42,  2.00it/s] 20%|█▉        | 9525/48008 [1:21:53<5:16:50,  2.02it/s] 20%|█▉        | 9526/48008 [1:21:53<5:20:50,  2.00it/s] 20%|█▉        | 9527/48008 [1:21:54<5:16:41,  2.03it/s] 20%|█▉        | 9528/48008 [1:21:54<5:00:50,  2.13it/s] 20%|█▉        | 9529/48008 [1:21:55<4:44:00,  2.26it/s] 20%|█▉        | 9530/48008 [1:21:55<4:58:13,  2.15it/s] 20%|█▉        | 9531/48008 [1:21:56<5:04:52,  2.10it/s] 20%|█▉        | 9532/48008 [1:21:56<5:12:31,  2.05it/s] 20%|█▉        | 9533/48008 [1:21:57<5:22:13,  1.99it/s] 20%|█▉        | 9534/48008 [1:21:57<5:28:46,  1.95it/s] 20%|█▉        | 9535/48008 [1:21:58<5:21:38,  1.99it/s] 20%|█▉        | 9536/48008 [1:21:58<5:22:21,  1.99it/s] 20%|█▉        | 9537/48008 [1:21:59<5:25:12,  1.97it/s] 20%|█▉        | 9538/48008 [1:21:59<5:24:32,  1.98it/s] 20%|█▉        | 9539/48008 [1:22:00<5:20:10,  2.00it/s] 20%|█▉        | 9540/48008 [1:22:00<5:16:42,  2.02it/s] 20%|█▉        | 9541/48008 [1:22:01<5:51:48,  1.82it/s] 20%|█▉        | 9542/48008 [1:22:01<5:26:18,  1.96it/s] 20%|█▉        | 9543/48008 [1:22:02<5:28:00,  1.95it/s] 20%|█▉        | 9544/48008 [1:22:02<5:28:53,  1.95it/s] 20%|█▉        | 9545/48008 [1:22:03<5:22:19,  1.99it/s] 20%|█▉        | 9546/48008 [1:22:03<5:25:29,  1.97it/s] 20%|█▉        | 9547/48008 [1:22:04<5:07:52,  2.08it/s] 20%|█▉        | 9548/48008 [1:22:04<5:15:27,  2.03it/s] 20%|█▉        | 9549/48008 [1:22:05<5:01:30,  2.13it/s] 20%|█▉        | 9550/48008 [1:22:05<5:02:54,  2.12it/s]                                                        {'loss': 4.3076, 'grad_norm': 0.22000348567962646, 'learning_rate': 0.00016021913014497584, 'epoch': 0.2} 20%|█▉        | 9550/48008 [1:22:05<5:02:54,  2.12it/s]
 20%|█▉        | 9551/48008 [1:22:06<5:12:04,  2.05it/s] 20%|█▉        | 9552/48008 [1:22:06<5:09:56,  2.07it/s] 20%|█▉        | 9553/48008 [1:22:07<5:12:52,  2.05it/s] 20%|█▉        | 9554/48008 [1:22:07<5:16:04,  2.03it/s] 20%|█▉        | 9555/48008 [1:22:08<5:50:54,  1.83it/s] 20%|█▉        | 9556/48008 [1:22:08<5:37:50,  1.90it/s] 20%|█▉        | 9557/48008 [1:22:09<5:33:25,  1.92it/s] 20%|█▉        | 9558/48008 [1:22:09<5:13:01,  2.05it/s] 20%|█▉        | 9559/48008 [1:22:10<5:10:34,  2.06it/s] 20%|█▉        | 9560/48008 [1:22:10<5:13:18,  2.05it/s] 20%|█▉        | 9561/48008 [1:22:11<5:11:16,  2.06it/s] 20%|█▉        | 9562/48008 [1:22:11<5:09:23,  2.07it/s] 20%|█▉        | 9563/48008 [1:22:12<5:08:48,  2.07it/s] 20%|█▉        | 9564/48008 [1:22:13<6:23:41,  1.67it/s] 20%|█▉        | 9565/48008 [1:22:13<5:48:40,  1.84it/s] 20%|█▉        | 9566/48008 [1:22:13<5:36:40,  1.90it/s] 20%|█▉        | 9567/48008 [1:22:14<5:27:45,  1.95it/s] 20%|█▉        | 9568/48008 [1:22:14<5:20:47,  2.00it/s] 20%|█▉        | 9569/48008 [1:22:15<5:04:45,  2.10it/s] 20%|█▉        | 9570/48008 [1:22:15<5:05:23,  2.10it/s] 20%|█▉        | 9571/48008 [1:22:16<5:11:04,  2.06it/s] 20%|█▉        | 9572/48008 [1:22:16<5:47:50,  1.84it/s] 20%|█▉        | 9573/48008 [1:22:17<5:35:37,  1.91it/s] 20%|█▉        | 9574/48008 [1:22:17<5:27:46,  1.95it/s] 20%|█▉        | 9575/48008 [1:22:18<5:22:02,  1.99it/s] 20%|█▉        | 9576/48008 [1:22:18<5:21:23,  1.99it/s] 20%|█▉        | 9577/48008 [1:22:19<5:18:00,  2.01it/s] 20%|█▉        | 9578/48008 [1:22:19<5:02:03,  2.12it/s] 20%|█▉        | 9579/48008 [1:22:20<5:03:25,  2.11it/s] 20%|█▉        | 9580/48008 [1:22:20<5:05:07,  2.10it/s] 20%|█▉        | 9581/48008 [1:22:21<5:06:38,  2.09it/s] 20%|█▉        | 9582/48008 [1:22:21<5:06:53,  2.09it/s] 20%|█▉        | 9583/48008 [1:22:22<5:06:11,  2.09it/s] 20%|█▉        | 9584/48008 [1:22:22<5:06:42,  2.09it/s] 20%|█▉        | 9585/48008 [1:22:23<5:12:17,  2.05it/s] 20%|█▉        | 9586/48008 [1:22:23<5:10:58,  2.06it/s] 20%|█▉        | 9587/48008 [1:22:25<8:03:52,  1.32it/s] 20%|█▉        | 9588/48008 [1:22:25<7:18:10,  1.46it/s] 20%|█▉        | 9589/48008 [1:22:26<6:39:42,  1.60it/s] 20%|█▉        | 9590/48008 [1:22:26<6:11:00,  1.73it/s] 20%|█▉        | 9591/48008 [1:22:27<5:52:18,  1.82it/s] 20%|█▉        | 9592/48008 [1:22:27<5:43:39,  1.86it/s] 20%|█▉        | 9593/48008 [1:22:28<8:23:18,  1.27it/s] 20%|█▉        | 9594/48008 [1:22:29<7:24:46,  1.44it/s] 20%|█▉        | 9595/48008 [1:22:29<6:43:42,  1.59it/s] 20%|█▉        | 9596/48008 [1:22:30<6:21:38,  1.68it/s] 20%|█▉        | 9597/48008 [1:22:30<6:03:29,  1.76it/s] 20%|█▉        | 9598/48008 [1:22:31<5:54:59,  1.80it/s] 20%|█▉        | 9599/48008 [1:22:31<5:40:40,  1.88it/s] 20%|█▉        | 9600/48008 [1:22:32<5:35:36,  1.91it/s]                                                        {'loss': 4.2672, 'grad_norm': 0.19300958514213562, 'learning_rate': 0.00016001083152807866, 'epoch': 0.2}
 20%|█▉        | 9600/48008 [1:22:32<5:35:36,  1.91it/s] 20%|█▉        | 9601/48008 [1:22:32<5:30:48,  1.93it/s] 20%|██        | 9602/48008 [1:22:33<5:28:24,  1.95it/s] 20%|██        | 9603/48008 [1:22:33<5:32:39,  1.92it/s] 20%|██        | 9604/48008 [1:22:34<5:31:49,  1.93it/s] 20%|██        | 9605/48008 [1:22:34<5:36:06,  1.90it/s] 20%|██        | 9606/48008 [1:22:35<5:31:42,  1.93it/s] 20%|██        | 9607/48008 [1:22:35<5:24:50,  1.97it/s] 20%|██        | 9608/48008 [1:22:36<5:30:08,  1.94it/s] 20%|██        | 9609/48008 [1:22:36<5:23:09,  1.98it/s] 20%|██        | 9610/48008 [1:22:38<7:46:27,  1.37it/s] 20%|██        | 9611/48008 [1:22:38<6:45:09,  1.58it/s] 20%|██        | 9612/48008 [1:22:39<6:15:54,  1.70it/s] 20%|██        | 9613/48008 [1:22:39<6:31:55,  1.63it/s] 20%|██        | 9614/48008 [1:22:40<5:47:39,  1.84it/s] 20%|██        | 9615/48008 [1:22:40<5:36:14,  1.90it/s] 20%|██        | 9616/48008 [1:22:41<5:33:00,  1.92it/s] 20%|██        | 9617/48008 [1:22:41<5:25:44,  1.96it/s] 20%|██        | 9618/48008 [1:22:42<5:19:47,  2.00it/s] 20%|██        | 9619/48008 [1:22:42<5:20:18,  2.00it/s] 20%|██        | 9620/48008 [1:22:43<5:17:05,  2.02it/s] 20%|██        | 9621/48008 [1:22:43<5:52:03,  1.82it/s] 20%|██        | 9622/48008 [1:22:44<5:26:22,  1.96it/s] 20%|██        | 9623/48008 [1:22:44<5:25:35,  1.96it/s] 20%|██        | 9624/48008 [1:22:45<5:19:36,  2.00it/s] 20%|██        | 9625/48008 [1:22:45<5:20:32,  2.00it/s] 20%|██        | 9626/48008 [1:22:46<5:53:03,  1.81it/s] 20%|██        | 9627/48008 [1:22:46<5:51:01,  1.82it/s] 20%|██        | 9628/48008 [1:22:47<5:38:03,  1.89it/s] 20%|██        | 9629/48008 [1:22:47<5:33:38,  1.92it/s] 20%|██        | 9630/48008 [1:22:48<5:36:23,  1.90it/s] 20%|██        | 9631/48008 [1:22:48<5:27:12,  1.95it/s] 20%|██        | 9632/48008 [1:22:49<5:09:17,  2.07it/s] 20%|██        | 9633/48008 [1:22:49<5:19:15,  2.00it/s] 20%|██        | 9634/48008 [1:22:50<5:15:36,  2.03it/s] 20%|██        | 9635/48008 [1:22:50<5:17:26,  2.01it/s] 20%|██        | 9636/48008 [1:22:51<5:18:54,  2.01it/s] 20%|██        | 9637/48008 [1:22:51<5:15:28,  2.03it/s] 20%|██        | 9638/48008 [1:22:52<5:13:15,  2.04it/s] 20%|██        | 9639/48008 [1:22:52<5:15:02,  2.03it/s] 20%|██        | 9640/48008 [1:22:53<5:49:32,  1.83it/s] 20%|██        | 9641/48008 [1:22:53<5:36:42,  1.90it/s] 20%|██        | 9642/48008 [1:22:54<5:39:15,  1.88it/s] 20%|██        | 9643/48008 [1:22:54<5:29:31,  1.94it/s] 20%|██        | 9644/48008 [1:22:55<5:27:38,  1.95it/s] 20%|██        | 9645/48008 [1:22:55<5:21:53,  1.99it/s] 20%|██        | 9646/48008 [1:22:56<5:18:12,  2.01it/s] 20%|██        | 9647/48008 [1:22:57<5:51:11,  1.82it/s] 20%|██        | 9648/48008 [1:22:57<5:45:02,  1.85it/s] 20%|██        | 9649/48008 [1:22:58<5:34:31,  1.91it/s] 20%|██        | 9650/48008 [1:22:58<5:29:39,  1.94it/s]{'loss': 4.3213, 'grad_norm': 0.15441054105758667, 'learning_rate': 0.00015980253291118148, 'epoch': 0.2}                                                         20%|██        | 9650/48008 [1:22:58<5:29:39,  1.94it/s]
 20%|██        | 9651/48008 [1:22:59<5:27:33,  1.95it/s] 20%|██        | 9652/48008 [1:22:59<5:28:20,  1.95it/s] 20%|██        | 9653/48008 [1:23:00<5:30:40,  1.93it/s] 20%|██        | 9654/48008 [1:23:00<5:23:45,  1.97it/s] 20%|██        | 9655/48008 [1:23:01<6:34:05,  1.62it/s] 20%|██        | 9656/48008 [1:23:01<5:55:49,  1.80it/s] 20%|██        | 9657/48008 [1:23:02<5:46:23,  1.85it/s] 20%|██        | 9658/48008 [1:23:02<5:33:43,  1.92it/s] 20%|██        | 9659/48008 [1:23:03<5:36:41,  1.90it/s] 20%|██        | 9660/48008 [1:23:03<5:28:23,  1.95it/s] 20%|██        | 9661/48008 [1:23:04<5:21:27,  1.99it/s] 20%|██        | 9662/48008 [1:23:04<5:25:13,  1.97it/s] 20%|██        | 9663/48008 [1:23:05<5:25:23,  1.96it/s] 20%|██        | 9664/48008 [1:23:05<5:07:31,  2.08it/s] 20%|██        | 9665/48008 [1:23:06<5:11:47,  2.05it/s] 20%|██        | 9666/48008 [1:23:07<6:26:34,  1.65it/s] 20%|██        | 9667/48008 [1:23:07<6:02:59,  1.76it/s] 20%|██        | 9668/48008 [1:23:08<5:33:36,  1.92it/s] 20%|██        | 9669/48008 [1:23:08<5:12:50,  2.04it/s] 20%|██        | 9670/48008 [1:23:08<4:58:58,  2.14it/s] 20%|██        | 9671/48008 [1:23:09<5:01:24,  2.12it/s] 20%|██        | 9672/48008 [1:23:09<4:51:00,  2.20it/s] 20%|██        | 9673/48008 [1:23:10<5:03:54,  2.10it/s] 20%|██        | 9674/48008 [1:23:10<5:16:27,  2.02it/s] 20%|██        | 9675/48008 [1:23:11<5:25:36,  1.96it/s] 20%|██        | 9676/48008 [1:23:11<5:06:55,  2.08it/s] 20%|██        | 9677/48008 [1:23:12<5:10:33,  2.06it/s] 20%|██        | 9678/48008 [1:23:12<5:09:57,  2.06it/s] 20%|██        | 9679/48008 [1:23:13<4:57:16,  2.15it/s] 20%|██        | 9680/48008 [1:23:13<5:00:45,  2.12it/s] 20%|██        | 9681/48008 [1:23:14<4:50:22,  2.20it/s] 20%|██        | 9682/48008 [1:23:14<4:43:18,  2.25it/s] 20%|██        | 9683/48008 [1:23:15<4:50:27,  2.20it/s] 20%|██        | 9684/48008 [1:23:15<4:43:15,  2.25it/s] 20%|██        | 9685/48008 [1:23:15<4:50:41,  2.20it/s] 20%|██        | 9686/48008 [1:23:16<5:03:19,  2.11it/s] 20%|██        | 9687/48008 [1:23:16<4:52:08,  2.19it/s] 20%|██        | 9688/48008 [1:23:17<4:44:35,  2.24it/s] 20%|██        | 9689/48008 [1:23:17<4:50:56,  2.20it/s] 20%|██        | 9690/48008 [1:23:18<4:59:06,  2.14it/s] 20%|██        | 9691/48008 [1:23:18<5:05:57,  2.09it/s] 20%|██        | 9692/48008 [1:23:19<5:06:30,  2.08it/s] 20%|██        | 9693/48008 [1:23:19<5:10:11,  2.06it/s] 20%|██        | 9694/48008 [1:23:20<5:13:35,  2.04it/s] 20%|██        | 9695/48008 [1:23:20<5:11:06,  2.05it/s] 20%|██        | 9696/48008 [1:23:21<5:47:23,  1.84it/s] 20%|██        | 9697/48008 [1:23:21<5:46:21,  1.84it/s] 20%|██        | 9698/48008 [1:23:22<5:40:02,  1.88it/s] 20%|██        | 9699/48008 [1:23:22<5:30:22,  1.93it/s] 20%|██        | 9700/48008 [1:23:23<5:27:35,  1.95it/s]                                                        {'loss': 4.289, 'grad_norm': 0.15638451278209686, 'learning_rate': 0.0001595942342942843, 'epoch': 0.2}
 20%|██        | 9700/48008 [1:23:23<5:27:35,  1.95it/s] 20%|██        | 9701/48008 [1:23:23<5:09:36,  2.06it/s] 20%|██        | 9702/48008 [1:23:24<5:08:57,  2.07it/s] 20%|██        | 9703/48008 [1:23:25<6:24:58,  1.66it/s] 20%|██        | 9704/48008 [1:23:25<6:05:03,  1.75it/s] 20%|██        | 9705/48008 [1:23:26<6:23:58,  1.66it/s] 20%|██        | 9706/48008 [1:23:26<6:07:48,  1.74it/s] 20%|██        | 9707/48008 [1:23:27<5:48:52,  1.83it/s] 20%|██        | 9708/48008 [1:23:27<5:41:39,  1.87it/s] 20%|██        | 9709/48008 [1:23:28<5:32:04,  1.92it/s] 20%|██        | 9710/48008 [1:23:28<5:27:57,  1.95it/s] 20%|██        | 9711/48008 [1:23:30<7:48:23,  1.36it/s] 20%|██        | 9712/48008 [1:23:30<6:59:53,  1.52it/s] 20%|██        | 9713/48008 [1:23:31<6:25:03,  1.66it/s] 20%|██        | 9714/48008 [1:23:31<5:49:33,  1.83it/s] 20%|██        | 9715/48008 [1:23:32<5:40:41,  1.87it/s] 20%|██        | 9716/48008 [1:23:32<5:36:57,  1.89it/s] 20%|██        | 9717/48008 [1:23:33<5:35:31,  1.90it/s] 20%|██        | 9718/48008 [1:23:33<5:33:42,  1.91it/s] 20%|██        | 9719/48008 [1:23:34<5:26:07,  1.96it/s] 20%|██        | 9720/48008 [1:23:34<5:25:02,  1.96it/s] 20%|██        | 9721/48008 [1:23:35<5:18:35,  2.00it/s] 20%|██        | 9722/48008 [1:23:35<5:51:38,  1.81it/s] 20%|██        | 9723/48008 [1:23:36<5:25:46,  1.96it/s] 20%|██        | 9724/48008 [1:23:36<5:31:18,  1.93it/s] 20%|██        | 9725/48008 [1:23:37<5:24:54,  1.96it/s] 20%|██        | 9726/48008 [1:23:37<5:19:28,  2.00it/s] 20%|██        | 9727/48008 [1:23:38<5:20:28,  1.99it/s] 20%|██        | 9728/48008 [1:23:38<5:03:15,  2.10it/s] 20%|██        | 9729/48008 [1:23:39<5:11:05,  2.05it/s] 20%|██        | 9730/48008 [1:23:39<4:57:11,  2.15it/s] 20%|██        | 9731/48008 [1:23:39<4:47:39,  2.22it/s] 20%|██        | 9732/48008 [1:23:40<4:53:16,  2.18it/s] 20%|██        | 9733/48008 [1:23:40<4:56:45,  2.15it/s] 20%|██        | 9734/48008 [1:23:41<4:59:07,  2.13it/s] 20%|██        | 9735/48008 [1:23:41<5:01:49,  2.11it/s] 20%|██        | 9736/48008 [1:23:42<4:50:56,  2.19it/s] 20%|██        | 9737/48008 [1:23:42<4:59:21,  2.13it/s] 20%|██        | 9738/48008 [1:23:43<5:08:04,  2.07it/s] 20%|██        | 9739/48008 [1:23:43<5:08:05,  2.07it/s] 20%|██        | 9740/48008 [1:23:44<5:14:21,  2.03it/s] 20%|██        | 9741/48008 [1:23:44<5:16:52,  2.01it/s] 20%|██        | 9742/48008 [1:23:45<5:01:22,  2.12it/s] 20%|██        | 9743/48008 [1:23:45<5:02:25,  2.11it/s] 20%|██        | 9744/48008 [1:23:46<5:03:31,  2.10it/s] 20%|██        | 9745/48008 [1:23:47<6:21:12,  1.67it/s] 20%|██        | 9746/48008 [1:23:47<5:46:14,  1.84it/s] 20%|██        | 9747/48008 [1:23:47<5:21:44,  1.98it/s] 20%|██        | 9748/48008 [1:23:48<5:05:00,  2.09it/s] 20%|██        | 9749/48008 [1:23:48<5:04:58,  2.09it/s] 20%|██        | 9750/48008 [1:23:49<5:10:00,  2.06it/s]                                                        {'loss': 4.2834, 'grad_norm': 0.15787646174430847, 'learning_rate': 0.0001593859356773871, 'epoch': 0.2}
 20%|██        | 9750/48008 [1:23:49<5:10:00,  2.06it/s] 20%|██        | 9751/48008 [1:23:49<5:09:12,  2.06it/s] 20%|██        | 9752/48008 [1:23:50<5:13:06,  2.04it/s] 20%|██        | 9753/48008 [1:23:50<5:10:59,  2.05it/s] 20%|██        | 9754/48008 [1:23:51<5:09:53,  2.06it/s] 20%|██        | 9755/48008 [1:23:51<5:19:50,  1.99it/s] 20%|██        | 9756/48008 [1:23:52<5:27:04,  1.95it/s] 20%|██        | 9757/48008 [1:23:52<5:25:47,  1.96it/s] 20%|██        | 9758/48008 [1:23:53<5:06:48,  2.08it/s] 20%|██        | 9759/48008 [1:23:53<5:07:06,  2.08it/s] 20%|██        | 9760/48008 [1:23:54<6:22:31,  1.67it/s] 20%|██        | 9761/48008 [1:23:55<5:58:45,  1.78it/s] 20%|██        | 9762/48008 [1:23:55<5:30:08,  1.93it/s] 20%|██        | 9763/48008 [1:23:55<5:23:31,  1.97it/s] 20%|██        | 9764/48008 [1:23:57<7:45:04,  1.37it/s] 20%|██        | 9765/48008 [1:23:57<7:34:56,  1.40it/s] 20%|██        | 9766/48008 [1:23:58<6:54:18,  1.54it/s] 20%|██        | 9767/48008 [1:23:58<6:22:09,  1.67it/s] 20%|██        | 9768/48008 [1:23:59<5:59:21,  1.77it/s] 20%|██        | 9769/48008 [1:24:00<6:20:58,  1.67it/s] 20%|██        | 9770/48008 [1:24:00<5:46:11,  1.84it/s] 20%|██        | 9771/48008 [1:24:00<5:33:20,  1.91it/s] 20%|██        | 9772/48008 [1:24:01<5:12:45,  2.04it/s] 20%|██        | 9773/48008 [1:24:01<5:15:13,  2.02it/s] 20%|██        | 9774/48008 [1:24:02<6:28:21,  1.64it/s] 20%|██        | 9775/48008 [1:24:03<5:51:12,  1.81it/s] 20%|██        | 9776/48008 [1:24:03<5:25:02,  1.96it/s] 20%|██        | 9777/48008 [1:24:04<5:23:52,  1.97it/s] 20%|██        | 9778/48008 [1:24:04<5:22:55,  1.97it/s] 20%|██        | 9779/48008 [1:24:04<5:05:16,  2.09it/s] 20%|██        | 9780/48008 [1:24:05<5:06:11,  2.08it/s] 20%|██        | 9781/48008 [1:24:05<5:08:38,  2.06it/s] 20%|██        | 9782/48008 [1:24:06<5:11:54,  2.04it/s] 20%|██        | 9783/48008 [1:24:06<5:10:47,  2.05it/s] 20%|██        | 9784/48008 [1:24:07<5:16:39,  2.01it/s] 20%|██        | 9785/48008 [1:24:07<5:00:44,  2.12it/s] 20%|██        | 9786/48008 [1:24:08<4:49:38,  2.20it/s] 20%|██        | 9787/48008 [1:24:08<4:54:18,  2.16it/s] 20%|██        | 9788/48008 [1:24:09<4:45:09,  2.23it/s] 20%|██        | 9789/48008 [1:24:09<4:51:58,  2.18it/s] 20%|██        | 9790/48008 [1:24:10<5:00:14,  2.12it/s] 20%|██        | 9791/48008 [1:24:10<5:01:56,  2.11it/s] 20%|██        | 9792/48008 [1:24:11<4:49:35,  2.20it/s] 20%|██        | 9793/48008 [1:24:11<4:53:35,  2.17it/s] 20%|██        | 9794/48008 [1:24:11<4:45:05,  2.23it/s] 20%|██        | 9795/48008 [1:24:12<5:01:05,  2.12it/s] 20%|██        | 9796/48008 [1:24:12<5:13:41,  2.03it/s] 20%|██        | 9797/48008 [1:24:13<5:00:16,  2.12it/s] 20%|██        | 9798/48008 [1:24:13<5:02:06,  2.11it/s] 20%|██        | 9799/48008 [1:24:14<5:07:17,  2.07it/s] 20%|██        | 9800/48008 [1:24:14<5:08:50,  2.06it/s]                                                        {'loss': 4.2599, 'grad_norm': 0.13584038615226746, 'learning_rate': 0.00015917763706048993, 'epoch': 0.2} 20%|██        | 9800/48008 [1:24:14<5:08:50,  2.06it/s]
 20%|██        | 9801/48008 [1:24:15<5:12:44,  2.04it/s] 20%|██        | 9802/48008 [1:24:15<5:11:29,  2.04it/s] 20%|██        | 9803/48008 [1:24:16<5:14:16,  2.03it/s] 20%|██        | 9804/48008 [1:24:16<5:18:41,  2.00it/s] 20%|██        | 9805/48008 [1:24:17<5:02:38,  2.10it/s] 20%|██        | 9806/48008 [1:24:18<6:18:22,  1.68it/s] 20%|██        | 9807/48008 [1:24:18<5:45:41,  1.84it/s] 20%|██        | 9808/48008 [1:24:19<5:33:30,  1.91it/s] 20%|██        | 9809/48008 [1:24:19<5:31:40,  1.92it/s] 20%|██        | 9810/48008 [1:24:20<5:28:24,  1.94it/s] 20%|██        | 9811/48008 [1:24:20<5:26:24,  1.95it/s] 20%|██        | 9812/48008 [1:24:21<5:20:00,  1.99it/s] 20%|██        | 9813/48008 [1:24:21<5:15:36,  2.02it/s] 20%|██        | 9814/48008 [1:24:21<5:01:18,  2.11it/s] 20%|██        | 9815/48008 [1:24:22<5:02:27,  2.10it/s] 20%|██        | 9816/48008 [1:24:22<5:08:08,  2.07it/s] 20%|██        | 9817/48008 [1:24:23<5:06:44,  2.08it/s] 20%|██        | 9818/48008 [1:24:23<5:06:43,  2.08it/s] 20%|██        | 9819/48008 [1:24:24<4:53:56,  2.17it/s] 20%|██        | 9820/48008 [1:24:24<4:45:09,  2.23it/s] 20%|██        | 9821/48008 [1:24:25<4:40:02,  2.27it/s] 20%|██        | 9822/48008 [1:24:25<4:54:59,  2.16it/s] 20%|██        | 9823/48008 [1:24:26<5:09:44,  2.05it/s] 20%|██        | 9824/48008 [1:24:26<5:07:57,  2.07it/s] 20%|██        | 9825/48008 [1:24:27<5:07:47,  2.07it/s] 20%|██        | 9826/48008 [1:24:27<5:06:03,  2.08it/s] 20%|██        | 9827/48008 [1:24:28<5:06:05,  2.08it/s] 20%|██        | 9828/48008 [1:24:28<5:06:14,  2.08it/s] 20%|██        | 9829/48008 [1:24:29<4:55:20,  2.15it/s] 20%|██        | 9830/48008 [1:24:29<5:09:42,  2.05it/s] 20%|██        | 9831/48008 [1:24:30<4:56:29,  2.15it/s] 20%|██        | 9832/48008 [1:24:30<5:06:57,  2.07it/s] 20%|██        | 9833/48008 [1:24:30<4:48:51,  2.20it/s] 20%|██        | 9834/48008 [1:24:31<5:00:45,  2.12it/s] 20%|██        | 9835/48008 [1:24:31<5:02:47,  2.10it/s] 20%|██        | 9836/48008 [1:24:32<5:15:43,  2.02it/s] 20%|██        | 9837/48008 [1:24:32<5:17:50,  2.00it/s] 20%|██        | 9838/48008 [1:24:33<5:14:46,  2.02it/s] 20%|██        | 9839/48008 [1:24:33<5:14:39,  2.02it/s] 20%|██        | 9840/48008 [1:24:34<5:51:44,  1.81it/s] 20%|██        | 9841/48008 [1:24:35<5:49:12,  1.82it/s] 21%|██        | 9842/48008 [1:24:35<5:49:39,  1.82it/s] 21%|██        | 9843/48008 [1:24:36<5:38:38,  1.88it/s] 21%|██        | 9844/48008 [1:24:36<5:29:37,  1.93it/s] 21%|██        | 9845/48008 [1:24:37<5:26:29,  1.95it/s] 21%|██        | 9846/48008 [1:24:37<5:20:43,  1.98it/s] 21%|██        | 9847/48008 [1:24:38<5:16:59,  2.01it/s] 21%|██        | 9848/48008 [1:24:38<5:51:13,  1.81it/s] 21%|██        | 9849/48008 [1:24:39<5:37:28,  1.88it/s] 21%|██        | 9850/48008 [1:24:39<5:38:09,  1.88it/s]                                                        {'loss': 4.2214, 'grad_norm': 0.1266246736049652, 'learning_rate': 0.00015896933844359275, 'epoch': 0.21}
 21%|██        | 9850/48008 [1:24:39<5:38:09,  1.88it/s] 21%|██        | 9851/48008 [1:24:40<5:33:37,  1.91it/s] 21%|██        | 9852/48008 [1:24:40<5:26:55,  1.95it/s] 21%|██        | 9853/48008 [1:24:41<5:21:15,  1.98it/s] 21%|██        | 9854/48008 [1:24:41<5:04:26,  2.09it/s] 21%|██        | 9855/48008 [1:24:42<5:05:21,  2.08it/s] 21%|██        | 9856/48008 [1:24:42<5:11:35,  2.04it/s] 21%|██        | 9857/48008 [1:24:43<5:46:26,  1.84it/s] 21%|██        | 9858/48008 [1:24:43<5:35:11,  1.90it/s] 21%|██        | 9859/48008 [1:24:44<5:25:43,  1.95it/s] 21%|██        | 9860/48008 [1:24:44<5:24:25,  1.96it/s] 21%|██        | 9861/48008 [1:24:45<5:23:49,  1.96it/s] 21%|██        | 9862/48008 [1:24:45<5:18:11,  2.00it/s] 21%|██        | 9863/48008 [1:24:46<5:25:23,  1.95it/s] 21%|██        | 9864/48008 [1:24:46<5:26:54,  1.94it/s] 21%|██        | 9865/48008 [1:24:47<5:56:30,  1.78it/s] 21%|██        | 9866/48008 [1:24:48<5:45:23,  1.84it/s] 21%|██        | 9867/48008 [1:24:48<5:33:30,  1.91it/s] 21%|██        | 9868/48008 [1:24:49<5:14:11,  2.02it/s] 21%|██        | 9869/48008 [1:24:49<5:14:51,  2.02it/s] 21%|██        | 9870/48008 [1:24:50<5:12:23,  2.03it/s] 21%|██        | 9871/48008 [1:24:50<5:47:30,  1.83it/s] 21%|██        | 9872/48008 [1:24:51<5:39:08,  1.87it/s] 21%|██        | 9873/48008 [1:24:51<5:29:30,  1.93it/s] 21%|██        | 9874/48008 [1:24:52<5:27:28,  1.94it/s] 21%|██        | 9875/48008 [1:24:52<5:20:29,  1.98it/s] 21%|██        | 9876/48008 [1:24:53<5:16:38,  2.01it/s] 21%|██        | 9877/48008 [1:24:53<5:21:01,  1.98it/s] 21%|██        | 9878/48008 [1:24:54<5:15:55,  2.01it/s] 21%|██        | 9879/48008 [1:24:54<5:18:06,  2.00it/s] 21%|██        | 9880/48008 [1:24:55<5:19:19,  1.99it/s] 21%|██        | 9881/48008 [1:24:55<5:19:24,  1.99it/s] 21%|██        | 9882/48008 [1:24:56<5:19:14,  1.99it/s] 21%|██        | 9883/48008 [1:24:57<7:42:17,  1.37it/s] 21%|██        | 9884/48008 [1:24:57<7:02:37,  1.50it/s] 21%|██        | 9885/48008 [1:24:58<7:42:42,  1.37it/s] 21%|██        | 9886/48008 [1:24:59<6:56:13,  1.53it/s] 21%|██        | 9887/48008 [1:24:59<6:10:38,  1.71it/s] 21%|██        | 9888/48008 [1:25:00<5:55:54,  1.79it/s] 21%|██        | 9889/48008 [1:25:00<5:39:44,  1.87it/s] 21%|██        | 9890/48008 [1:25:01<5:34:19,  1.90it/s] 21%|██        | 9891/48008 [1:25:01<5:30:13,  1.92it/s] 21%|██        | 9892/48008 [1:25:02<5:22:56,  1.97it/s] 21%|██        | 9893/48008 [1:25:02<5:21:57,  1.97it/s] 21%|██        | 9894/48008 [1:25:03<5:20:57,  1.98it/s] 21%|██        | 9895/48008 [1:25:03<5:53:02,  1.80it/s] 21%|██        | 9896/48008 [1:25:04<6:15:08,  1.69it/s] 21%|██        | 9897/48008 [1:25:04<5:42:00,  1.86it/s] 21%|██        | 9898/48008 [1:25:05<5:18:24,  1.99it/s] 21%|██        | 9899/48008 [1:25:05<5:17:45,  2.00it/s] 21%|██        | 9900/48008 [1:25:06<5:14:09,  2.02it/s]                                                        {'loss': 4.3013, 'grad_norm': 0.22038404643535614, 'learning_rate': 0.00015876103982669556, 'epoch': 0.21} 21%|██        | 9900/48008 [1:25:06<5:14:09,  2.02it/s]
 21%|██        | 9901/48008 [1:25:06<5:11:30,  2.04it/s] 21%|██        | 9902/48008 [1:25:07<5:20:41,  1.98it/s] 21%|██        | 9903/48008 [1:25:07<5:04:06,  2.09it/s] 21%|██        | 9904/48008 [1:25:08<5:09:17,  2.05it/s] 21%|██        | 9905/48008 [1:25:08<5:15:39,  2.01it/s] 21%|██        | 9906/48008 [1:25:09<5:17:04,  2.00it/s] 21%|██        | 9907/48008 [1:25:09<5:12:59,  2.03it/s] 21%|██        | 9908/48008 [1:25:10<5:16:04,  2.01it/s] 21%|██        | 9909/48008 [1:25:10<5:00:54,  2.11it/s] 21%|██        | 9910/48008 [1:25:11<5:01:29,  2.11it/s] 21%|██        | 9911/48008 [1:25:11<5:14:47,  2.02it/s] 21%|██        | 9912/48008 [1:25:12<5:12:17,  2.03it/s] 21%|██        | 9913/48008 [1:25:12<5:13:30,  2.03it/s] 21%|██        | 9914/48008 [1:25:13<5:10:28,  2.04it/s] 21%|██        | 9915/48008 [1:25:13<5:08:30,  2.06it/s] 21%|██        | 9916/48008 [1:25:14<5:06:36,  2.07it/s] 21%|██        | 9917/48008 [1:25:14<5:09:38,  2.05it/s] 21%|██        | 9918/48008 [1:25:15<5:07:55,  2.06it/s] 21%|██        | 9919/48008 [1:25:15<5:17:56,  2.00it/s] 21%|██        | 9920/48008 [1:25:16<5:21:33,  1.97it/s] 21%|██        | 9921/48008 [1:25:16<5:16:05,  2.01it/s] 21%|██        | 9922/48008 [1:25:17<5:17:23,  2.00it/s] 21%|██        | 9923/48008 [1:25:17<5:13:48,  2.02it/s] 21%|██        | 9924/48008 [1:25:18<5:22:52,  1.97it/s] 21%|██        | 9925/48008 [1:25:18<5:17:04,  2.00it/s] 21%|██        | 9926/48008 [1:25:19<5:17:08,  2.00it/s] 21%|██        | 9927/48008 [1:25:19<5:50:11,  1.81it/s] 21%|██        | 9928/48008 [1:25:20<5:37:03,  1.88it/s] 21%|██        | 9929/48008 [1:25:20<5:14:48,  2.02it/s] 21%|██        | 9930/48008 [1:25:21<5:16:48,  2.00it/s] 21%|██        | 9931/48008 [1:25:21<5:12:59,  2.03it/s] 21%|██        | 9932/48008 [1:25:22<5:17:49,  2.00it/s] 21%|██        | 9933/48008 [1:25:22<5:13:36,  2.02it/s] 21%|██        | 9934/48008 [1:25:23<6:26:10,  1.64it/s] 21%|██        | 9935/48008 [1:25:24<6:09:08,  1.72it/s] 21%|██        | 9936/48008 [1:25:24<5:56:48,  1.78it/s] 21%|██        | 9937/48008 [1:25:25<5:45:58,  1.83it/s] 21%|██        | 9938/48008 [1:25:25<5:40:48,  1.86it/s] 21%|██        | 9939/48008 [1:25:26<5:17:26,  2.00it/s] 21%|██        | 9940/48008 [1:25:26<5:13:36,  2.02it/s] 21%|██        | 9941/48008 [1:25:27<5:10:11,  2.05it/s] 21%|██        | 9942/48008 [1:25:27<5:08:11,  2.06it/s] 21%|██        | 9943/48008 [1:25:28<5:06:43,  2.07it/s] 21%|██        | 9944/48008 [1:25:28<4:53:24,  2.16it/s] 21%|██        | 9945/48008 [1:25:28<5:07:25,  2.06it/s] 21%|██        | 9946/48008 [1:25:29<5:11:22,  2.04it/s] 21%|██        | 9947/48008 [1:25:29<5:14:08,  2.02it/s] 21%|██        | 9948/48008 [1:25:30<5:22:35,  1.97it/s] 21%|██        | 9949/48008 [1:25:31<5:21:07,  1.98it/s] 21%|██        | 9950/48008 [1:25:31<5:24:12,  1.96it/s]                                                        {'loss': 4.2655, 'grad_norm': 0.14138126373291016, 'learning_rate': 0.00015855274120979838, 'epoch': 0.21}
 21%|██        | 9950/48008 [1:25:31<5:24:12,  1.96it/s] 21%|██        | 9951/48008 [1:25:32<5:18:14,  1.99it/s] 21%|██        | 9952/48008 [1:25:32<5:51:03,  1.81it/s] 21%|██        | 9953/48008 [1:25:33<6:13:57,  1.70it/s] 21%|██        | 9954/48008 [1:25:33<6:00:06,  1.76it/s] 21%|██        | 9955/48008 [1:25:34<5:51:11,  1.81it/s] 21%|██        | 9956/48008 [1:25:34<5:41:34,  1.86it/s] 21%|██        | 9957/48008 [1:25:35<5:30:48,  1.92it/s] 21%|██        | 9958/48008 [1:25:35<5:26:51,  1.94it/s] 21%|██        | 9959/48008 [1:25:36<5:31:13,  1.91it/s] 21%|██        | 9960/48008 [1:25:36<5:22:51,  1.96it/s] 21%|██        | 9961/48008 [1:25:37<5:16:58,  2.00it/s] 21%|██        | 9962/48008 [1:25:37<5:12:13,  2.03it/s] 21%|██        | 9963/48008 [1:25:38<5:46:00,  1.83it/s] 21%|██        | 9964/48008 [1:25:39<8:00:16,  1.32it/s] 21%|██        | 9965/48008 [1:25:40<7:12:21,  1.47it/s] 21%|██        | 9966/48008 [1:25:40<6:38:35,  1.59it/s] 21%|██        | 9967/48008 [1:25:41<6:21:08,  1.66it/s] 21%|██        | 9968/48008 [1:25:41<6:05:16,  1.74it/s] 21%|██        | 9969/48008 [1:25:42<5:54:06,  1.79it/s] 21%|██        | 9970/48008 [1:25:42<5:26:04,  1.94it/s] 21%|██        | 9971/48008 [1:25:43<5:19:14,  1.99it/s] 21%|██        | 9972/48008 [1:25:43<5:18:50,  1.99it/s] 21%|██        | 9973/48008 [1:25:44<5:18:49,  1.99it/s] 21%|██        | 9974/48008 [1:25:45<6:29:48,  1.63it/s] 21%|██        | 9975/48008 [1:25:45<6:08:11,  1.72it/s] 21%|██        | 9976/48008 [1:25:46<5:48:10,  1.82it/s] 21%|██        | 9977/48008 [1:25:46<5:35:14,  1.89it/s] 21%|██        | 9978/48008 [1:25:47<5:33:14,  1.90it/s] 21%|██        | 9979/48008 [1:25:47<6:40:08,  1.58it/s] 21%|██        | 9980/48008 [1:25:48<6:14:57,  1.69it/s] 21%|██        | 9981/48008 [1:25:49<7:08:52,  1.48it/s] 21%|██        | 9982/48008 [1:25:49<6:38:50,  1.59it/s] 21%|██        | 9983/48008 [1:25:50<6:10:48,  1.71it/s] 21%|██        | 9984/48008 [1:25:50<5:37:54,  1.88it/s] 21%|██        | 9985/48008 [1:25:51<5:35:19,  1.89it/s] 21%|██        | 9986/48008 [1:25:51<5:25:10,  1.95it/s] 21%|██        | 9987/48008 [1:25:52<5:18:28,  1.99it/s] 21%|██        | 9988/48008 [1:25:52<5:17:51,  1.99it/s] 21%|██        | 9989/48008 [1:25:53<5:13:03,  2.02it/s] 21%|██        | 9990/48008 [1:25:53<5:09:51,  2.04it/s] 21%|██        | 9991/48008 [1:25:54<4:55:30,  2.14it/s] 21%|██        | 9992/48008 [1:25:54<4:58:02,  2.13it/s] 21%|██        | 9993/48008 [1:25:55<5:04:03,  2.08it/s] 21%|██        | 9994/48008 [1:25:55<5:03:33,  2.09it/s] 21%|██        | 9995/48008 [1:25:56<5:14:17,  2.02it/s] 21%|██        | 9996/48008 [1:25:56<5:18:18,  1.99it/s] 21%|██        | 9997/48008 [1:25:57<5:13:03,  2.02it/s] 21%|██        | 9998/48008 [1:25:57<4:57:53,  2.13it/s] 21%|██        | 9999/48008 [1:25:58<5:04:08,  2.08it/s] 21%|██        | 10000/48008 [1:25:58<5:03:32,  2.09it/s]                                                         {'loss': 4.3192, 'grad_norm': 0.16633476316928864, 'learning_rate': 0.0001583444425929012, 'epoch': 0.21}
 21%|██        | 10000/48008 [1:25:58<5:03:32,  2.09it/s] 21%|██        | 10001/48008 [1:25:59<6:18:40,  1.67it/s] 21%|██        | 10002/48008 [1:25:59<5:56:23,  1.78it/s] 21%|██        | 10003/48008 [1:26:00<5:47:50,  1.82it/s] 21%|██        | 10004/48008 [1:26:00<5:34:37,  1.89it/s] 21%|██        | 10005/48008 [1:26:01<5:29:58,  1.92it/s] 21%|██        | 10006/48008 [1:26:02<5:58:28,  1.77it/s] 21%|██        | 10007/48008 [1:26:02<5:41:43,  1.85it/s] 21%|██        | 10008/48008 [1:26:02<5:34:53,  1.89it/s] 21%|██        | 10009/48008 [1:26:03<5:30:16,  1.92it/s] 21%|██        | 10010/48008 [1:26:04<7:10:24,  1.47it/s] 21%|██        | 10011/48008 [1:26:05<6:36:05,  1.60it/s] 21%|██        | 10012/48008 [1:26:05<6:12:06,  1.70it/s] 21%|██        | 10013/48008 [1:26:06<6:28:45,  1.63it/s] 21%|██        | 10014/48008 [1:26:06<6:03:35,  1.74it/s] 21%|██        | 10015/48008 [1:26:07<5:49:39,  1.81it/s] 21%|██        | 10016/48008 [1:26:07<5:39:58,  1.86it/s] 21%|██        | 10017/48008 [1:26:08<5:28:28,  1.93it/s] 21%|██        | 10018/48008 [1:26:08<5:20:39,  1.97it/s] 21%|██        | 10019/48008 [1:26:09<5:02:49,  2.09it/s] 21%|██        | 10020/48008 [1:26:09<4:50:24,  2.18it/s] 21%|██        | 10021/48008 [1:26:09<4:54:29,  2.15it/s] 21%|██        | 10022/48008 [1:26:11<7:23:33,  1.43it/s] 21%|██        | 10023/48008 [1:26:11<6:41:30,  1.58it/s] 21%|██        | 10024/48008 [1:26:12<6:11:23,  1.70it/s] 21%|██        | 10025/48008 [1:26:12<5:50:41,  1.81it/s] 21%|██        | 10026/48008 [1:26:13<5:36:48,  1.88it/s] 21%|██        | 10027/48008 [1:26:13<5:38:01,  1.87it/s] 21%|██        | 10028/48008 [1:26:14<5:31:26,  1.91it/s] 21%|██        | 10029/48008 [1:26:14<5:23:35,  1.96it/s] 21%|██        | 10030/48008 [1:26:15<5:17:54,  1.99it/s] 21%|██        | 10031/48008 [1:26:15<5:01:35,  2.10it/s] 21%|██        | 10032/48008 [1:26:16<5:39:07,  1.87it/s] 21%|██        | 10033/48008 [1:26:16<5:28:46,  1.93it/s] 21%|██        | 10034/48008 [1:26:17<5:08:29,  2.05it/s] 21%|██        | 10035/48008 [1:26:17<5:43:14,  1.84it/s] 21%|██        | 10036/48008 [1:26:18<5:31:34,  1.91it/s] 21%|██        | 10037/48008 [1:26:18<5:28:02,  1.93it/s] 21%|██        | 10038/48008 [1:26:19<5:08:01,  2.05it/s] 21%|██        | 10039/48008 [1:26:19<5:06:48,  2.06it/s] 21%|██        | 10040/48008 [1:26:20<5:17:04,  2.00it/s] 21%|██        | 10041/48008 [1:26:20<5:12:28,  2.03it/s] 21%|██        | 10042/48008 [1:26:21<5:09:51,  2.04it/s] 21%|██        | 10043/48008 [1:26:21<5:07:24,  2.06it/s] 21%|██        | 10044/48008 [1:26:22<5:10:26,  2.04it/s] 21%|██        | 10045/48008 [1:26:22<4:56:19,  2.14it/s] 21%|██        | 10046/48008 [1:26:23<5:06:00,  2.07it/s] 21%|██        | 10047/48008 [1:26:23<5:09:41,  2.04it/s] 21%|██        | 10048/48008 [1:26:24<5:07:25,  2.06it/s] 21%|██        | 10049/48008 [1:26:24<5:14:44,  2.01it/s] 21%|██        | 10050/48008 [1:26:24<4:59:18,  2.11it/s]                                                         {'loss': 4.2811, 'grad_norm': 0.16541193425655365, 'learning_rate': 0.00015813614397600402, 'epoch': 0.21}
 21%|██        | 10050/48008 [1:26:24<4:59:18,  2.11it/s] 21%|██        | 10051/48008 [1:26:25<5:05:36,  2.07it/s] 21%|██        | 10052/48008 [1:26:26<5:09:05,  2.05it/s] 21%|██        | 10053/48008 [1:26:26<4:54:41,  2.15it/s] 21%|██        | 10054/48008 [1:26:26<4:44:55,  2.22it/s] 21%|██        | 10055/48008 [1:26:27<4:51:06,  2.17it/s] 21%|██        | 10056/48008 [1:26:27<4:59:20,  2.11it/s] 21%|██        | 10057/48008 [1:26:28<5:37:43,  1.87it/s] 21%|██        | 10058/48008 [1:26:28<5:27:48,  1.93it/s] 21%|██        | 10059/48008 [1:26:29<5:07:53,  2.05it/s] 21%|██        | 10060/48008 [1:26:29<4:54:03,  2.15it/s] 21%|██        | 10061/48008 [1:26:30<4:56:54,  2.13it/s] 21%|██        | 10062/48008 [1:26:30<4:59:32,  2.11it/s] 21%|██        | 10063/48008 [1:26:31<5:05:05,  2.07it/s] 21%|██        | 10064/48008 [1:26:31<5:41:09,  1.85it/s] 21%|██        | 10065/48008 [1:26:33<7:57:14,  1.33it/s] 21%|██        | 10066/48008 [1:26:33<7:10:33,  1.47it/s] 21%|██        | 10067/48008 [1:26:34<6:31:39,  1.61it/s] 21%|██        | 10068/48008 [1:26:34<6:09:48,  1.71it/s] 21%|██        | 10069/48008 [1:26:35<5:50:16,  1.81it/s] 21%|██        | 10070/48008 [1:26:35<5:36:34,  1.88it/s] 21%|██        | 10071/48008 [1:26:36<5:13:07,  2.02it/s] 21%|██        | 10072/48008 [1:26:36<5:14:36,  2.01it/s] 21%|██        | 10073/48008 [1:26:37<5:11:21,  2.03it/s] 21%|██        | 10074/48008 [1:26:37<4:56:50,  2.13it/s] 21%|██        | 10075/48008 [1:26:37<5:03:48,  2.08it/s] 21%|██        | 10076/48008 [1:26:38<5:08:07,  2.05it/s] 21%|██        | 10077/48008 [1:26:39<5:42:55,  1.84it/s] 21%|██        | 10078/48008 [1:26:39<5:35:05,  1.89it/s] 21%|██        | 10079/48008 [1:26:40<5:26:17,  1.94it/s] 21%|██        | 10080/48008 [1:26:40<5:19:00,  1.98it/s] 21%|██        | 10081/48008 [1:26:41<5:18:40,  1.98it/s] 21%|██        | 10082/48008 [1:26:42<7:39:41,  1.38it/s] 21%|██        | 10083/48008 [1:26:43<8:07:36,  1.30it/s] 21%|██        | 10084/48008 [1:26:44<9:37:38,  1.09it/s] 21%|██        | 10085/48008 [1:26:44<8:15:53,  1.27it/s] 21%|██        | 10086/48008 [1:26:45<7:18:05,  1.44it/s] 21%|██        | 10087/48008 [1:26:45<6:25:07,  1.64it/s] 21%|██        | 10088/48008 [1:26:46<5:59:52,  1.76it/s] 21%|██        | 10089/48008 [1:26:46<5:43:17,  1.84it/s] 21%|██        | 10090/48008 [1:26:47<5:38:00,  1.87it/s] 21%|██        | 10091/48008 [1:26:47<5:34:50,  1.89it/s] 21%|██        | 10092/48008 [1:26:48<5:32:36,  1.90it/s] 21%|██        | 10093/48008 [1:26:48<5:28:42,  1.92it/s] 21%|██        | 10094/48008 [1:26:49<5:22:06,  1.96it/s] 21%|██        | 10095/48008 [1:26:49<5:20:30,  1.97it/s] 21%|██        | 10096/48008 [1:26:50<5:03:29,  2.08it/s] 21%|██        | 10097/48008 [1:26:50<4:50:18,  2.18it/s] 21%|██        | 10098/48008 [1:26:51<4:53:35,  2.15it/s] 21%|██        | 10099/48008 [1:26:51<4:57:00,  2.13it/s] 21%|██        | 10100/48008 [1:26:52<5:03:32,  2.08it/s]                                                         {'loss': 4.2828, 'grad_norm': 0.19155195355415344, 'learning_rate': 0.00015792784535910683, 'epoch': 0.21}
 21%|██        | 10100/48008 [1:26:52<5:03:32,  2.08it/s] 21%|██        | 10101/48008 [1:26:52<4:51:21,  2.17it/s] 21%|██        | 10102/48008 [1:26:52<4:42:02,  2.24it/s] 21%|██        | 10103/48008 [1:26:53<4:48:13,  2.19it/s] 21%|██        | 10104/48008 [1:26:53<4:52:12,  2.16it/s] 21%|██        | 10105/48008 [1:26:54<4:55:25,  2.14it/s] 21%|██        | 10106/48008 [1:26:54<4:45:32,  2.21it/s] 21%|██        | 10107/48008 [1:26:55<5:27:45,  1.93it/s] 21%|██        | 10108/48008 [1:26:56<5:27:51,  1.93it/s] 21%|██        | 10109/48008 [1:26:56<5:08:56,  2.04it/s] 21%|██        | 10110/48008 [1:26:56<5:08:07,  2.05it/s] 21%|██        | 10111/48008 [1:26:57<5:11:06,  2.03it/s] 21%|██        | 10112/48008 [1:26:57<5:08:30,  2.05it/s] 21%|██        | 10113/48008 [1:26:58<5:12:16,  2.02it/s] 21%|██        | 10114/48008 [1:26:58<4:57:28,  2.12it/s] 21%|██        | 10115/48008 [1:26:59<4:58:58,  2.11it/s] 21%|██        | 10116/48008 [1:26:59<5:36:35,  1.88it/s] 21%|██        | 10117/48008 [1:27:00<5:33:57,  1.89it/s] 21%|██        | 10118/48008 [1:27:00<5:24:51,  1.94it/s] 21%|██        | 10119/48008 [1:27:01<5:23:19,  1.95it/s] 21%|██        | 10120/48008 [1:27:01<5:04:55,  2.07it/s] 21%|██        | 10121/48008 [1:27:02<5:03:37,  2.08it/s] 21%|██        | 10122/48008 [1:27:02<5:14:38,  2.01it/s] 21%|██        | 10123/48008 [1:27:03<5:18:37,  1.98it/s] 21%|██        | 10124/48008 [1:27:03<5:18:13,  1.98it/s] 21%|██        | 10125/48008 [1:27:04<5:22:05,  1.96it/s] 21%|██        | 10126/48008 [1:27:04<5:05:05,  2.07it/s] 21%|██        | 10127/48008 [1:27:05<5:04:14,  2.08it/s] 21%|██        | 10128/48008 [1:27:05<5:04:37,  2.07it/s] 21%|██        | 10129/48008 [1:27:06<5:08:35,  2.05it/s] 21%|██        | 10130/48008 [1:27:06<5:12:43,  2.02it/s] 21%|██        | 10131/48008 [1:27:07<6:26:13,  1.63it/s] 21%|██        | 10132/48008 [1:27:08<6:09:14,  1.71it/s] 21%|██        | 10133/48008 [1:27:08<5:55:23,  1.78it/s] 21%|██        | 10134/48008 [1:27:09<5:40:29,  1.85it/s] 21%|██        | 10135/48008 [1:27:09<5:29:44,  1.91it/s] 21%|██        | 10136/48008 [1:27:10<5:21:42,  1.96it/s] 21%|██        | 10137/48008 [1:27:10<5:16:40,  1.99it/s] 21%|██        | 10138/48008 [1:27:11<5:00:14,  2.10it/s] 21%|██        | 10139/48008 [1:27:11<4:49:37,  2.18it/s] 21%|██        | 10140/48008 [1:27:12<4:54:32,  2.14it/s] 21%|██        | 10141/48008 [1:27:12<5:09:14,  2.04it/s] 21%|██        | 10142/48008 [1:27:12<4:54:54,  2.14it/s] 21%|██        | 10143/48008 [1:27:13<5:04:17,  2.07it/s] 21%|██        | 10144/48008 [1:27:13<4:51:55,  2.16it/s] 21%|██        | 10145/48008 [1:27:14<4:54:52,  2.14it/s] 21%|██        | 10146/48008 [1:27:14<4:44:57,  2.21it/s] 21%|██        | 10147/48008 [1:27:15<5:01:31,  2.09it/s] 21%|██        | 10148/48008 [1:27:15<5:01:49,  2.09it/s] 21%|██        | 10149/48008 [1:27:16<5:08:38,  2.04it/s] 21%|██        | 10150/48008 [1:27:16<5:06:46,  2.06it/s]                                                         {'loss': 4.2562, 'grad_norm': 0.2483457624912262, 'learning_rate': 0.00015771954674220962, 'epoch': 0.21}
 21%|██        | 10150/48008 [1:27:16<5:06:46,  2.06it/s] 21%|██        | 10151/48008 [1:27:17<5:05:57,  2.06it/s] 21%|██        | 10152/48008 [1:27:17<5:16:46,  1.99it/s] 21%|██        | 10153/48008 [1:27:18<5:12:46,  2.02it/s] 21%|██        | 10154/48008 [1:27:18<5:10:16,  2.03it/s] 21%|██        | 10155/48008 [1:27:19<5:08:28,  2.05it/s] 21%|██        | 10156/48008 [1:27:19<5:07:06,  2.05it/s] 21%|██        | 10157/48008 [1:27:20<5:05:38,  2.06it/s] 21%|██        | 10158/48008 [1:27:20<5:09:33,  2.04it/s] 21%|██        | 10159/48008 [1:27:21<4:55:36,  2.13it/s] 21%|██        | 10160/48008 [1:27:21<4:46:34,  2.20it/s] 21%|██        | 10161/48008 [1:27:22<4:50:18,  2.17it/s] 21%|██        | 10162/48008 [1:27:22<4:41:51,  2.24it/s] 21%|██        | 10163/48008 [1:27:22<4:48:34,  2.19it/s] 21%|██        | 10164/48008 [1:27:23<4:52:32,  2.16it/s] 21%|██        | 10165/48008 [1:27:23<5:00:13,  2.10it/s] 21%|██        | 10166/48008 [1:27:24<5:08:37,  2.04it/s] 21%|██        | 10167/48008 [1:27:24<5:14:15,  2.01it/s] 21%|██        | 10168/48008 [1:27:25<5:15:31,  2.00it/s] 21%|██        | 10169/48008 [1:27:25<5:11:59,  2.02it/s] 21%|██        | 10170/48008 [1:27:26<5:08:59,  2.04it/s] 21%|██        | 10171/48008 [1:27:26<5:08:05,  2.05it/s] 21%|██        | 10172/48008 [1:27:27<5:07:43,  2.05it/s] 21%|██        | 10173/48008 [1:27:27<4:54:04,  2.14it/s] 21%|██        | 10174/48008 [1:27:28<4:44:52,  2.21it/s] 21%|██        | 10175/48008 [1:27:28<4:55:10,  2.14it/s] 21%|██        | 10176/48008 [1:27:29<5:04:36,  2.07it/s] 21%|██        | 10177/48008 [1:27:29<5:03:54,  2.07it/s] 21%|██        | 10178/48008 [1:27:30<5:04:32,  2.07it/s] 21%|██        | 10179/48008 [1:27:30<5:08:13,  2.05it/s] 21%|██        | 10180/48008 [1:27:31<5:06:36,  2.06it/s] 21%|██        | 10181/48008 [1:27:31<5:41:44,  1.84it/s] 21%|██        | 10182/48008 [1:27:32<5:30:45,  1.91it/s] 21%|██        | 10183/48008 [1:27:32<5:27:40,  1.92it/s] 21%|██        | 10184/48008 [1:27:33<5:20:53,  1.96it/s] 21%|██        | 10185/48008 [1:27:33<5:03:40,  2.08it/s] 21%|██        | 10186/48008 [1:27:34<5:07:44,  2.05it/s] 21%|██        | 10187/48008 [1:27:34<5:06:39,  2.06it/s] 21%|██        | 10188/48008 [1:27:35<5:06:42,  2.06it/s] 21%|██        | 10189/48008 [1:27:35<5:16:24,  1.99it/s] 21%|██        | 10190/48008 [1:27:36<5:16:41,  1.99it/s] 21%|██        | 10191/48008 [1:27:36<5:11:36,  2.02it/s] 21%|██        | 10192/48008 [1:27:37<5:12:42,  2.02it/s] 21%|██        | 10193/48008 [1:27:37<4:57:59,  2.12it/s] 21%|██        | 10194/48008 [1:27:38<4:47:24,  2.19it/s] 21%|██        | 10195/48008 [1:27:38<5:29:47,  1.91it/s] 21%|██        | 10196/48008 [1:27:39<5:21:37,  1.96it/s] 21%|██        | 10197/48008 [1:27:39<5:04:16,  2.07it/s] 21%|██        | 10198/48008 [1:27:40<4:52:58,  2.15it/s] 21%|██        | 10199/48008 [1:27:40<5:03:34,  2.08it/s] 21%|██        | 10200/48008 [1:27:41<5:03:19,  2.08it/s]                                                         {'loss': 4.2751, 'grad_norm': 0.13811860978603363, 'learning_rate': 0.00015751124812531247, 'epoch': 0.21}
 21%|██        | 10200/48008 [1:27:41<5:03:19,  2.08it/s] 21%|██        | 10201/48008 [1:27:41<5:08:43,  2.04it/s] 21%|██▏       | 10202/48008 [1:27:42<5:12:33,  2.02it/s] 21%|██▏       | 10203/48008 [1:27:42<5:08:47,  2.04it/s] 21%|██▏       | 10204/48008 [1:27:43<4:55:06,  2.14it/s] 21%|██▏       | 10205/48008 [1:27:43<5:01:54,  2.09it/s] 21%|██▏       | 10206/48008 [1:27:43<4:49:51,  2.17it/s] 21%|██▏       | 10207/48008 [1:27:44<4:53:27,  2.15it/s] 21%|██▏       | 10208/48008 [1:27:44<4:55:52,  2.13it/s] 21%|██▏       | 10209/48008 [1:27:45<4:58:41,  2.11it/s] 21%|██▏       | 10210/48008 [1:27:45<4:48:48,  2.18it/s] 21%|██▏       | 10211/48008 [1:27:46<5:30:17,  1.91it/s] 21%|██▏       | 10212/48008 [1:27:47<5:28:42,  1.92it/s] 21%|██▏       | 10213/48008 [1:27:47<5:21:18,  1.96it/s] 21%|██▏       | 10214/48008 [1:27:48<5:19:59,  1.97it/s] 21%|██▏       | 10215/48008 [1:27:48<5:15:34,  2.00it/s] 21%|██▏       | 10216/48008 [1:27:48<5:15:30,  2.00it/s] 21%|██▏       | 10217/48008 [1:27:49<5:11:17,  2.02it/s] 21%|██▏       | 10218/48008 [1:27:49<5:16:14,  1.99it/s] 21%|██▏       | 10219/48008 [1:27:50<5:12:33,  2.02it/s] 21%|██▏       | 10220/48008 [1:27:51<5:20:11,  1.97it/s] 21%|██▏       | 10221/48008 [1:27:51<5:50:32,  1.80it/s] 21%|██▏       | 10222/48008 [1:27:52<5:36:31,  1.87it/s] 21%|██▏       | 10223/48008 [1:27:52<5:34:51,  1.88it/s] 21%|██▏       | 10224/48008 [1:27:53<5:29:11,  1.91it/s] 21%|██▏       | 10225/48008 [1:27:53<5:08:44,  2.04it/s] 21%|██▏       | 10226/48008 [1:27:54<5:17:34,  1.98it/s] 21%|██▏       | 10227/48008 [1:27:54<5:13:56,  2.01it/s] 21%|██▏       | 10228/48008 [1:27:55<5:11:02,  2.02it/s] 21%|██▏       | 10229/48008 [1:27:55<5:08:37,  2.04it/s] 21%|██▏       | 10230/48008 [1:27:56<5:14:47,  2.00it/s] 21%|██▏       | 10231/48008 [1:27:56<5:16:32,  1.99it/s] 21%|██▏       | 10232/48008 [1:27:57<5:12:23,  2.02it/s] 21%|██▏       | 10233/48008 [1:27:57<5:08:43,  2.04it/s] 21%|██▏       | 10234/48008 [1:27:57<4:54:02,  2.14it/s] 21%|██▏       | 10235/48008 [1:27:58<5:33:54,  1.89it/s] 21%|██▏       | 10236/48008 [1:27:59<5:23:21,  1.95it/s] 21%|██▏       | 10237/48008 [1:27:59<5:22:01,  1.95it/s] 21%|██▏       | 10238/48008 [1:28:00<5:15:25,  2.00it/s] 21%|██▏       | 10239/48008 [1:28:00<5:22:57,  1.95it/s] 21%|██▏       | 10240/48008 [1:28:01<5:04:21,  2.07it/s] 21%|██▏       | 10241/48008 [1:28:01<5:04:06,  2.07it/s] 21%|██▏       | 10242/48008 [1:28:02<5:03:18,  2.08it/s] 21%|██▏       | 10243/48008 [1:28:02<5:03:18,  2.08it/s] 21%|██▏       | 10244/48008 [1:28:03<5:07:03,  2.05it/s] 21%|██▏       | 10245/48008 [1:28:03<4:53:39,  2.14it/s] 21%|██▏       | 10246/48008 [1:28:04<6:11:00,  1.70it/s] 21%|██▏       | 10247/48008 [1:28:04<5:51:09,  1.79it/s] 21%|██▏       | 10248/48008 [1:28:05<5:40:12,  1.85it/s] 21%|██▏       | 10249/48008 [1:28:05<5:17:20,  1.98it/s] 21%|██▏       | 10250/48008 [1:28:06<5:50:15,  1.80it/s]                                                         {'loss': 4.24, 'grad_norm': 0.1532582938671112, 'learning_rate': 0.00015730294950841526, 'epoch': 0.21} 21%|██▏       | 10250/48008 [1:28:06<5:50:15,  1.80it/s]
 21%|██▏       | 10251/48008 [1:28:06<5:17:49,  1.98it/s] 21%|██▏       | 10252/48008 [1:28:07<5:51:06,  1.79it/s] 21%|██▏       | 10253/48008 [1:28:07<5:40:10,  1.85it/s] 21%|██▏       | 10254/48008 [1:28:08<5:28:56,  1.91it/s] 21%|██▏       | 10255/48008 [1:28:08<5:09:00,  2.04it/s] 21%|██▏       | 10256/48008 [1:28:09<5:14:32,  2.00it/s] 21%|██▏       | 10257/48008 [1:28:09<5:18:25,  1.98it/s] 21%|██▏       | 10258/48008 [1:28:10<5:01:26,  2.09it/s] 21%|██▏       | 10259/48008 [1:28:11<5:37:24,  1.86it/s] 21%|██▏       | 10260/48008 [1:28:11<5:26:55,  1.92it/s] 21%|██▏       | 10261/48008 [1:28:11<5:19:56,  1.97it/s] 21%|██▏       | 10262/48008 [1:28:12<5:02:32,  2.08it/s] 21%|██▏       | 10263/48008 [1:28:12<5:02:32,  2.08it/s] 21%|██▏       | 10264/48008 [1:28:13<6:18:37,  1.66it/s] 21%|██▏       | 10265/48008 [1:28:14<5:59:57,  1.75it/s] 21%|██▏       | 10266/48008 [1:28:15<8:07:24,  1.29it/s] 21%|██▏       | 10267/48008 [1:28:16<7:17:07,  1.44it/s] 21%|██▏       | 10268/48008 [1:28:17<9:02:05,  1.16it/s] 21%|██▏       | 10269/48008 [1:28:17<7:50:25,  1.34it/s] 21%|██▏       | 10270/48008 [1:28:18<7:03:43,  1.48it/s] 21%|██▏       | 10271/48008 [1:28:18<6:31:31,  1.61it/s] 21%|██▏       | 10272/48008 [1:28:19<6:05:41,  1.72it/s] 21%|██▏       | 10273/48008 [1:28:19<5:34:58,  1.88it/s] 21%|██▏       | 10274/48008 [1:28:20<5:12:55,  2.01it/s] 21%|██▏       | 10275/48008 [1:28:20<4:57:17,  2.12it/s] 21%|██▏       | 10276/48008 [1:28:20<4:58:12,  2.11it/s] 21%|██▏       | 10277/48008 [1:28:21<5:06:54,  2.05it/s] 21%|██▏       | 10278/48008 [1:28:22<6:19:06,  1.66it/s] 21%|██▏       | 10279/48008 [1:28:22<5:55:35,  1.77it/s] 21%|██▏       | 10280/48008 [1:28:23<5:39:13,  1.85it/s] 21%|██▏       | 10281/48008 [1:28:23<5:27:49,  1.92it/s] 21%|██▏       | 10282/48008 [1:28:24<5:19:50,  1.97it/s] 21%|██▏       | 10283/48008 [1:28:24<5:03:40,  2.07it/s] 21%|██▏       | 10284/48008 [1:28:25<5:08:34,  2.04it/s] 21%|██▏       | 10285/48008 [1:28:25<5:06:47,  2.05it/s] 21%|██▏       | 10286/48008 [1:28:26<5:05:02,  2.06it/s] 21%|██▏       | 10287/48008 [1:28:26<5:04:29,  2.06it/s] 21%|██▏       | 10288/48008 [1:28:27<5:10:41,  2.02it/s] 21%|██▏       | 10289/48008 [1:28:27<5:12:39,  2.01it/s] 21%|██▏       | 10290/48008 [1:28:28<5:20:17,  1.96it/s] 21%|██▏       | 10291/48008 [1:28:28<5:15:00,  2.00it/s] 21%|██▏       | 10292/48008 [1:28:29<5:18:15,  1.98it/s] 21%|██▏       | 10293/48008 [1:28:29<5:12:53,  2.01it/s] 21%|██▏       | 10294/48008 [1:28:30<5:09:05,  2.03it/s] 21%|██▏       | 10295/48008 [1:28:30<5:06:29,  2.05it/s] 21%|██▏       | 10296/48008 [1:28:31<5:12:28,  2.01it/s] 21%|██▏       | 10297/48008 [1:28:31<4:57:06,  2.12it/s] 21%|██▏       | 10298/48008 [1:28:32<7:23:31,  1.42it/s] 21%|██▏       | 10299/48008 [1:28:33<6:29:01,  1.62it/s] 21%|██▏       | 10300/48008 [1:28:33<6:08:50,  1.70it/s]                                                         {'loss': 4.2808, 'grad_norm': 0.3216996192932129, 'learning_rate': 0.0001570946508915181, 'epoch': 0.21} 21%|██▏       | 10300/48008 [1:28:33<6:08:50,  1.70it/s]
 21%|██▏       | 10301/48008 [1:28:34<5:59:54,  1.75it/s] 21%|██▏       | 10302/48008 [1:28:34<5:30:23,  1.90it/s] 21%|██▏       | 10303/48008 [1:28:35<5:22:54,  1.95it/s] 21%|██▏       | 10304/48008 [1:28:35<5:20:32,  1.96it/s] 21%|██▏       | 10305/48008 [1:28:36<5:15:49,  1.99it/s] 21%|██▏       | 10306/48008 [1:28:36<4:59:10,  2.10it/s] 21%|██▏       | 10307/48008 [1:28:36<4:47:10,  2.19it/s] 21%|██▏       | 10308/48008 [1:28:37<4:52:30,  2.15it/s] 21%|██▏       | 10309/48008 [1:28:38<5:03:04,  2.07it/s] 21%|██▏       | 10310/48008 [1:28:39<7:27:18,  1.40it/s] 21%|██▏       | 10311/48008 [1:28:39<6:43:45,  1.56it/s] 21%|██▏       | 10312/48008 [1:28:40<6:21:40,  1.65it/s] 21%|██▏       | 10313/48008 [1:28:40<5:58:24,  1.75it/s] 21%|██▏       | 10314/48008 [1:28:41<5:29:12,  1.91it/s] 21%|██▏       | 10315/48008 [1:28:41<5:21:55,  1.95it/s] 21%|██▏       | 10316/48008 [1:28:42<5:03:53,  2.07it/s] 21%|██▏       | 10317/48008 [1:28:42<4:51:41,  2.15it/s] 21%|██▏       | 10318/48008 [1:28:42<4:59:21,  2.10it/s] 21%|██▏       | 10319/48008 [1:28:43<4:59:38,  2.10it/s] 21%|██▏       | 10320/48008 [1:28:43<4:59:34,  2.10it/s] 21%|██▏       | 10321/48008 [1:28:44<4:48:00,  2.18it/s] 22%|██▏       | 10322/48008 [1:28:45<5:28:10,  1.91it/s] 22%|██▏       | 10323/48008 [1:28:45<5:57:38,  1.76it/s] 22%|██▏       | 10324/48008 [1:28:46<5:40:23,  1.85it/s] 22%|██▏       | 10325/48008 [1:28:46<5:29:37,  1.91it/s] 22%|██▏       | 10326/48008 [1:28:47<5:22:02,  1.95it/s] 22%|██▏       | 10327/48008 [1:28:47<5:23:31,  1.94it/s] 22%|██▏       | 10328/48008 [1:28:48<5:27:58,  1.91it/s] 22%|██▏       | 10329/48008 [1:28:48<5:21:05,  1.96it/s] 22%|██▏       | 10330/48008 [1:28:49<5:15:55,  1.99it/s] 22%|██▏       | 10331/48008 [1:28:49<5:11:03,  2.02it/s] 22%|██▏       | 10332/48008 [1:28:50<5:12:36,  2.01it/s] 22%|██▏       | 10333/48008 [1:28:50<5:10:25,  2.02it/s] 22%|██▏       | 10334/48008 [1:28:51<5:15:18,  1.99it/s] 22%|██▏       | 10335/48008 [1:28:51<5:11:12,  2.02it/s] 22%|██▏       | 10336/48008 [1:28:52<5:16:11,  1.99it/s] 22%|██▏       | 10337/48008 [1:28:52<4:58:43,  2.10it/s] 22%|██▏       | 10338/48008 [1:28:52<4:47:04,  2.19it/s] 22%|██▏       | 10339/48008 [1:28:53<6:05:34,  1.72it/s] 22%|██▏       | 10340/48008 [1:28:54<5:46:21,  1.81it/s] 22%|██▏       | 10341/48008 [1:28:54<5:36:28,  1.87it/s] 22%|██▏       | 10342/48008 [1:28:55<5:26:00,  1.93it/s] 22%|██▏       | 10343/48008 [1:28:55<5:26:29,  1.92it/s] 22%|██▏       | 10344/48008 [1:28:56<5:23:16,  1.94it/s] 22%|██▏       | 10345/48008 [1:28:56<5:05:31,  2.05it/s] 22%|██▏       | 10346/48008 [1:28:57<5:10:52,  2.02it/s] 22%|██▏       | 10347/48008 [1:28:57<5:13:05,  2.00it/s] 22%|██▏       | 10348/48008 [1:28:58<5:09:50,  2.03it/s] 22%|██▏       | 10349/48008 [1:28:58<5:18:00,  1.97it/s] 22%|██▏       | 10350/48008 [1:28:59<5:13:59,  2.00it/s]                                                         {'loss': 4.2579, 'grad_norm': 0.3414459228515625, 'learning_rate': 0.0001568863522746209, 'epoch': 0.22}
 22%|██▏       | 10350/48008 [1:28:59<5:13:59,  2.00it/s] 22%|██▏       | 10351/48008 [1:28:59<5:22:35,  1.95it/s] 22%|██▏       | 10352/48008 [1:29:00<5:17:23,  1.98it/s] 22%|██▏       | 10353/48008 [1:29:00<5:12:48,  2.01it/s] 22%|██▏       | 10354/48008 [1:29:01<5:09:38,  2.03it/s] 22%|██▏       | 10355/48008 [1:29:01<5:14:06,  2.00it/s] 22%|██▏       | 10356/48008 [1:29:02<4:57:40,  2.11it/s] 22%|██▏       | 10357/48008 [1:29:02<4:47:50,  2.18it/s] 22%|██▏       | 10358/48008 [1:29:03<5:03:02,  2.07it/s] 22%|██▏       | 10359/48008 [1:29:03<5:07:07,  2.04it/s] 22%|██▏       | 10360/48008 [1:29:04<5:09:23,  2.03it/s] 22%|██▏       | 10361/48008 [1:29:04<5:07:09,  2.04it/s] 22%|██▏       | 10362/48008 [1:29:05<5:07:10,  2.04it/s] 22%|██▏       | 10363/48008 [1:29:05<5:09:16,  2.03it/s] 22%|██▏       | 10364/48008 [1:29:06<5:06:40,  2.05it/s] 22%|██▏       | 10365/48008 [1:29:06<5:05:51,  2.05it/s] 22%|██▏       | 10366/48008 [1:29:07<5:04:46,  2.06it/s] 22%|██▏       | 10367/48008 [1:29:07<5:05:25,  2.05it/s] 22%|██▏       | 10368/48008 [1:29:08<4:53:37,  2.14it/s] 22%|██▏       | 10369/48008 [1:29:08<4:56:16,  2.12it/s] 22%|██▏       | 10370/48008 [1:29:08<4:44:58,  2.20it/s] 22%|██▏       | 10371/48008 [1:29:09<5:01:47,  2.08it/s] 22%|██▏       | 10372/48008 [1:29:10<5:37:36,  1.86it/s] 22%|██▏       | 10373/48008 [1:29:10<5:33:55,  1.88it/s] 22%|██▏       | 10374/48008 [1:29:11<5:29:45,  1.90it/s] 22%|██▏       | 10375/48008 [1:29:11<5:21:09,  1.95it/s] 22%|██▏       | 10376/48008 [1:29:12<5:19:25,  1.96it/s] 22%|██▏       | 10377/48008 [1:29:12<5:19:33,  1.96it/s] 22%|██▏       | 10378/48008 [1:29:13<5:02:32,  2.07it/s] 22%|██▏       | 10379/48008 [1:29:13<5:01:13,  2.08it/s] 22%|██▏       | 10380/48008 [1:29:14<5:01:08,  2.08it/s] 22%|██▏       | 10381/48008 [1:29:14<5:06:39,  2.04it/s] 22%|██▏       | 10382/48008 [1:29:15<5:05:58,  2.05it/s] 22%|██▏       | 10383/48008 [1:29:15<5:05:41,  2.05it/s] 22%|██▏       | 10384/48008 [1:29:15<4:52:50,  2.14it/s] 22%|██▏       | 10385/48008 [1:29:16<5:05:58,  2.05it/s] 22%|██▏       | 10386/48008 [1:29:17<5:15:27,  1.99it/s] 22%|██▏       | 10387/48008 [1:29:17<4:58:59,  2.10it/s] 22%|██▏       | 10388/48008 [1:29:17<5:00:03,  2.09it/s] 22%|██▏       | 10389/48008 [1:29:18<5:05:32,  2.05it/s] 22%|██▏       | 10390/48008 [1:29:18<5:03:48,  2.06it/s] 22%|██▏       | 10391/48008 [1:29:19<4:51:05,  2.15it/s] 22%|██▏       | 10392/48008 [1:29:19<4:54:17,  2.13it/s] 22%|██▏       | 10393/48008 [1:29:20<5:03:00,  2.07it/s] 22%|██▏       | 10394/48008 [1:29:20<5:03:17,  2.07it/s] 22%|██▏       | 10395/48008 [1:29:22<7:27:01,  1.40it/s] 22%|██▏       | 10396/48008 [1:29:22<6:43:17,  1.55it/s] 22%|██▏       | 10397/48008 [1:29:22<6:01:02,  1.74it/s] 22%|██▏       | 10398/48008 [1:29:23<5:50:13,  1.79it/s] 22%|██▏       | 10399/48008 [1:29:23<5:24:33,  1.93it/s] 22%|██▏       | 10400/48008 [1:29:24<5:17:28,  1.97it/s]                                                         {'loss': 4.2736, 'grad_norm': 0.402487188577652, 'learning_rate': 0.0001566780536577237, 'epoch': 0.22}
 22%|██▏       | 10400/48008 [1:29:24<5:17:28,  1.97it/s] 22%|██▏       | 10401/48008 [1:29:24<5:12:03,  2.01it/s] 22%|██▏       | 10402/48008 [1:29:25<6:23:41,  1.63it/s] 22%|██▏       | 10403/48008 [1:29:26<6:03:58,  1.72it/s] 22%|██▏       | 10404/48008 [1:29:27<8:11:49,  1.27it/s] 22%|██▏       | 10405/48008 [1:29:28<7:21:51,  1.42it/s] 22%|██▏       | 10406/48008 [1:29:28<7:16:01,  1.44it/s] 22%|██▏       | 10407/48008 [1:29:29<6:40:03,  1.57it/s] 22%|██▏       | 10408/48008 [1:29:29<6:21:15,  1.64it/s] 22%|██▏       | 10409/48008 [1:29:30<6:03:27,  1.72it/s] 22%|██▏       | 10410/48008 [1:29:30<5:44:30,  1.82it/s] 22%|██▏       | 10411/48008 [1:29:31<5:31:41,  1.89it/s] 22%|██▏       | 10412/48008 [1:29:31<5:10:26,  2.02it/s] 22%|██▏       | 10413/48008 [1:29:32<5:08:02,  2.03it/s] 22%|██▏       | 10414/48008 [1:29:32<5:10:36,  2.02it/s] 22%|██▏       | 10415/48008 [1:29:33<5:07:32,  2.04it/s] 22%|██▏       | 10416/48008 [1:29:33<5:05:46,  2.05it/s] 22%|██▏       | 10417/48008 [1:29:34<5:05:18,  2.05it/s] 22%|██▏       | 10418/48008 [1:29:34<5:07:20,  2.04it/s] 22%|██▏       | 10419/48008 [1:29:35<5:12:37,  2.00it/s] 22%|██▏       | 10420/48008 [1:29:35<5:13:06,  2.00it/s] 22%|██▏       | 10421/48008 [1:29:35<4:58:18,  2.10it/s] 22%|██▏       | 10422/48008 [1:29:36<5:04:25,  2.06it/s] 22%|██▏       | 10423/48008 [1:29:37<5:08:36,  2.03it/s] 22%|██▏       | 10424/48008 [1:29:37<5:07:47,  2.04it/s] 22%|██▏       | 10425/48008 [1:29:37<5:05:06,  2.05it/s] 22%|██▏       | 10426/48008 [1:29:38<5:03:01,  2.07it/s] 22%|██▏       | 10427/48008 [1:29:38<5:02:26,  2.07it/s] 22%|██▏       | 10428/48008 [1:29:39<5:06:29,  2.04it/s] 22%|██▏       | 10429/48008 [1:29:39<5:06:47,  2.04it/s] 22%|██▏       | 10430/48008 [1:29:40<4:51:47,  2.15it/s] 22%|██▏       | 10431/48008 [1:29:40<5:02:30,  2.07it/s] 22%|██▏       | 10432/48008 [1:29:41<5:06:21,  2.04it/s] 22%|██▏       | 10433/48008 [1:29:41<5:10:30,  2.02it/s] 22%|██▏       | 10434/48008 [1:29:42<4:56:23,  2.11it/s] 22%|██▏       | 10435/48008 [1:29:42<5:01:38,  2.08it/s] 22%|██▏       | 10436/48008 [1:29:43<5:11:39,  2.01it/s] 22%|██▏       | 10437/48008 [1:29:43<5:07:23,  2.04it/s] 22%|██▏       | 10438/48008 [1:29:44<5:16:27,  1.98it/s] 22%|██▏       | 10439/48008 [1:29:44<5:13:00,  2.00it/s] 22%|██▏       | 10440/48008 [1:29:45<5:16:53,  1.98it/s] 22%|██▏       | 10441/48008 [1:29:45<5:11:19,  2.01it/s] 22%|██▏       | 10442/48008 [1:29:46<5:09:04,  2.03it/s] 22%|██▏       | 10443/48008 [1:29:46<5:12:37,  2.00it/s] 22%|██▏       | 10444/48008 [1:29:47<5:09:53,  2.02it/s] 22%|██▏       | 10445/48008 [1:29:47<5:14:11,  1.99it/s] 22%|██▏       | 10446/48008 [1:29:48<5:09:12,  2.02it/s] 22%|██▏       | 10447/48008 [1:29:48<5:14:38,  1.99it/s] 22%|██▏       | 10448/48008 [1:29:49<5:17:55,  1.97it/s] 22%|██▏       | 10449/48008 [1:29:49<5:12:21,  2.00it/s] 22%|██▏       | 10450/48008 [1:29:50<5:10:23,  2.02it/s]                                                         {'loss': 4.3073, 'grad_norm': 0.4130389094352722, 'learning_rate': 0.00015646975504082653, 'epoch': 0.22}
 22%|██▏       | 10450/48008 [1:29:50<5:10:23,  2.02it/s] 22%|██▏       | 10451/48008 [1:29:50<5:14:45,  1.99it/s] 22%|██▏       | 10452/48008 [1:29:51<5:11:24,  2.01it/s] 22%|██▏       | 10453/48008 [1:29:51<5:12:43,  2.00it/s] 22%|██▏       | 10454/48008 [1:29:52<5:14:49,  1.99it/s] 22%|██▏       | 10455/48008 [1:29:52<5:17:15,  1.97it/s] 22%|██▏       | 10456/48008 [1:29:53<6:27:04,  1.62it/s] 22%|██▏       | 10457/48008 [1:29:54<5:49:33,  1.79it/s] 22%|██▏       | 10458/48008 [1:29:54<5:35:06,  1.87it/s] 22%|██▏       | 10459/48008 [1:29:55<5:24:42,  1.93it/s] 22%|██▏       | 10460/48008 [1:29:55<5:17:03,  1.97it/s] 22%|██▏       | 10461/48008 [1:29:56<5:16:06,  1.98it/s] 22%|██▏       | 10462/48008 [1:29:56<5:18:31,  1.96it/s] 22%|██▏       | 10463/48008 [1:29:57<5:17:37,  1.97it/s] 22%|██▏       | 10464/48008 [1:29:57<5:22:51,  1.94it/s] 22%|██▏       | 10465/48008 [1:29:58<5:17:41,  1.97it/s] 22%|██▏       | 10466/48008 [1:29:58<5:18:24,  1.97it/s] 22%|██▏       | 10467/48008 [1:29:59<5:00:38,  2.08it/s] 22%|██▏       | 10468/48008 [1:29:59<5:00:41,  2.08it/s] 22%|██▏       | 10469/48008 [1:30:00<5:01:16,  2.08it/s] 22%|██▏       | 10470/48008 [1:30:00<5:08:09,  2.03it/s] 22%|██▏       | 10471/48008 [1:30:01<5:10:18,  2.02it/s] 22%|██▏       | 10472/48008 [1:30:01<5:13:14,  2.00it/s] 22%|██▏       | 10473/48008 [1:30:02<5:09:44,  2.02it/s] 22%|██▏       | 10474/48008 [1:30:02<5:12:45,  2.00it/s] 22%|██▏       | 10475/48008 [1:30:03<7:34:07,  1.38it/s] 22%|██▏       | 10476/48008 [1:30:04<6:56:15,  1.50it/s] 22%|██▏       | 10477/48008 [1:30:04<6:22:27,  1.64it/s] 22%|██▏       | 10478/48008 [1:30:05<6:03:48,  1.72it/s] 22%|██▏       | 10479/48008 [1:30:05<5:56:02,  1.76it/s] 22%|██▏       | 10480/48008 [1:30:06<5:39:16,  1.84it/s] 22%|██▏       | 10481/48008 [1:30:06<5:32:51,  1.88it/s] 22%|██▏       | 10482/48008 [1:30:07<5:05:34,  2.05it/s] 22%|██▏       | 10483/48008 [1:30:07<5:04:17,  2.06it/s] 22%|██▏       | 10484/48008 [1:30:08<5:04:29,  2.05it/s] 22%|██▏       | 10485/48008 [1:30:08<5:02:15,  2.07it/s] 22%|██▏       | 10486/48008 [1:30:09<4:49:37,  2.16it/s] 22%|██▏       | 10487/48008 [1:30:09<5:03:44,  2.06it/s] 22%|██▏       | 10488/48008 [1:30:10<5:02:37,  2.07it/s] 22%|██▏       | 10489/48008 [1:30:10<5:09:15,  2.02it/s] 22%|██▏       | 10490/48008 [1:30:11<5:15:12,  1.98it/s] 22%|██▏       | 10491/48008 [1:30:11<5:11:13,  2.01it/s] 22%|██▏       | 10492/48008 [1:30:12<5:09:41,  2.02it/s] 22%|██▏       | 10493/48008 [1:30:12<5:06:34,  2.04it/s] 22%|██▏       | 10494/48008 [1:30:13<5:04:44,  2.05it/s] 22%|██▏       | 10495/48008 [1:30:13<5:14:18,  1.99it/s] 22%|██▏       | 10496/48008 [1:30:14<4:58:32,  2.09it/s] 22%|██▏       | 10497/48008 [1:30:14<5:02:51,  2.06it/s] 22%|██▏       | 10498/48008 [1:30:15<5:09:43,  2.02it/s] 22%|██▏       | 10499/48008 [1:30:15<5:06:43,  2.04it/s] 22%|██▏       | 10500/48008 [1:30:16<5:05:46,  2.04it/s]                                                         {'loss': 4.2579, 'grad_norm': 0.6667286157608032, 'learning_rate': 0.00015626145642392935, 'epoch': 0.22}
 22%|██▏       | 10500/48008 [1:30:16<5:05:46,  2.04it/s] 22%|██▏       | 10501/48008 [1:30:16<5:10:59,  2.01it/s] 22%|██▏       | 10502/48008 [1:30:17<5:11:07,  2.01it/s] 22%|██▏       | 10503/48008 [1:30:17<5:08:59,  2.02it/s] 22%|██▏       | 10504/48008 [1:30:17<4:55:56,  2.11it/s] 22%|██▏       | 10505/48008 [1:30:18<5:03:11,  2.06it/s] 22%|██▏       | 10506/48008 [1:30:18<5:06:22,  2.04it/s] 22%|██▏       | 10507/48008 [1:30:19<5:08:33,  2.03it/s] 22%|██▏       | 10508/48008 [1:30:19<4:55:10,  2.12it/s] 22%|██▏       | 10509/48008 [1:30:20<4:58:18,  2.10it/s] 22%|██▏       | 10510/48008 [1:30:20<5:11:12,  2.01it/s] 22%|██▏       | 10511/48008 [1:30:21<5:09:19,  2.02it/s] 22%|██▏       | 10512/48008 [1:30:21<4:54:06,  2.12it/s] 22%|██▏       | 10513/48008 [1:30:22<5:31:54,  1.88it/s] 22%|██▏       | 10514/48008 [1:30:23<5:28:56,  1.90it/s] 22%|██▏       | 10515/48008 [1:30:23<5:19:26,  1.96it/s] 22%|██▏       | 10516/48008 [1:30:23<5:14:02,  1.99it/s] 22%|██▏       | 10517/48008 [1:30:24<5:10:56,  2.01it/s] 22%|██▏       | 10518/48008 [1:30:24<5:07:50,  2.03it/s] 22%|██▏       | 10519/48008 [1:30:25<4:53:47,  2.13it/s] 22%|██▏       | 10520/48008 [1:30:25<4:55:38,  2.11it/s] 22%|██▏       | 10521/48008 [1:30:26<4:56:11,  2.11it/s] 22%|██▏       | 10522/48008 [1:30:26<4:45:04,  2.19it/s] 22%|██▏       | 10523/48008 [1:30:27<5:26:50,  1.91it/s] 22%|██▏       | 10524/48008 [1:30:27<5:19:32,  1.96it/s] 22%|██▏       | 10525/48008 [1:30:28<5:18:15,  1.96it/s] 22%|██▏       | 10526/48008 [1:30:28<5:12:53,  2.00it/s] 22%|██▏       | 10527/48008 [1:30:29<5:09:21,  2.02it/s] 22%|██▏       | 10528/48008 [1:30:29<5:11:25,  2.01it/s] 22%|██▏       | 10529/48008 [1:30:30<5:07:44,  2.03it/s] 22%|██▏       | 10530/48008 [1:30:30<5:09:43,  2.02it/s] 22%|██▏       | 10531/48008 [1:30:31<4:53:58,  2.12it/s] 22%|██▏       | 10532/48008 [1:30:31<4:55:44,  2.11it/s] 22%|██▏       | 10533/48008 [1:30:32<5:03:59,  2.05it/s] 22%|██▏       | 10534/48008 [1:30:32<5:01:59,  2.07it/s] 22%|██▏       | 10535/48008 [1:30:33<5:12:42,  2.00it/s] 22%|██▏       | 10536/48008 [1:30:33<5:09:36,  2.02it/s] 22%|██▏       | 10537/48008 [1:30:34<5:11:02,  2.01it/s] 22%|██▏       | 10538/48008 [1:30:34<5:08:02,  2.03it/s] 22%|██▏       | 10539/48008 [1:30:35<5:09:35,  2.02it/s] 22%|██▏       | 10540/48008 [1:30:35<4:54:56,  2.12it/s] 22%|██▏       | 10541/48008 [1:30:36<6:11:48,  1.68it/s] 22%|██▏       | 10542/48008 [1:30:36<5:37:33,  1.85it/s] 22%|██▏       | 10543/48008 [1:30:37<5:13:48,  1.99it/s] 22%|██▏       | 10544/48008 [1:30:37<5:09:54,  2.01it/s] 22%|██▏       | 10545/48008 [1:30:38<5:11:32,  2.00it/s] 22%|██▏       | 10546/48008 [1:30:39<5:44:18,  1.81it/s] 22%|██▏       | 10547/48008 [1:30:39<6:06:29,  1.70it/s] 22%|██▏       | 10548/48008 [1:30:40<5:46:22,  1.80it/s] 22%|██▏       | 10549/48008 [1:30:40<6:09:28,  1.69it/s] 22%|██▏       | 10550/48008 [1:30:41<5:48:44,  1.79it/s]                                                         {'loss': 4.2708, 'grad_norm': 0.7453056573867798, 'learning_rate': 0.0001560531578070322, 'epoch': 0.22}
 22%|██▏       | 10550/48008 [1:30:41<5:48:44,  1.79it/s] 22%|██▏       | 10551/48008 [1:30:41<5:44:40,  1.81it/s] 22%|██▏       | 10552/48008 [1:30:42<5:34:59,  1.86it/s] 22%|██▏       | 10553/48008 [1:30:42<5:23:38,  1.93it/s] 22%|██▏       | 10554/48008 [1:30:43<5:16:22,  1.97it/s] 22%|██▏       | 10555/48008 [1:30:43<5:15:09,  1.98it/s] 22%|██▏       | 10556/48008 [1:30:44<5:17:11,  1.97it/s] 22%|██▏       | 10557/48008 [1:30:44<5:16:47,  1.97it/s] 22%|██▏       | 10558/48008 [1:30:45<5:22:35,  1.93it/s] 22%|██▏       | 10559/48008 [1:30:45<5:02:58,  2.06it/s] 22%|██▏       | 10560/48008 [1:30:46<5:02:48,  2.06it/s] 22%|██▏       | 10561/48008 [1:30:46<5:01:36,  2.07it/s] 22%|██▏       | 10562/48008 [1:30:47<4:49:11,  2.16it/s] 22%|██▏       | 10563/48008 [1:30:47<4:52:07,  2.14it/s] 22%|██▏       | 10564/48008 [1:30:48<4:58:49,  2.09it/s] 22%|██▏       | 10565/48008 [1:30:48<4:59:06,  2.09it/s] 22%|██▏       | 10566/48008 [1:30:49<4:58:42,  2.09it/s] 22%|██▏       | 10567/48008 [1:30:49<4:46:37,  2.18it/s] 22%|██▏       | 10568/48008 [1:30:50<4:50:44,  2.15it/s] 22%|██▏       | 10569/48008 [1:30:50<4:57:20,  2.10it/s] 22%|██▏       | 10570/48008 [1:30:51<4:57:59,  2.09it/s] 22%|██▏       | 10571/48008 [1:30:51<4:58:12,  2.09it/s] 22%|██▏       | 10572/48008 [1:30:51<4:46:25,  2.18it/s] 22%|██▏       | 10573/48008 [1:30:52<4:37:41,  2.25it/s] 22%|██▏       | 10574/48008 [1:30:52<4:44:06,  2.20it/s] 22%|██▏       | 10575/48008 [1:30:53<4:56:13,  2.11it/s] 22%|██▏       | 10576/48008 [1:30:53<5:01:30,  2.07it/s] 22%|██▏       | 10577/48008 [1:30:54<5:00:55,  2.07it/s] 22%|██▏       | 10578/48008 [1:30:54<5:08:01,  2.03it/s] 22%|██▏       | 10579/48008 [1:30:55<5:09:44,  2.01it/s] 22%|██▏       | 10580/48008 [1:30:55<4:54:27,  2.12it/s] 22%|██▏       | 10581/48008 [1:30:56<5:06:38,  2.03it/s] 22%|██▏       | 10582/48008 [1:30:56<5:04:50,  2.05it/s] 22%|██▏       | 10583/48008 [1:30:57<5:03:24,  2.06it/s] 22%|██▏       | 10584/48008 [1:30:57<4:49:57,  2.15it/s] 22%|██▏       | 10585/48008 [1:30:58<4:52:41,  2.13it/s] 22%|██▏       | 10586/48008 [1:30:58<5:01:59,  2.07it/s] 22%|██▏       | 10587/48008 [1:30:59<5:05:28,  2.04it/s] 22%|██▏       | 10588/48008 [1:30:59<5:07:09,  2.03it/s] 22%|██▏       | 10589/48008 [1:31:00<5:08:13,  2.02it/s] 22%|██▏       | 10590/48008 [1:31:00<5:05:27,  2.04it/s] 22%|██▏       | 10591/48008 [1:31:01<4:51:14,  2.14it/s] 22%|██▏       | 10592/48008 [1:31:01<4:41:28,  2.22it/s] 22%|██▏       | 10593/48008 [1:31:01<4:46:39,  2.18it/s] 22%|██▏       | 10594/48008 [1:31:02<4:49:35,  2.15it/s] 22%|██▏       | 10595/48008 [1:31:02<4:51:43,  2.14it/s] 22%|██▏       | 10596/48008 [1:31:03<5:05:20,  2.04it/s] 22%|██▏       | 10597/48008 [1:31:03<5:03:23,  2.06it/s] 22%|██▏       | 10598/48008 [1:31:04<5:01:33,  2.07it/s] 22%|██▏       | 10599/48008 [1:31:04<5:00:47,  2.07it/s] 22%|██▏       | 10600/48008 [1:31:05<5:04:26,  2.05it/s]                                                         {'loss': 4.2668, 'grad_norm': 0.6751615405082703, 'learning_rate': 0.00015584485919013498, 'epoch': 0.22} 22%|██▏       | 10600/48008 [1:31:05<5:04:26,  2.05it/s]
 22%|██▏       | 10601/48008 [1:31:05<4:50:54,  2.14it/s] 22%|██▏       | 10602/48008 [1:31:06<4:53:21,  2.13it/s] 22%|██▏       | 10603/48008 [1:31:06<4:54:57,  2.11it/s] 22%|██▏       | 10604/48008 [1:31:07<5:31:45,  1.88it/s] 22%|██▏       | 10605/48008 [1:31:07<5:21:18,  1.94it/s] 22%|██▏       | 10606/48008 [1:31:08<5:14:30,  1.98it/s] 22%|██▏       | 10607/48008 [1:31:08<5:13:36,  1.99it/s] 22%|██▏       | 10608/48008 [1:31:09<5:16:21,  1.97it/s] 22%|██▏       | 10609/48008 [1:31:09<5:11:24,  2.00it/s] 22%|██▏       | 10610/48008 [1:31:10<5:07:31,  2.03it/s] 22%|██▏       | 10611/48008 [1:31:10<4:46:29,  2.18it/s] 22%|██▏       | 10612/48008 [1:31:11<4:54:29,  2.12it/s] 22%|██▏       | 10613/48008 [1:31:11<4:55:11,  2.11it/s] 22%|██▏       | 10614/48008 [1:31:12<4:44:10,  2.19it/s] 22%|██▏       | 10615/48008 [1:31:12<4:48:40,  2.16it/s] 22%|██▏       | 10616/48008 [1:31:13<4:52:26,  2.13it/s] 22%|██▏       | 10617/48008 [1:31:13<4:54:49,  2.11it/s] 22%|██▏       | 10618/48008 [1:31:14<5:02:48,  2.06it/s] 22%|██▏       | 10619/48008 [1:31:14<5:13:21,  1.99it/s] 22%|██▏       | 10620/48008 [1:31:15<5:12:53,  1.99it/s] 22%|██▏       | 10621/48008 [1:31:15<5:13:07,  1.99it/s] 22%|██▏       | 10622/48008 [1:31:16<5:08:41,  2.02it/s] 22%|██▏       | 10623/48008 [1:31:16<5:06:26,  2.03it/s] 22%|██▏       | 10624/48008 [1:31:17<5:04:09,  2.05it/s] 22%|██▏       | 10625/48008 [1:31:17<5:02:38,  2.06it/s] 22%|██▏       | 10626/48008 [1:31:18<5:05:17,  2.04it/s] 22%|██▏       | 10627/48008 [1:31:18<5:08:01,  2.02it/s] 22%|██▏       | 10628/48008 [1:31:19<5:05:29,  2.04it/s] 22%|██▏       | 10629/48008 [1:31:19<5:03:15,  2.05it/s] 22%|██▏       | 10630/48008 [1:31:20<5:01:27,  2.07it/s] 22%|██▏       | 10631/48008 [1:31:20<4:59:50,  2.08it/s] 22%|██▏       | 10632/48008 [1:31:20<5:03:39,  2.05it/s] 22%|██▏       | 10633/48008 [1:31:21<5:06:40,  2.03it/s] 22%|██▏       | 10634/48008 [1:31:21<5:09:43,  2.01it/s] 22%|██▏       | 10635/48008 [1:31:22<5:11:15,  2.00it/s] 22%|██▏       | 10636/48008 [1:31:22<4:55:13,  2.11it/s] 22%|██▏       | 10637/48008 [1:31:23<6:09:28,  1.69it/s] 22%|██▏       | 10638/48008 [1:31:24<5:48:39,  1.79it/s] 22%|██▏       | 10639/48008 [1:31:24<5:34:12,  1.86it/s] 22%|██▏       | 10640/48008 [1:31:25<5:24:04,  1.92it/s] 22%|██▏       | 10641/48008 [1:31:25<5:20:36,  1.94it/s] 22%|██▏       | 10642/48008 [1:31:26<5:24:50,  1.92it/s] 22%|██▏       | 10643/48008 [1:31:26<5:17:30,  1.96it/s] 22%|██▏       | 10644/48008 [1:31:27<5:12:05,  2.00it/s] 22%|██▏       | 10645/48008 [1:31:27<5:08:12,  2.02it/s] 22%|██▏       | 10646/48008 [1:31:28<5:05:01,  2.04it/s] 22%|██▏       | 10647/48008 [1:31:28<4:51:06,  2.14it/s] 22%|██▏       | 10648/48008 [1:31:29<4:53:51,  2.12it/s] 22%|██▏       | 10649/48008 [1:31:29<4:59:30,  2.08it/s] 22%|██▏       | 10650/48008 [1:31:30<5:05:01,  2.04it/s]                                                         {'loss': 4.2773, 'grad_norm': 0.5671024918556213, 'learning_rate': 0.0001556365605732378, 'epoch': 0.22}
 22%|██▏       | 10650/48008 [1:31:30<5:05:01,  2.04it/s] 22%|██▏       | 10651/48008 [1:31:30<5:04:27,  2.04it/s] 22%|██▏       | 10652/48008 [1:31:31<4:50:54,  2.14it/s] 22%|██▏       | 10653/48008 [1:31:31<5:05:31,  2.04it/s] 22%|██▏       | 10654/48008 [1:31:31<4:50:51,  2.14it/s] 22%|██▏       | 10655/48008 [1:31:32<4:52:48,  2.13it/s] 22%|██▏       | 10656/48008 [1:31:32<4:58:56,  2.08it/s] 22%|██▏       | 10657/48008 [1:31:33<4:59:10,  2.08it/s] 22%|██▏       | 10658/48008 [1:31:33<5:06:59,  2.03it/s] 22%|██▏       | 10659/48008 [1:31:35<7:10:45,  1.45it/s] 22%|██▏       | 10660/48008 [1:31:35<6:35:45,  1.57it/s] 22%|██▏       | 10661/48008 [1:31:36<6:11:13,  1.68it/s] 22%|██▏       | 10662/48008 [1:31:36<5:49:29,  1.78it/s] 22%|██▏       | 10663/48008 [1:31:37<5:34:26,  1.86it/s] 22%|██▏       | 10664/48008 [1:31:37<5:25:17,  1.91it/s] 22%|██▏       | 10665/48008 [1:31:38<5:54:10,  1.76it/s] 22%|██▏       | 10666/48008 [1:31:38<5:41:52,  1.82it/s] 22%|██▏       | 10667/48008 [1:31:39<6:05:05,  1.70it/s] 22%|██▏       | 10668/48008 [1:31:39<5:45:29,  1.80it/s] 22%|██▏       | 10669/48008 [1:31:40<5:32:53,  1.87it/s] 22%|██▏       | 10670/48008 [1:31:40<5:23:18,  1.92it/s] 22%|██▏       | 10671/48008 [1:31:41<5:26:45,  1.90it/s] 22%|██▏       | 10672/48008 [1:31:41<5:29:32,  1.89it/s] 22%|██▏       | 10673/48008 [1:31:42<5:20:13,  1.94it/s] 22%|██▏       | 10674/48008 [1:31:42<5:02:34,  2.06it/s] 22%|██▏       | 10675/48008 [1:31:43<5:01:12,  2.07it/s] 22%|██▏       | 10676/48008 [1:31:43<5:07:38,  2.02it/s] 22%|██▏       | 10677/48008 [1:31:44<5:05:00,  2.04it/s] 22%|██▏       | 10678/48008 [1:31:44<5:11:38,  2.00it/s] 22%|██▏       | 10679/48008 [1:31:45<5:08:29,  2.02it/s] 22%|██▏       | 10680/48008 [1:31:45<5:09:26,  2.01it/s] 22%|██▏       | 10681/48008 [1:31:46<5:05:34,  2.04it/s] 22%|██▏       | 10682/48008 [1:31:46<5:09:11,  2.01it/s] 22%|██▏       | 10683/48008 [1:31:47<5:17:19,  1.96it/s] 22%|██▏       | 10684/48008 [1:31:47<5:16:51,  1.96it/s] 22%|██▏       | 10685/48008 [1:31:48<5:15:44,  1.97it/s] 22%|██▏       | 10686/48008 [1:31:49<6:23:48,  1.62it/s] 22%|██▏       | 10687/48008 [1:31:49<6:02:19,  1.72it/s] 22%|██▏       | 10688/48008 [1:31:50<6:18:34,  1.64it/s] 22%|██▏       | 10689/48008 [1:31:50<5:54:17,  1.76it/s] 22%|██▏       | 10690/48008 [1:31:51<5:25:12,  1.91it/s] 22%|██▏       | 10691/48008 [1:31:51<5:25:02,  1.91it/s] 22%|██▏       | 10692/48008 [1:31:52<5:05:32,  2.04it/s] 22%|██▏       | 10693/48008 [1:31:52<5:39:43,  1.83it/s] 22%|██▏       | 10694/48008 [1:31:53<5:32:06,  1.87it/s] 22%|██▏       | 10695/48008 [1:31:53<5:22:40,  1.93it/s] 22%|██▏       | 10696/48008 [1:31:54<5:16:11,  1.97it/s] 22%|██▏       | 10697/48008 [1:31:54<5:00:09,  2.07it/s] 22%|██▏       | 10698/48008 [1:31:55<5:00:05,  2.07it/s] 22%|██▏       | 10699/48008 [1:31:55<5:00:33,  2.07it/s] 22%|██▏       | 10700/48008 [1:31:56<4:59:55,  2.07it/s]                                                         {'loss': 4.3281, 'grad_norm': 0.5268508791923523, 'learning_rate': 0.00015542826195634062, 'epoch': 0.22} 22%|██▏       | 10700/48008 [1:31:56<4:59:55,  2.07it/s]
 22%|██▏       | 10701/48008 [1:31:56<4:46:58,  2.17it/s] 22%|██▏       | 10702/48008 [1:31:57<4:39:59,  2.22it/s] 22%|██▏       | 10703/48008 [1:31:57<4:49:46,  2.15it/s] 22%|██▏       | 10704/48008 [1:31:58<4:52:07,  2.13it/s] 22%|██▏       | 10705/48008 [1:31:58<5:04:28,  2.04it/s] 22%|██▏       | 10706/48008 [1:31:59<5:06:21,  2.03it/s] 22%|██▏       | 10707/48008 [1:31:59<4:53:02,  2.12it/s] 22%|██▏       | 10708/48008 [1:31:59<4:43:58,  2.19it/s] 22%|██▏       | 10709/48008 [1:32:00<4:52:10,  2.13it/s] 22%|██▏       | 10710/48008 [1:32:00<4:54:39,  2.11it/s] 22%|██▏       | 10711/48008 [1:32:01<4:55:17,  2.11it/s] 22%|██▏       | 10712/48008 [1:32:01<5:03:13,  2.05it/s] 22%|██▏       | 10713/48008 [1:32:02<5:12:41,  1.99it/s] 22%|██▏       | 10714/48008 [1:32:02<5:12:25,  1.99it/s] 22%|██▏       | 10715/48008 [1:32:03<5:15:29,  1.97it/s] 22%|██▏       | 10716/48008 [1:32:03<5:11:02,  2.00it/s] 22%|██▏       | 10717/48008 [1:32:04<5:08:17,  2.02it/s] 22%|██▏       | 10718/48008 [1:32:04<4:54:00,  2.11it/s] 22%|██▏       | 10719/48008 [1:32:05<5:02:48,  2.05it/s] 22%|██▏       | 10720/48008 [1:32:05<4:50:15,  2.14it/s] 22%|██▏       | 10721/48008 [1:32:06<4:53:14,  2.12it/s] 22%|██▏       | 10722/48008 [1:32:06<4:54:25,  2.11it/s] 22%|██▏       | 10723/48008 [1:32:07<4:43:56,  2.19it/s] 22%|██▏       | 10724/48008 [1:32:07<4:47:37,  2.16it/s] 22%|██▏       | 10725/48008 [1:32:08<4:39:27,  2.22it/s] 22%|██▏       | 10726/48008 [1:32:08<4:45:20,  2.18it/s] 22%|██▏       | 10727/48008 [1:32:09<4:53:44,  2.12it/s] 22%|██▏       | 10728/48008 [1:32:09<4:43:14,  2.19it/s] 22%|██▏       | 10729/48008 [1:32:09<4:47:58,  2.16it/s] 22%|██▏       | 10730/48008 [1:32:10<4:51:36,  2.13it/s] 22%|██▏       | 10731/48008 [1:32:10<4:59:56,  2.07it/s] 22%|██▏       | 10732/48008 [1:32:11<4:59:27,  2.07it/s] 22%|██▏       | 10733/48008 [1:32:12<7:57:56,  1.30it/s] 22%|██▏       | 10734/48008 [1:32:13<7:05:01,  1.46it/s] 22%|██▏       | 10735/48008 [1:32:14<7:41:47,  1.35it/s] 22%|██▏       | 10736/48008 [1:32:14<6:53:36,  1.50it/s] 22%|██▏       | 10737/48008 [1:32:15<6:07:40,  1.69it/s] 22%|██▏       | 10738/48008 [1:32:15<5:46:58,  1.79it/s] 22%|██▏       | 10739/48008 [1:32:17<8:23:50,  1.23it/s] 22%|██▏       | 10740/48008 [1:32:17<7:23:16,  1.40it/s] 22%|██▏       | 10741/48008 [1:32:18<6:44:48,  1.53it/s] 22%|██▏       | 10742/48008 [1:32:18<6:12:34,  1.67it/s] 22%|██▏       | 10743/48008 [1:32:19<5:57:59,  1.73it/s] 22%|██▏       | 10744/48008 [1:32:20<8:05:08,  1.28it/s] 22%|██▏       | 10745/48008 [1:32:21<9:12:54,  1.12it/s] 22%|██▏       | 10746/48008 [1:32:22<8:32:29,  1.21it/s] 22%|██▏       | 10747/48008 [1:32:22<7:28:16,  1.39it/s] 22%|██▏       | 10748/48008 [1:32:23<6:43:50,  1.54it/s] 22%|██▏       | 10749/48008 [1:32:23<6:11:24,  1.67it/s] 22%|██▏       | 10750/48008 [1:32:24<5:53:10,  1.76it/s]                                                         {'loss': 4.2615, 'grad_norm': 0.451412558555603, 'learning_rate': 0.00015521996333944343, 'epoch': 0.22}
 22%|██▏       | 10750/48008 [1:32:24<5:53:10,  1.76it/s] 22%|██▏       | 10751/48008 [1:32:24<5:43:23,  1.81it/s] 22%|██▏       | 10752/48008 [1:32:25<5:34:37,  1.86it/s] 22%|██▏       | 10753/48008 [1:32:25<5:33:59,  1.86it/s] 22%|██▏       | 10754/48008 [1:32:26<5:22:58,  1.92it/s] 22%|██▏       | 10755/48008 [1:32:26<5:16:48,  1.96it/s] 22%|██▏       | 10756/48008 [1:32:27<5:48:03,  1.78it/s] 22%|██▏       | 10757/48008 [1:32:27<6:08:43,  1.68it/s] 22%|██▏       | 10758/48008 [1:32:28<5:36:03,  1.85it/s] 22%|██▏       | 10759/48008 [1:32:28<5:25:22,  1.91it/s] 22%|██▏       | 10760/48008 [1:32:29<5:17:44,  1.95it/s] 22%|██▏       | 10761/48008 [1:32:29<5:15:39,  1.97it/s] 22%|██▏       | 10762/48008 [1:32:30<5:09:43,  2.00it/s] 22%|██▏       | 10763/48008 [1:32:30<4:54:49,  2.11it/s] 22%|██▏       | 10764/48008 [1:32:31<6:11:36,  1.67it/s] 22%|██▏       | 10765/48008 [1:32:32<6:25:10,  1.61it/s] 22%|██▏       | 10766/48008 [1:32:32<6:07:37,  1.69it/s] 22%|██▏       | 10767/48008 [1:32:33<5:46:20,  1.79it/s] 22%|██▏       | 10768/48008 [1:32:33<5:20:04,  1.94it/s] 22%|██▏       | 10769/48008 [1:32:34<5:13:45,  1.98it/s] 22%|██▏       | 10770/48008 [1:32:34<4:57:39,  2.09it/s] 22%|██▏       | 10771/48008 [1:32:35<5:02:02,  2.05it/s] 22%|██▏       | 10772/48008 [1:32:35<5:08:20,  2.01it/s] 22%|██▏       | 10773/48008 [1:32:36<5:05:16,  2.03it/s] 22%|██▏       | 10774/48008 [1:32:36<5:03:18,  2.05it/s] 22%|██▏       | 10775/48008 [1:32:37<5:05:59,  2.03it/s] 22%|██▏       | 10776/48008 [1:32:37<5:10:30,  2.00it/s] 22%|██▏       | 10777/48008 [1:32:38<5:07:16,  2.02it/s] 22%|██▏       | 10778/48008 [1:32:38<5:09:38,  2.00it/s] 22%|██▏       | 10779/48008 [1:32:39<4:54:00,  2.11it/s] 22%|██▏       | 10780/48008 [1:32:39<4:55:40,  2.10it/s] 22%|██▏       | 10781/48008 [1:32:39<4:44:16,  2.18it/s] 22%|██▏       | 10782/48008 [1:32:40<4:47:47,  2.16it/s] 22%|██▏       | 10783/48008 [1:32:40<4:39:07,  2.22it/s] 22%|██▏       | 10784/48008 [1:32:41<4:31:51,  2.28it/s] 22%|██▏       | 10785/48008 [1:32:41<4:21:47,  2.37it/s] 22%|██▏       | 10786/48008 [1:32:42<4:37:17,  2.24it/s] 22%|██▏       | 10787/48008 [1:32:42<4:50:15,  2.14it/s] 22%|██▏       | 10788/48008 [1:32:43<4:52:18,  2.12it/s] 22%|██▏       | 10789/48008 [1:32:43<4:42:36,  2.20it/s] 22%|██▏       | 10790/48008 [1:32:44<4:53:49,  2.11it/s] 22%|██▏       | 10791/48008 [1:32:44<5:03:20,  2.04it/s] 22%|██▏       | 10792/48008 [1:32:45<5:12:33,  1.98it/s] 22%|██▏       | 10793/48008 [1:32:45<5:08:50,  2.01it/s] 22%|██▏       | 10794/48008 [1:32:46<5:04:56,  2.03it/s] 22%|██▏       | 10795/48008 [1:32:46<5:08:07,  2.01it/s] 22%|██▏       | 10796/48008 [1:32:47<5:40:31,  1.82it/s] 22%|██▏       | 10797/48008 [1:32:47<5:34:59,  1.85it/s] 22%|██▏       | 10798/48008 [1:32:48<5:28:08,  1.89it/s] 22%|██▏       | 10799/48008 [1:32:48<5:19:08,  1.94it/s] 22%|██▏       | 10800/48008 [1:32:49<5:20:08,  1.94it/s]                                                         {'loss': 4.2791, 'grad_norm': 0.4481361508369446, 'learning_rate': 0.00015501166472254625, 'epoch': 0.22} 22%|██▏       | 10800/48008 [1:32:49<5:20:08,  1.94it/s]
 22%|██▏       | 10801/48008 [1:32:49<5:13:52,  1.98it/s] 23%|██▎       | 10802/48008 [1:32:50<5:08:50,  2.01it/s] 23%|██▎       | 10803/48008 [1:32:50<5:17:36,  1.95it/s] 23%|██▎       | 10804/48008 [1:32:51<4:59:52,  2.07it/s] 23%|██▎       | 10805/48008 [1:32:51<5:04:40,  2.04it/s] 23%|██▎       | 10806/48008 [1:32:52<5:03:48,  2.04it/s] 23%|██▎       | 10807/48008 [1:32:52<5:02:43,  2.05it/s] 23%|██▎       | 10808/48008 [1:32:53<5:02:47,  2.05it/s] 23%|██▎       | 10809/48008 [1:32:53<5:09:47,  2.00it/s] 23%|██▎       | 10810/48008 [1:32:54<5:05:40,  2.03it/s] 23%|██▎       | 10811/48008 [1:32:54<5:03:36,  2.04it/s] 23%|██▎       | 10812/48008 [1:32:55<5:07:05,  2.02it/s] 23%|██▎       | 10813/48008 [1:32:55<5:04:53,  2.03it/s] 23%|██▎       | 10814/48008 [1:32:56<5:03:23,  2.04it/s] 23%|██▎       | 10815/48008 [1:32:56<5:13:36,  1.98it/s] 23%|██▎       | 10816/48008 [1:32:57<4:56:55,  2.09it/s] 23%|██▎       | 10817/48008 [1:32:57<4:56:37,  2.09it/s] 23%|██▎       | 10818/48008 [1:32:58<4:57:33,  2.08it/s] 23%|██▎       | 10819/48008 [1:32:58<4:57:48,  2.08it/s] 23%|██▎       | 10820/48008 [1:32:59<4:57:11,  2.09it/s] 23%|██▎       | 10821/48008 [1:32:59<5:05:46,  2.03it/s] 23%|██▎       | 10822/48008 [1:33:00<5:04:19,  2.04it/s] 23%|██▎       | 10823/48008 [1:33:00<5:02:48,  2.05it/s] 23%|██▎       | 10824/48008 [1:33:00<5:01:41,  2.05it/s] 23%|██▎       | 10825/48008 [1:33:01<5:00:59,  2.06it/s] 23%|██▎       | 10826/48008 [1:33:01<5:03:21,  2.04it/s] 23%|██▎       | 10827/48008 [1:33:02<5:02:27,  2.05it/s] 23%|██▎       | 10828/48008 [1:33:02<4:49:23,  2.14it/s] 23%|██▎       | 10829/48008 [1:33:03<4:40:52,  2.21it/s] 23%|██▎       | 10830/48008 [1:33:03<4:33:39,  2.26it/s] 23%|██▎       | 10831/48008 [1:33:04<4:44:39,  2.18it/s] 23%|██▎       | 10832/48008 [1:33:04<4:52:42,  2.12it/s] 23%|██▎       | 10833/48008 [1:33:05<4:58:38,  2.07it/s] 23%|██▎       | 10834/48008 [1:33:05<5:04:20,  2.04it/s] 23%|██▎       | 10835/48008 [1:33:06<5:03:03,  2.04it/s] 23%|██▎       | 10836/48008 [1:33:06<5:12:51,  1.98it/s] 23%|██▎       | 10837/48008 [1:33:07<5:15:49,  1.96it/s] 23%|██▎       | 10838/48008 [1:33:07<5:19:02,  1.94it/s] 23%|██▎       | 10839/48008 [1:33:08<5:12:30,  1.98it/s] 23%|██▎       | 10840/48008 [1:33:08<5:09:18,  2.00it/s] 23%|██▎       | 10841/48008 [1:33:09<5:09:29,  2.00it/s] 23%|██▎       | 10842/48008 [1:33:09<5:06:34,  2.02it/s] 23%|██▎       | 10843/48008 [1:33:10<5:02:53,  2.04it/s] 23%|██▎       | 10844/48008 [1:33:10<4:49:22,  2.14it/s] 23%|██▎       | 10845/48008 [1:33:11<4:59:03,  2.07it/s] 23%|██▎       | 10846/48008 [1:33:11<4:59:14,  2.07it/s] 23%|██▎       | 10847/48008 [1:33:12<5:06:58,  2.02it/s] 23%|██▎       | 10848/48008 [1:33:12<5:41:14,  1.81it/s] 23%|██▎       | 10849/48008 [1:33:13<5:33:48,  1.86it/s] 23%|██▎       | 10850/48008 [1:33:13<5:27:42,  1.89it/s]{'loss': 4.2537, 'grad_norm': 0.49108409881591797, 'learning_rate': 0.00015480336610564907, 'epoch': 0.23}                                                          23%|██▎       | 10850/48008 [1:33:13<5:27:42,  1.89it/s]
 23%|██▎       | 10851/48008 [1:33:14<5:07:15,  2.02it/s] 23%|██▎       | 10852/48008 [1:33:14<5:09:41,  2.00it/s] 23%|██▎       | 10853/48008 [1:33:15<5:11:08,  1.99it/s] 23%|██▎       | 10854/48008 [1:33:15<5:07:54,  2.01it/s] 23%|██▎       | 10855/48008 [1:33:16<5:03:54,  2.04it/s] 23%|██▎       | 10856/48008 [1:33:16<4:51:12,  2.13it/s] 23%|██▎       | 10857/48008 [1:33:17<4:54:50,  2.10it/s] 23%|██▎       | 10858/48008 [1:33:17<4:56:15,  2.09it/s] 23%|██▎       | 10859/48008 [1:33:18<4:56:58,  2.08it/s] 23%|██▎       | 10860/48008 [1:33:18<5:00:51,  2.06it/s] 23%|██▎       | 10861/48008 [1:33:19<4:59:03,  2.07it/s] 23%|██▎       | 10862/48008 [1:33:19<4:57:42,  2.08it/s] 23%|██▎       | 10863/48008 [1:33:20<4:58:54,  2.07it/s] 23%|██▎       | 10864/48008 [1:33:20<5:05:25,  2.03it/s] 23%|██▎       | 10865/48008 [1:33:21<5:04:53,  2.03it/s] 23%|██▎       | 10866/48008 [1:33:21<5:04:10,  2.04it/s] 23%|██▎       | 10867/48008 [1:33:22<5:07:45,  2.01it/s] 23%|██▎       | 10868/48008 [1:33:22<5:04:38,  2.03it/s] 23%|██▎       | 10869/48008 [1:33:23<5:03:01,  2.04it/s] 23%|██▎       | 10870/48008 [1:33:23<5:04:48,  2.03it/s] 23%|██▎       | 10871/48008 [1:33:24<5:03:28,  2.04it/s] 23%|██▎       | 10872/48008 [1:33:24<4:49:51,  2.14it/s] 23%|██▎       | 10873/48008 [1:33:24<4:56:49,  2.09it/s] 23%|██▎       | 10874/48008 [1:33:25<4:45:14,  2.17it/s] 23%|██▎       | 10875/48008 [1:33:25<4:50:11,  2.13it/s] 23%|██▎       | 10876/48008 [1:33:26<4:52:41,  2.11it/s] 23%|██▎       | 10877/48008 [1:33:26<4:57:39,  2.08it/s] 23%|██▎       | 10878/48008 [1:33:27<5:02:27,  2.05it/s] 23%|██▎       | 10879/48008 [1:33:27<4:49:17,  2.14it/s] 23%|██▎       | 10880/48008 [1:33:28<4:52:16,  2.12it/s] 23%|██▎       | 10881/48008 [1:33:28<4:54:43,  2.10it/s] 23%|██▎       | 10882/48008 [1:33:29<5:06:50,  2.02it/s] 23%|██▎       | 10883/48008 [1:33:29<5:09:23,  2.00it/s] 23%|██▎       | 10884/48008 [1:33:30<5:06:53,  2.02it/s] 23%|██▎       | 10885/48008 [1:33:30<5:16:32,  1.95it/s] 23%|██▎       | 10886/48008 [1:33:31<5:11:54,  1.98it/s] 23%|██▎       | 10887/48008 [1:33:31<5:12:02,  1.98it/s] 23%|██▎       | 10888/48008 [1:33:32<5:12:48,  1.98it/s] 23%|██▎       | 10889/48008 [1:33:32<5:08:49,  2.00it/s] 23%|██▎       | 10890/48008 [1:33:33<5:06:42,  2.02it/s] 23%|██▎       | 10891/48008 [1:33:33<5:05:38,  2.02it/s] 23%|██▎       | 10892/48008 [1:33:34<4:51:17,  2.12it/s] 23%|██▎       | 10893/48008 [1:33:34<5:04:15,  2.03it/s] 23%|██▎       | 10894/48008 [1:33:35<5:03:03,  2.04it/s] 23%|██▎       | 10895/48008 [1:33:35<4:50:28,  2.13it/s] 23%|██▎       | 10896/48008 [1:33:36<4:56:28,  2.09it/s] 23%|██▎       | 10897/48008 [1:33:36<4:56:44,  2.08it/s] 23%|██▎       | 10898/48008 [1:33:37<4:57:49,  2.08it/s] 23%|██▎       | 10899/48008 [1:33:37<5:02:56,  2.04it/s] 23%|██▎       | 10900/48008 [1:33:38<5:00:30,  2.06it/s]                                                         {'loss': 4.2617, 'grad_norm': 0.3520631492137909, 'learning_rate': 0.00015459506748875188, 'epoch': 0.23}
 23%|██▎       | 10900/48008 [1:33:38<5:00:30,  2.06it/s] 23%|██▎       | 10901/48008 [1:33:38<5:03:43,  2.04it/s] 23%|██▎       | 10902/48008 [1:33:39<5:01:43,  2.05it/s] 23%|██▎       | 10903/48008 [1:33:39<5:36:53,  1.84it/s] 23%|██▎       | 10904/48008 [1:33:40<5:29:09,  1.88it/s] 23%|██▎       | 10905/48008 [1:33:40<5:24:28,  1.91it/s] 23%|██▎       | 10906/48008 [1:33:41<5:16:16,  1.96it/s] 23%|██▎       | 10907/48008 [1:33:41<5:11:11,  1.99it/s] 23%|██▎       | 10908/48008 [1:33:42<5:07:07,  2.01it/s] 23%|██▎       | 10909/48008 [1:33:42<5:09:45,  2.00it/s] 23%|██▎       | 10910/48008 [1:33:43<5:07:08,  2.01it/s] 23%|██▎       | 10911/48008 [1:33:43<5:04:00,  2.03it/s] 23%|██▎       | 10912/48008 [1:33:44<5:05:25,  2.02it/s] 23%|██▎       | 10913/48008 [1:33:44<5:07:34,  2.01it/s] 23%|██▎       | 10914/48008 [1:33:45<5:03:34,  2.04it/s] 23%|██▎       | 10915/48008 [1:33:45<5:05:54,  2.02it/s] 23%|██▎       | 10916/48008 [1:33:46<5:09:27,  2.00it/s] 23%|██▎       | 10917/48008 [1:33:46<4:54:03,  2.10it/s] 23%|██▎       | 10918/48008 [1:33:47<4:42:24,  2.19it/s] 23%|██▎       | 10919/48008 [1:33:47<4:47:34,  2.15it/s] 23%|██▎       | 10920/48008 [1:33:48<4:59:04,  2.07it/s] 23%|██▎       | 10921/48008 [1:33:48<4:58:45,  2.07it/s] 23%|██▎       | 10922/48008 [1:33:49<5:07:03,  2.01it/s] 23%|██▎       | 10923/48008 [1:33:49<5:04:45,  2.03it/s] 23%|██▎       | 10924/48008 [1:33:50<5:39:29,  1.82it/s] 23%|██▎       | 10925/48008 [1:33:50<5:27:43,  1.89it/s] 23%|██▎       | 10926/48008 [1:33:51<5:30:25,  1.87it/s] 23%|██▎       | 10927/48008 [1:33:51<5:08:40,  2.00it/s] 23%|██▎       | 10928/48008 [1:33:52<5:04:54,  2.03it/s] 23%|██▎       | 10929/48008 [1:33:52<5:38:53,  1.82it/s] 23%|██▎       | 10930/48008 [1:33:53<5:26:40,  1.89it/s] 23%|██▎       | 10931/48008 [1:33:53<5:23:30,  1.91it/s] 23%|██▎       | 10932/48008 [1:33:54<5:52:11,  1.75it/s] 23%|██▎       | 10933/48008 [1:33:55<5:40:24,  1.82it/s] 23%|██▎       | 10934/48008 [1:33:55<5:31:59,  1.86it/s] 23%|██▎       | 10935/48008 [1:33:56<5:22:26,  1.92it/s] 23%|██▎       | 10936/48008 [1:33:56<5:51:46,  1.76it/s] 23%|██▎       | 10937/48008 [1:33:57<5:40:12,  1.82it/s] 23%|██▎       | 10938/48008 [1:33:57<5:14:48,  1.96it/s] 23%|██▎       | 10939/48008 [1:33:58<5:14:30,  1.96it/s] 23%|██▎       | 10940/48008 [1:33:58<5:14:09,  1.97it/s] 23%|██▎       | 10941/48008 [1:33:59<5:14:21,  1.97it/s] 23%|██▎       | 10942/48008 [1:33:59<5:17:27,  1.95it/s] 23%|██▎       | 10943/48008 [1:34:00<4:59:27,  2.06it/s] 23%|██▎       | 10944/48008 [1:34:00<5:03:26,  2.04it/s] 23%|██▎       | 10945/48008 [1:34:01<5:02:23,  2.04it/s] 23%|██▎       | 10946/48008 [1:34:01<4:49:44,  2.13it/s] 23%|██▎       | 10947/48008 [1:34:01<4:52:34,  2.11it/s] 23%|██▎       | 10948/48008 [1:34:02<4:53:04,  2.11it/s] 23%|██▎       | 10949/48008 [1:34:02<4:54:12,  2.10it/s] 23%|██▎       | 10950/48008 [1:34:03<4:56:00,  2.09it/s]                                                         {'loss': 4.3122, 'grad_norm': 0.2678823471069336, 'learning_rate': 0.0001543867688718547, 'epoch': 0.23}
 23%|██▎       | 10950/48008 [1:34:03<4:56:00,  2.09it/s] 23%|██▎       | 10951/48008 [1:34:03<4:45:12,  2.17it/s] 23%|██▎       | 10952/48008 [1:34:04<4:37:27,  2.23it/s] 23%|██▎       | 10953/48008 [1:34:04<4:48:20,  2.14it/s] 23%|██▎       | 10954/48008 [1:34:05<4:51:36,  2.12it/s] 23%|██▎       | 10955/48008 [1:34:05<4:57:28,  2.08it/s] 23%|██▎       | 10956/48008 [1:34:06<4:56:34,  2.08it/s] 23%|██▎       | 10957/48008 [1:34:07<7:21:05,  1.40it/s] 23%|██▎       | 10958/48008 [1:34:07<6:26:39,  1.60it/s] 23%|██▎       | 10959/48008 [1:34:08<6:03:37,  1.70it/s] 23%|██▎       | 10960/48008 [1:34:08<5:43:45,  1.80it/s] 23%|██▎       | 10961/48008 [1:34:09<5:38:48,  1.82it/s] 23%|██▎       | 10962/48008 [1:34:09<5:27:04,  1.89it/s] 23%|██▎       | 10963/48008 [1:34:10<5:19:03,  1.94it/s] 23%|██▎       | 10964/48008 [1:34:10<5:00:48,  2.05it/s] 23%|██▎       | 10965/48008 [1:34:11<4:48:27,  2.14it/s] 23%|██▎       | 10966/48008 [1:34:11<4:39:24,  2.21it/s] 23%|██▎       | 10967/48008 [1:34:12<4:44:59,  2.17it/s] 23%|██▎       | 10968/48008 [1:34:12<4:48:35,  2.14it/s] 23%|██▎       | 10969/48008 [1:34:13<4:39:14,  2.21it/s] 23%|██▎       | 10970/48008 [1:34:13<4:32:39,  2.26it/s] 23%|██▎       | 10971/48008 [1:34:13<4:44:32,  2.17it/s] 23%|██▎       | 10972/48008 [1:34:14<4:48:33,  2.14it/s] 23%|██▎       | 10973/48008 [1:34:14<4:51:44,  2.12it/s] 23%|██▎       | 10974/48008 [1:34:15<4:41:00,  2.20it/s] 23%|██▎       | 10975/48008 [1:34:16<5:22:10,  1.92it/s] 23%|██▎       | 10976/48008 [1:34:16<6:28:35,  1.59it/s] 23%|██▎       | 10977/48008 [1:34:17<6:04:21,  1.69it/s] 23%|██▎       | 10978/48008 [1:34:17<5:54:34,  1.74it/s] 23%|██▎       | 10979/48008 [1:34:18<5:37:20,  1.83it/s] 23%|██▎       | 10980/48008 [1:34:18<5:32:55,  1.85it/s] 23%|██▎       | 10981/48008 [1:34:19<5:21:58,  1.92it/s] 23%|██▎       | 10982/48008 [1:34:19<5:14:04,  1.96it/s] 23%|██▎       | 10983/48008 [1:34:20<5:16:48,  1.95it/s] 23%|██▎       | 10984/48008 [1:34:20<5:10:46,  1.99it/s] 23%|██▎       | 10985/48008 [1:34:21<5:06:41,  2.01it/s] 23%|██▎       | 10986/48008 [1:34:21<4:52:21,  2.11it/s] 23%|██▎       | 10987/48008 [1:34:22<4:54:37,  2.09it/s] 23%|██▎       | 10988/48008 [1:34:22<5:31:03,  1.86it/s] 23%|██▎       | 10989/48008 [1:34:23<5:08:46,  2.00it/s] 23%|██▎       | 10990/48008 [1:34:24<5:42:28,  1.80it/s] 23%|██▎       | 10991/48008 [1:34:24<5:16:22,  1.95it/s] 23%|██▎       | 10992/48008 [1:34:24<5:09:59,  1.99it/s] 23%|██▎       | 10993/48008 [1:34:25<5:05:28,  2.02it/s] 23%|██▎       | 10994/48008 [1:34:25<5:03:10,  2.03it/s] 23%|██▎       | 10995/48008 [1:34:26<5:13:12,  1.97it/s] 23%|██▎       | 10996/48008 [1:34:26<5:12:17,  1.98it/s] 23%|██▎       | 10997/48008 [1:34:27<5:06:44,  2.01it/s] 23%|██▎       | 10998/48008 [1:34:27<5:03:53,  2.03it/s] 23%|██▎       | 10999/48008 [1:34:28<5:01:13,  2.05it/s] 23%|██▎       | 11000/48008 [1:34:28<5:00:46,  2.05it/s]                                                         {'loss': 4.2452, 'grad_norm': 0.2957708239555359, 'learning_rate': 0.00015417847025495752, 'epoch': 0.23}
 23%|██▎       | 11000/48008 [1:34:28<5:00:46,  2.05it/s] 23%|██▎       | 11001/48008 [1:34:29<4:59:52,  2.06it/s] 23%|██▎       | 11002/48008 [1:34:29<5:02:58,  2.04it/s] 23%|██▎       | 11003/48008 [1:34:30<5:05:39,  2.02it/s] 23%|██▎       | 11004/48008 [1:34:30<5:03:26,  2.03it/s] 23%|██▎       | 11005/48008 [1:34:31<5:01:42,  2.04it/s] 23%|██▎       | 11006/48008 [1:34:31<5:00:01,  2.06it/s] 23%|██▎       | 11007/48008 [1:34:32<5:02:50,  2.04it/s] 23%|██▎       | 11008/48008 [1:34:32<5:01:28,  2.05it/s] 23%|██▎       | 11009/48008 [1:34:33<4:48:07,  2.14it/s] 23%|██▎       | 11010/48008 [1:34:33<4:38:09,  2.22it/s] 23%|██▎       | 11011/48008 [1:34:34<4:44:39,  2.17it/s] 23%|██▎       | 11012/48008 [1:34:34<4:47:46,  2.14it/s] 23%|██▎       | 11013/48008 [1:34:35<5:02:27,  2.04it/s] 23%|██▎       | 11014/48008 [1:34:36<6:14:22,  1.65it/s] 23%|██▎       | 11015/48008 [1:34:36<5:51:36,  1.75it/s] 23%|██▎       | 11016/48008 [1:34:37<5:42:05,  1.80it/s] 23%|██▎       | 11017/48008 [1:34:37<5:32:39,  1.85it/s] 23%|██▎       | 11018/48008 [1:34:38<5:25:04,  1.90it/s] 23%|██▎       | 11019/48008 [1:34:38<5:16:02,  1.95it/s] 23%|██▎       | 11020/48008 [1:34:39<5:21:15,  1.92it/s] 23%|██▎       | 11021/48008 [1:34:39<5:13:34,  1.97it/s] 23%|██▎       | 11022/48008 [1:34:40<5:08:28,  2.00it/s] 23%|██▎       | 11023/48008 [1:34:40<5:05:47,  2.02it/s] 23%|██▎       | 11024/48008 [1:34:40<4:50:48,  2.12it/s] 23%|██▎       | 11025/48008 [1:34:41<4:57:36,  2.07it/s] 23%|██▎       | 11026/48008 [1:34:41<4:57:36,  2.07it/s] 23%|██▎       | 11027/48008 [1:34:42<4:57:12,  2.07it/s] 23%|██▎       | 11028/48008 [1:34:42<4:44:57,  2.16it/s] 23%|██▎       | 11029/48008 [1:34:43<6:01:28,  1.71it/s] 23%|██▎       | 11030/48008 [1:34:44<5:29:23,  1.87it/s] 23%|██▎       | 11031/48008 [1:34:44<5:19:59,  1.93it/s] 23%|██▎       | 11032/48008 [1:34:45<5:17:42,  1.94it/s] 23%|██▎       | 11033/48008 [1:34:45<6:26:08,  1.60it/s] 23%|██▎       | 11034/48008 [1:34:46<6:03:31,  1.70it/s] 23%|██▎       | 11035/48008 [1:34:47<6:19:53,  1.62it/s] 23%|██▎       | 11036/48008 [1:34:47<5:42:44,  1.80it/s] 23%|██▎       | 11037/48008 [1:34:48<5:35:29,  1.84it/s] 23%|██▎       | 11038/48008 [1:34:48<5:31:42,  1.86it/s] 23%|██▎       | 11039/48008 [1:34:49<5:20:05,  1.92it/s] 23%|██▎       | 11040/48008 [1:34:49<5:17:38,  1.94it/s] 23%|██▎       | 11041/48008 [1:34:50<5:16:15,  1.95it/s] 23%|██▎       | 11042/48008 [1:34:50<5:15:40,  1.95it/s] 23%|██▎       | 11043/48008 [1:34:51<5:17:06,  1.94it/s] 23%|██▎       | 11044/48008 [1:34:51<5:15:39,  1.95it/s] 23%|██▎       | 11045/48008 [1:34:52<4:57:57,  2.07it/s] 23%|██▎       | 11046/48008 [1:34:52<5:01:07,  2.05it/s] 23%|██▎       | 11047/48008 [1:34:53<4:59:51,  2.05it/s] 23%|██▎       | 11048/48008 [1:34:53<4:46:43,  2.15it/s] 23%|██▎       | 11049/48008 [1:34:53<4:50:42,  2.12it/s] 23%|██▎       | 11050/48008 [1:34:54<4:53:19,  2.10it/s]                                                         {'loss': 4.255, 'grad_norm': 0.19604870676994324, 'learning_rate': 0.00015397017163806034, 'epoch': 0.23}
 23%|██▎       | 11050/48008 [1:34:54<4:53:19,  2.10it/s] 23%|██▎       | 11051/48008 [1:34:54<4:58:29,  2.06it/s] 23%|██▎       | 11052/48008 [1:34:55<4:58:56,  2.06it/s] 23%|██▎       | 11053/48008 [1:34:55<4:46:31,  2.15it/s] 23%|██▎       | 11054/48008 [1:34:56<4:37:23,  2.22it/s] 23%|██▎       | 11055/48008 [1:34:56<5:18:03,  1.94it/s] 23%|██▎       | 11056/48008 [1:34:57<4:59:38,  2.06it/s] 23%|██▎       | 11057/48008 [1:34:58<6:12:11,  1.65it/s] 23%|██▎       | 11058/48008 [1:34:58<5:52:53,  1.75it/s] 23%|██▎       | 11059/48008 [1:34:59<5:23:46,  1.90it/s] 23%|██▎       | 11060/48008 [1:34:59<5:04:15,  2.02it/s] 23%|██▎       | 11061/48008 [1:35:00<5:02:09,  2.04it/s] 23%|██▎       | 11062/48008 [1:35:00<5:04:25,  2.02it/s] 23%|██▎       | 11063/48008 [1:35:01<5:36:54,  1.83it/s] 23%|██▎       | 11064/48008 [1:35:01<5:24:11,  1.90it/s] 23%|██▎       | 11065/48008 [1:35:02<5:15:47,  1.95it/s] 23%|██▎       | 11066/48008 [1:35:02<5:09:47,  1.99it/s] 23%|██▎       | 11067/48008 [1:35:03<5:05:52,  2.01it/s] 23%|██▎       | 11068/48008 [1:35:03<5:06:47,  2.01it/s] 23%|██▎       | 11069/48008 [1:35:04<5:10:41,  1.98it/s] 23%|██▎       | 11070/48008 [1:35:04<4:54:33,  2.09it/s] 23%|██▎       | 11071/48008 [1:35:04<4:43:20,  2.17it/s] 23%|██▎       | 11072/48008 [1:35:05<4:47:35,  2.14it/s] 23%|██▎       | 11073/48008 [1:35:05<4:38:49,  2.21it/s] 23%|██▎       | 11074/48008 [1:35:06<4:47:56,  2.14it/s] 23%|██▎       | 11075/48008 [1:35:06<4:51:03,  2.11it/s] 23%|██▎       | 11076/48008 [1:35:07<4:59:47,  2.05it/s] 23%|██▎       | 11077/48008 [1:35:07<4:58:28,  2.06it/s] 23%|██▎       | 11078/48008 [1:35:08<5:04:44,  2.02it/s] 23%|██▎       | 11079/48008 [1:35:09<7:24:29,  1.38it/s] 23%|██▎       | 11080/48008 [1:35:10<6:41:07,  1.53it/s] 23%|██▎       | 11081/48008 [1:35:10<6:45:11,  1.52it/s] 23%|██▎       | 11082/48008 [1:35:11<6:13:43,  1.65it/s] 23%|██▎       | 11083/48008 [1:35:11<5:50:27,  1.76it/s] 23%|██▎       | 11084/48008 [1:35:12<5:39:29,  1.81it/s] 23%|██▎       | 11085/48008 [1:35:12<5:26:38,  1.88it/s] 23%|██▎       | 11086/48008 [1:35:13<5:18:02,  1.93it/s] 23%|██▎       | 11087/48008 [1:35:14<7:32:51,  1.36it/s] 23%|██▎       | 11088/48008 [1:35:15<6:52:31,  1.49it/s] 23%|██▎       | 11089/48008 [1:35:15<6:17:21,  1.63it/s] 23%|██▎       | 11090/48008 [1:35:16<5:57:24,  1.72it/s] 23%|██▎       | 11091/48008 [1:35:16<5:44:13,  1.79it/s] 23%|██▎       | 11092/48008 [1:35:17<5:34:14,  1.84it/s] 23%|██▎       | 11093/48008 [1:35:17<5:58:39,  1.72it/s] 23%|██▎       | 11094/48008 [1:35:18<5:43:39,  1.79it/s] 23%|██▎       | 11095/48008 [1:35:18<5:41:32,  1.80it/s] 23%|██▎       | 11096/48008 [1:35:19<5:27:42,  1.88it/s] 23%|██▎       | 11097/48008 [1:35:19<5:24:50,  1.89it/s] 23%|██▎       | 11098/48008 [1:35:20<5:15:59,  1.95it/s] 23%|██▎       | 11099/48008 [1:35:20<5:09:23,  1.99it/s] 23%|██▎       | 11100/48008 [1:35:21<5:40:10,  1.81it/s]                                                         {'loss': 4.2677, 'grad_norm': 0.2669152021408081, 'learning_rate': 0.00015376187302116313, 'epoch': 0.23}
 23%|██▎       | 11100/48008 [1:35:21<5:40:10,  1.81it/s] 23%|██▎       | 11101/48008 [1:35:21<5:33:59,  1.84it/s] 23%|██▎       | 11102/48008 [1:35:22<5:32:10,  1.85it/s] 23%|██▎       | 11103/48008 [1:35:22<5:20:20,  1.92it/s] 23%|██▎       | 11104/48008 [1:35:23<5:12:44,  1.97it/s] 23%|██▎       | 11105/48008 [1:35:23<4:56:36,  2.07it/s] 23%|██▎       | 11106/48008 [1:35:24<5:00:18,  2.05it/s] 23%|██▎       | 11107/48008 [1:35:24<4:59:03,  2.06it/s] 23%|██▎       | 11108/48008 [1:35:26<7:21:45,  1.39it/s] 23%|██▎       | 11109/48008 [1:35:27<8:59:50,  1.14it/s] 23%|██▎       | 11110/48008 [1:35:27<7:46:27,  1.32it/s] 23%|██▎       | 11111/48008 [1:35:28<6:55:09,  1.48it/s] 23%|██▎       | 11112/48008 [1:35:28<6:19:33,  1.62it/s] 23%|██▎       | 11113/48008 [1:35:29<5:42:19,  1.80it/s] 23%|██▎       | 11114/48008 [1:35:29<5:33:23,  1.84it/s] 23%|██▎       | 11115/48008 [1:35:30<5:29:31,  1.87it/s] 23%|██▎       | 11116/48008 [1:35:30<5:06:53,  2.00it/s] 23%|██▎       | 11117/48008 [1:35:31<5:03:27,  2.03it/s] 23%|██▎       | 11118/48008 [1:35:31<5:36:59,  1.82it/s] 23%|██▎       | 11119/48008 [1:35:32<5:24:48,  1.89it/s] 23%|██▎       | 11120/48008 [1:35:32<5:23:50,  1.90it/s] 23%|██▎       | 11121/48008 [1:35:33<5:19:42,  1.92it/s] 23%|██▎       | 11122/48008 [1:35:33<5:15:53,  1.95it/s] 23%|██▎       | 11123/48008 [1:35:34<5:13:58,  1.96it/s] 23%|██▎       | 11124/48008 [1:35:34<5:13:16,  1.96it/s] 23%|██▎       | 11125/48008 [1:35:35<4:55:36,  2.08it/s] 23%|██▎       | 11126/48008 [1:35:35<4:56:53,  2.07it/s] 23%|██▎       | 11127/48008 [1:35:36<4:56:23,  2.07it/s] 23%|██▎       | 11128/48008 [1:35:36<5:03:01,  2.03it/s] 23%|██▎       | 11129/48008 [1:35:37<5:01:08,  2.04it/s] 23%|██▎       | 11130/48008 [1:35:37<5:03:41,  2.02it/s] 23%|██▎       | 11131/48008 [1:35:38<5:04:27,  2.02it/s] 23%|██▎       | 11132/48008 [1:35:38<5:02:31,  2.03it/s] 23%|██▎       | 11133/48008 [1:35:39<4:48:11,  2.13it/s] 23%|██▎       | 11134/48008 [1:35:39<4:54:42,  2.09it/s] 23%|██▎       | 11135/48008 [1:35:39<4:42:27,  2.18it/s] 23%|██▎       | 11136/48008 [1:35:40<4:45:44,  2.15it/s] 23%|██▎       | 11137/48008 [1:35:40<4:48:32,  2.13it/s] 23%|██▎       | 11138/48008 [1:35:41<5:02:14,  2.03it/s] 23%|██▎       | 11139/48008 [1:35:41<5:03:47,  2.02it/s] 23%|██▎       | 11140/48008 [1:35:42<5:06:12,  2.01it/s] 23%|██▎       | 11141/48008 [1:35:43<5:13:10,  1.96it/s] 23%|██▎       | 11142/48008 [1:35:43<5:43:35,  1.79it/s] 23%|██▎       | 11143/48008 [1:35:44<5:17:25,  1.94it/s] 23%|██▎       | 11144/48008 [1:35:44<5:10:32,  1.98it/s] 23%|██▎       | 11145/48008 [1:35:45<5:09:27,  1.99it/s] 23%|██▎       | 11146/48008 [1:35:45<5:05:46,  2.01it/s] 23%|██▎       | 11147/48008 [1:35:46<6:16:25,  1.63it/s] 23%|██▎       | 11148/48008 [1:35:46<6:03:18,  1.69it/s] 23%|██▎       | 11149/48008 [1:35:47<5:48:20,  1.76it/s] 23%|██▎       | 11150/48008 [1:35:47<5:33:22,  1.84it/s]                                                         {'loss': 4.2923, 'grad_norm': 0.15506283938884735, 'learning_rate': 0.00015355357440426597, 'epoch': 0.23} 23%|██▎       | 11150/48008 [1:35:47<5:33:22,  1.84it/s]
 23%|██▎       | 11151/48008 [1:35:48<5:26:45,  1.88it/s] 23%|██▎       | 11152/48008 [1:35:49<5:24:03,  1.90it/s] 23%|██▎       | 11153/48008 [1:35:49<5:03:06,  2.03it/s] 23%|██▎       | 11154/48008 [1:35:49<4:49:06,  2.12it/s] 23%|██▎       | 11155/48008 [1:35:50<4:51:14,  2.11it/s] 23%|██▎       | 11156/48008 [1:35:50<4:56:27,  2.07it/s] 23%|██▎       | 11157/48008 [1:35:51<4:55:27,  2.08it/s] 23%|██▎       | 11158/48008 [1:35:51<4:43:54,  2.16it/s] 23%|██▎       | 11159/48008 [1:35:52<4:51:21,  2.11it/s] 23%|██▎       | 11160/48008 [1:35:52<4:59:15,  2.05it/s] 23%|██▎       | 11161/48008 [1:35:53<4:45:45,  2.15it/s] 23%|██▎       | 11162/48008 [1:35:53<4:36:22,  2.22it/s] 23%|██▎       | 11163/48008 [1:35:54<4:41:40,  2.18it/s] 23%|██▎       | 11164/48008 [1:35:54<4:49:59,  2.12it/s] 23%|██▎       | 11165/48008 [1:35:55<4:58:33,  2.06it/s] 23%|██▎       | 11166/48008 [1:35:55<6:11:21,  1.65it/s] 23%|██▎       | 11167/48008 [1:35:56<5:48:38,  1.76it/s] 23%|██▎       | 11168/48008 [1:35:56<5:37:09,  1.82it/s] 23%|██▎       | 11169/48008 [1:35:57<6:36:47,  1.55it/s] 23%|██▎       | 11170/48008 [1:35:58<6:07:37,  1.67it/s] 23%|██▎       | 11171/48008 [1:35:58<5:33:14,  1.84it/s] 23%|██▎       | 11172/48008 [1:35:59<5:26:16,  1.88it/s] 23%|██▎       | 11173/48008 [1:35:59<5:22:22,  1.90it/s] 23%|██▎       | 11174/48008 [1:36:00<5:14:18,  1.95it/s] 23%|██▎       | 11175/48008 [1:36:00<5:09:29,  1.98it/s] 23%|██▎       | 11176/48008 [1:36:01<5:05:14,  2.01it/s] 23%|██▎       | 11177/48008 [1:36:01<5:09:14,  1.99it/s] 23%|██▎       | 11178/48008 [1:36:02<5:09:30,  1.98it/s] 23%|██▎       | 11179/48008 [1:36:02<5:05:20,  2.01it/s] 23%|██▎       | 11180/48008 [1:36:03<5:13:19,  1.96it/s] 23%|██▎       | 11181/48008 [1:36:03<5:14:37,  1.95it/s] 23%|██▎       | 11182/48008 [1:36:04<4:56:58,  2.07it/s] 23%|██▎       | 11183/48008 [1:36:05<6:09:02,  1.66it/s] 23%|██▎       | 11184/48008 [1:36:05<5:50:57,  1.75it/s] 23%|██▎       | 11185/48008 [1:36:05<5:22:13,  1.90it/s] 23%|██▎       | 11186/48008 [1:36:06<5:21:13,  1.91it/s] 23%|██▎       | 11187/48008 [1:36:06<5:19:22,  1.92it/s] 23%|██▎       | 11188/48008 [1:36:07<5:10:59,  1.97it/s] 23%|██▎       | 11189/48008 [1:36:07<5:06:20,  2.00it/s] 23%|██▎       | 11190/48008 [1:36:08<5:02:19,  2.03it/s] 23%|██▎       | 11191/48008 [1:36:08<4:47:18,  2.14it/s] 23%|██▎       | 11192/48008 [1:36:09<5:00:50,  2.04it/s] 23%|██▎       | 11193/48008 [1:36:10<5:35:16,  1.83it/s] 23%|██▎       | 11194/48008 [1:36:10<5:22:40,  1.90it/s] 23%|██▎       | 11195/48008 [1:36:11<5:20:31,  1.91it/s] 23%|██▎       | 11196/48008 [1:36:11<5:12:42,  1.96it/s] 23%|██▎       | 11197/48008 [1:36:12<5:07:25,  2.00it/s] 23%|██▎       | 11198/48008 [1:36:12<5:07:45,  1.99it/s] 23%|██▎       | 11199/48008 [1:36:13<5:15:03,  1.95it/s] 23%|██▎       | 11200/48008 [1:36:13<4:57:09,  2.06it/s]                                                         {'loss': 4.299, 'grad_norm': 0.1708981990814209, 'learning_rate': 0.00015334527578736876, 'epoch': 0.23} 23%|██▎       | 11200/48008 [1:36:13<4:57:09,  2.06it/s]
 23%|██▎       | 11201/48008 [1:36:13<4:56:23,  2.07it/s] 23%|██▎       | 11202/48008 [1:36:14<5:00:39,  2.04it/s] 23%|██▎       | 11203/48008 [1:36:14<4:46:31,  2.14it/s] 23%|██▎       | 11204/48008 [1:36:15<4:48:36,  2.13it/s] 23%|██▎       | 11205/48008 [1:36:15<4:49:49,  2.12it/s] 23%|██▎       | 11206/48008 [1:36:16<5:26:53,  1.88it/s] 23%|██▎       | 11207/48008 [1:36:17<5:21:47,  1.91it/s] 23%|██▎       | 11208/48008 [1:36:17<5:20:47,  1.91it/s] 23%|██▎       | 11209/48008 [1:36:18<5:17:47,  1.93it/s] 23%|██▎       | 11210/48008 [1:36:18<5:15:23,  1.94it/s] 23%|██▎       | 11211/48008 [1:36:19<5:08:10,  1.99it/s] 23%|██▎       | 11212/48008 [1:36:19<5:03:10,  2.02it/s] 23%|██▎       | 11213/48008 [1:36:19<5:00:42,  2.04it/s] 23%|██▎       | 11214/48008 [1:36:20<4:58:26,  2.05it/s] 23%|██▎       | 11215/48008 [1:36:20<5:04:12,  2.02it/s] 23%|██▎       | 11216/48008 [1:36:21<5:37:45,  1.82it/s] 23%|██▎       | 11217/48008 [1:36:22<5:32:17,  1.85it/s] 23%|██▎       | 11218/48008 [1:36:22<5:25:57,  1.88it/s] 23%|██▎       | 11219/48008 [1:36:23<5:23:41,  1.89it/s] 23%|██▎       | 11220/48008 [1:36:23<5:15:08,  1.95it/s] 23%|██▎       | 11221/48008 [1:36:24<5:08:56,  1.98it/s] 23%|██▎       | 11222/48008 [1:36:24<5:11:17,  1.97it/s] 23%|██▎       | 11223/48008 [1:36:25<5:05:19,  2.01it/s] 23%|██▎       | 11224/48008 [1:36:25<5:01:25,  2.03it/s] 23%|██▎       | 11225/48008 [1:36:26<5:06:33,  2.00it/s] 23%|██▎       | 11226/48008 [1:36:26<5:02:08,  2.03it/s] 23%|██▎       | 11227/48008 [1:36:27<5:35:27,  1.83it/s] 23%|██▎       | 11228/48008 [1:36:27<5:29:46,  1.86it/s] 23%|██▎       | 11229/48008 [1:36:28<5:26:34,  1.88it/s] 23%|██▎       | 11230/48008 [1:36:28<5:16:52,  1.93it/s] 23%|██▎       | 11231/48008 [1:36:29<4:58:09,  2.06it/s] 23%|██▎       | 11232/48008 [1:36:29<5:08:00,  1.99it/s] 23%|██▎       | 11233/48008 [1:36:30<5:03:39,  2.02it/s] 23%|██▎       | 11234/48008 [1:36:30<5:00:34,  2.04it/s] 23%|██▎       | 11235/48008 [1:36:31<4:58:17,  2.05it/s] 23%|██▎       | 11236/48008 [1:36:31<5:07:46,  1.99it/s] 23%|██▎       | 11237/48008 [1:36:32<5:07:16,  1.99it/s] 23%|██▎       | 11238/48008 [1:36:32<5:03:44,  2.02it/s] 23%|██▎       | 11239/48008 [1:36:33<5:05:30,  2.01it/s] 23%|██▎       | 11240/48008 [1:36:33<5:01:58,  2.03it/s] 23%|██▎       | 11241/48008 [1:36:34<4:59:15,  2.05it/s] 23%|██▎       | 11242/48008 [1:36:34<5:05:59,  2.00it/s] 23%|██▎       | 11243/48008 [1:36:35<5:03:12,  2.02it/s] 23%|██▎       | 11244/48008 [1:36:35<4:48:52,  2.12it/s] 23%|██▎       | 11245/48008 [1:36:36<4:50:20,  2.11it/s] 23%|██▎       | 11246/48008 [1:36:36<4:58:41,  2.05it/s] 23%|██▎       | 11247/48008 [1:36:37<5:04:15,  2.01it/s] 23%|██▎       | 11248/48008 [1:36:37<5:01:34,  2.03it/s] 23%|██▎       | 11249/48008 [1:36:38<4:47:46,  2.13it/s] 23%|██▎       | 11250/48008 [1:36:38<4:49:54,  2.11it/s]                                                         {'loss': 4.3078, 'grad_norm': 0.15332338213920593, 'learning_rate': 0.0001531369771704716, 'epoch': 0.23}
 23%|██▎       | 11250/48008 [1:36:38<4:49:54,  2.11it/s] 23%|██▎       | 11251/48008 [1:36:38<4:39:42,  2.19it/s] 23%|██▎       | 11252/48008 [1:36:39<4:48:08,  2.13it/s] 23%|██▎       | 11253/48008 [1:36:39<4:37:40,  2.21it/s] 23%|██▎       | 11254/48008 [1:36:40<4:46:18,  2.14it/s] 23%|██▎       | 11255/48008 [1:36:40<4:36:41,  2.21it/s] 23%|██▎       | 11256/48008 [1:36:41<4:30:16,  2.27it/s] 23%|██▎       | 11257/48008 [1:36:41<4:37:39,  2.21it/s] 23%|██▎       | 11258/48008 [1:36:42<4:31:14,  2.26it/s] 23%|██▎       | 11259/48008 [1:36:42<4:26:13,  2.30it/s] 23%|██▎       | 11260/48008 [1:36:42<4:34:48,  2.23it/s] 23%|██▎       | 11261/48008 [1:36:43<4:39:59,  2.19it/s] 23%|██▎       | 11262/48008 [1:36:43<4:32:27,  2.25it/s] 23%|██▎       | 11263/48008 [1:36:44<5:15:00,  1.94it/s] 23%|██▎       | 11264/48008 [1:36:45<5:08:48,  1.98it/s] 23%|██▎       | 11265/48008 [1:36:45<5:04:44,  2.01it/s] 23%|██▎       | 11266/48008 [1:36:45<5:01:33,  2.03it/s] 23%|██▎       | 11267/48008 [1:36:46<5:00:11,  2.04it/s] 23%|██▎       | 11268/48008 [1:36:46<5:02:55,  2.02it/s] 23%|██▎       | 11269/48008 [1:36:47<5:04:49,  2.01it/s] 23%|██▎       | 11270/48008 [1:36:47<5:05:30,  2.00it/s] 23%|██▎       | 11271/48008 [1:36:48<5:01:38,  2.03it/s] 23%|██▎       | 11272/48008 [1:36:48<4:58:34,  2.05it/s] 23%|██▎       | 11273/48008 [1:36:49<4:56:50,  2.06it/s] 23%|██▎       | 11274/48008 [1:36:49<4:37:27,  2.21it/s] 23%|██▎       | 11275/48008 [1:36:50<4:43:18,  2.16it/s] 23%|██▎       | 11276/48008 [1:36:50<4:50:34,  2.11it/s] 23%|██▎       | 11277/48008 [1:36:51<4:51:32,  2.10it/s] 23%|██▎       | 11278/48008 [1:36:51<4:59:18,  2.05it/s] 23%|██▎       | 11279/48008 [1:36:52<5:08:13,  1.99it/s] 23%|██▎       | 11280/48008 [1:36:52<5:11:03,  1.97it/s] 23%|██▎       | 11281/48008 [1:36:53<5:10:29,  1.97it/s] 24%|██▎       | 11282/48008 [1:36:53<5:09:35,  1.98it/s] 24%|██▎       | 11283/48008 [1:36:54<5:11:57,  1.96it/s] 24%|██▎       | 11284/48008 [1:36:54<5:06:27,  2.00it/s] 24%|██▎       | 11285/48008 [1:36:55<5:03:10,  2.02it/s] 24%|██▎       | 11286/48008 [1:36:55<5:00:52,  2.03it/s] 24%|██▎       | 11287/48008 [1:36:56<5:06:29,  2.00it/s] 24%|██▎       | 11288/48008 [1:36:56<5:02:18,  2.02it/s] 24%|██▎       | 11289/48008 [1:36:57<5:03:16,  2.02it/s] 24%|██▎       | 11290/48008 [1:36:57<5:07:15,  1.99it/s] 24%|██▎       | 11291/48008 [1:36:58<5:03:34,  2.02it/s] 24%|██▎       | 11292/48008 [1:36:58<5:00:17,  2.04it/s] 24%|██▎       | 11293/48008 [1:36:59<5:05:13,  2.00it/s] 24%|██▎       | 11294/48008 [1:36:59<5:05:19,  2.00it/s] 24%|██▎       | 11295/48008 [1:37:00<4:49:10,  2.12it/s] 24%|██▎       | 11296/48008 [1:37:00<4:50:09,  2.11it/s] 24%|██▎       | 11297/48008 [1:37:01<4:50:24,  2.11it/s] 24%|██▎       | 11298/48008 [1:37:01<4:51:27,  2.10it/s] 24%|██▎       | 11299/48008 [1:37:02<4:51:28,  2.10it/s] 24%|██▎       | 11300/48008 [1:37:02<4:51:40,  2.10it/s]                                                         {'loss': 4.2574, 'grad_norm': 0.20439113676548004, 'learning_rate': 0.00015292867855357442, 'epoch': 0.24}
 24%|██▎       | 11300/48008 [1:37:02<4:51:40,  2.10it/s] 24%|██▎       | 11301/48008 [1:37:03<4:40:26,  2.18it/s] 24%|██▎       | 11302/48008 [1:37:03<4:45:17,  2.14it/s] 24%|██▎       | 11303/48008 [1:37:03<4:47:56,  2.12it/s] 24%|██▎       | 11304/48008 [1:37:04<4:37:41,  2.20it/s] 24%|██▎       | 11305/48008 [1:37:04<4:46:37,  2.13it/s] 24%|██▎       | 11306/48008 [1:37:05<4:52:37,  2.09it/s] 24%|██▎       | 11307/48008 [1:37:05<4:52:27,  2.09it/s] 24%|██▎       | 11308/48008 [1:37:06<4:53:08,  2.09it/s] 24%|██▎       | 11309/48008 [1:37:06<4:53:38,  2.08it/s] 24%|██▎       | 11310/48008 [1:37:07<4:53:50,  2.08it/s] 24%|██▎       | 11311/48008 [1:37:07<4:53:56,  2.08it/s] 24%|██▎       | 11312/48008 [1:37:08<4:53:12,  2.09it/s] 24%|██▎       | 11313/48008 [1:37:08<4:53:07,  2.09it/s] 24%|██▎       | 11314/48008 [1:37:09<6:05:13,  1.67it/s] 24%|██▎       | 11315/48008 [1:37:10<5:43:16,  1.78it/s] 24%|██▎       | 11316/48008 [1:37:10<5:28:43,  1.86it/s] 24%|██▎       | 11317/48008 [1:37:11<5:17:44,  1.92it/s] 24%|██▎       | 11318/48008 [1:37:11<5:10:33,  1.97it/s] 24%|██▎       | 11319/48008 [1:37:12<5:06:12,  2.00it/s] 24%|██▎       | 11320/48008 [1:37:12<5:02:22,  2.02it/s] 24%|██▎       | 11321/48008 [1:37:12<5:00:04,  2.04it/s] 24%|██▎       | 11322/48008 [1:37:13<4:58:21,  2.05it/s] 24%|██▎       | 11323/48008 [1:37:13<4:57:15,  2.06it/s] 24%|██▎       | 11324/48008 [1:37:14<4:44:24,  2.15it/s] 24%|██▎       | 11325/48008 [1:37:14<4:34:57,  2.22it/s] 24%|██▎       | 11326/48008 [1:37:15<4:28:20,  2.28it/s] 24%|██▎       | 11327/48008 [1:37:15<4:35:39,  2.22it/s] 24%|██▎       | 11328/48008 [1:37:16<4:40:24,  2.18it/s] 24%|██▎       | 11329/48008 [1:37:16<4:50:58,  2.10it/s] 24%|██▎       | 11330/48008 [1:37:17<4:51:16,  2.10it/s] 24%|██▎       | 11331/48008 [1:37:17<4:39:49,  2.18it/s] 24%|██▎       | 11332/48008 [1:37:17<4:32:07,  2.25it/s] 24%|██▎       | 11333/48008 [1:37:18<4:42:43,  2.16it/s] 24%|██▎       | 11334/48008 [1:37:18<4:50:36,  2.10it/s] 24%|██▎       | 11335/48008 [1:37:19<4:51:23,  2.10it/s] 24%|██▎       | 11336/48008 [1:37:19<4:40:36,  2.18it/s] 24%|██▎       | 11337/48008 [1:37:20<4:43:59,  2.15it/s] 24%|██▎       | 11338/48008 [1:37:20<4:45:51,  2.14it/s] 24%|██▎       | 11339/48008 [1:37:21<4:47:30,  2.13it/s] 24%|██▎       | 11340/48008 [1:37:21<4:48:43,  2.12it/s] 24%|██▎       | 11341/48008 [1:37:22<4:38:18,  2.20it/s] 24%|██▎       | 11342/48008 [1:37:22<4:31:10,  2.25it/s] 24%|██▎       | 11343/48008 [1:37:23<4:41:20,  2.17it/s] 24%|██▎       | 11344/48008 [1:37:23<4:49:17,  2.11it/s] 24%|██▎       | 11345/48008 [1:37:24<5:00:32,  2.03it/s] 24%|██▎       | 11346/48008 [1:37:24<5:08:39,  1.98it/s] 24%|██▎       | 11347/48008 [1:37:25<5:38:51,  1.80it/s] 24%|██▎       | 11348/48008 [1:37:25<5:29:26,  1.85it/s] 24%|██▎       | 11349/48008 [1:37:26<5:54:06,  1.73it/s] 24%|██▎       | 11350/48008 [1:37:27<5:35:34,  1.82it/s]                                                         {'loss': 4.2881, 'grad_norm': 0.2670052945613861, 'learning_rate': 0.00015272037993667721, 'epoch': 0.24}
 24%|██▎       | 11350/48008 [1:37:27<5:35:34,  1.82it/s] 24%|██▎       | 11351/48008 [1:37:27<5:22:50,  1.89it/s] 24%|██▎       | 11352/48008 [1:37:27<5:14:48,  1.94it/s] 24%|██▎       | 11353/48008 [1:37:28<4:56:10,  2.06it/s] 24%|██▎       | 11354/48008 [1:37:28<4:55:02,  2.07it/s] 24%|██▎       | 11355/48008 [1:37:29<5:05:48,  2.00it/s] 24%|██▎       | 11356/48008 [1:37:29<5:01:12,  2.03it/s] 24%|██▎       | 11357/48008 [1:37:30<4:58:50,  2.04it/s] 24%|██▎       | 11358/48008 [1:37:30<5:01:52,  2.02it/s] 24%|██▎       | 11359/48008 [1:37:31<5:05:57,  2.00it/s] 24%|██▎       | 11360/48008 [1:37:31<5:02:27,  2.02it/s] 24%|██▎       | 11361/48008 [1:37:32<5:03:51,  2.01it/s] 24%|██▎       | 11362/48008 [1:37:32<5:07:31,  1.99it/s] 24%|██▎       | 11363/48008 [1:37:33<5:07:20,  1.99it/s] 24%|██▎       | 11364/48008 [1:37:33<5:02:09,  2.02it/s] 24%|██▎       | 11365/48008 [1:37:34<5:03:30,  2.01it/s] 24%|██▎       | 11366/48008 [1:37:35<5:35:12,  1.82it/s] 24%|██▎       | 11367/48008 [1:37:35<5:10:06,  1.97it/s] 24%|██▎       | 11368/48008 [1:37:35<5:09:37,  1.97it/s] 24%|██▎       | 11369/48008 [1:37:36<5:04:12,  2.01it/s] 24%|██▎       | 11370/48008 [1:37:36<4:49:11,  2.11it/s] 24%|██▎       | 11371/48008 [1:37:37<4:50:04,  2.11it/s] 24%|██▎       | 11372/48008 [1:37:37<4:50:03,  2.11it/s] 24%|██▎       | 11373/48008 [1:37:38<4:55:03,  2.07it/s] 24%|██▎       | 11374/48008 [1:37:38<4:41:41,  2.17it/s] 24%|██▎       | 11375/48008 [1:37:39<4:49:13,  2.11it/s] 24%|██▎       | 11376/48008 [1:37:39<4:49:57,  2.11it/s] 24%|██▎       | 11377/48008 [1:37:40<4:50:21,  2.10it/s] 24%|██▎       | 11378/48008 [1:37:40<5:25:57,  1.87it/s] 24%|██▎       | 11379/48008 [1:37:41<5:04:02,  2.01it/s] 24%|██▎       | 11380/48008 [1:37:41<5:11:33,  1.96it/s] 24%|██▎       | 11381/48008 [1:37:42<5:06:18,  1.99it/s] 24%|██▎       | 11382/48008 [1:37:43<7:48:29,  1.30it/s] 24%|██▎       | 11383/48008 [1:37:44<6:55:44,  1.47it/s] 24%|██▎       | 11384/48008 [1:37:44<6:29:11,  1.57it/s] 24%|██▎       | 11385/48008 [1:37:45<6:05:06,  1.67it/s] 24%|██▎       | 11386/48008 [1:37:45<5:31:33,  1.84it/s] 24%|██▎       | 11387/48008 [1:37:46<5:08:37,  1.98it/s] 24%|██▎       | 11388/48008 [1:37:47<7:40:37,  1.32it/s] 24%|██▎       | 11389/48008 [1:37:48<9:11:09,  1.11it/s] 24%|██▎       | 11390/48008 [1:37:49<8:28:35,  1.20it/s] 24%|██▎       | 11391/48008 [1:37:49<7:34:22,  1.34it/s] 24%|██▎       | 11392/48008 [1:37:50<6:45:52,  1.50it/s] 24%|██▎       | 11393/48008 [1:37:50<6:11:30,  1.64it/s] 24%|██▎       | 11394/48008 [1:37:51<7:37:45,  1.33it/s] 24%|██▎       | 11395/48008 [1:37:52<6:52:13,  1.48it/s] 24%|██▎       | 11396/48008 [1:37:52<6:16:48,  1.62it/s] 24%|██▎       | 11397/48008 [1:37:53<5:39:50,  1.80it/s] 24%|██▎       | 11398/48008 [1:37:53<5:25:33,  1.87it/s] 24%|██▎       | 11399/48008 [1:37:54<5:25:53,  1.87it/s] 24%|██▎       | 11400/48008 [1:37:55<7:36:19,  1.34it/s]{'loss': 4.2638, 'grad_norm': 0.14229223132133484, 'learning_rate': 0.00015251208131978006, 'epoch': 0.24}                                                          24%|██▎       | 11400/48008 [1:37:55<7:36:19,  1.34it/s]
 24%|██▎       | 11401/48008 [1:37:56<6:51:27,  1.48it/s] 24%|██▍       | 11402/48008 [1:37:56<6:20:09,  1.60it/s] 24%|██▍       | 11403/48008 [1:37:57<5:54:25,  1.72it/s] 24%|██▍       | 11404/48008 [1:37:57<5:39:16,  1.80it/s] 24%|██▍       | 11405/48008 [1:37:57<5:13:40,  1.94it/s] 24%|██▍       | 11406/48008 [1:37:58<5:14:24,  1.94it/s] 24%|██▍       | 11407/48008 [1:37:58<5:15:32,  1.93it/s] 24%|██▍       | 11408/48008 [1:37:59<5:08:38,  1.98it/s] 24%|██▍       | 11409/48008 [1:37:59<5:07:49,  1.98it/s] 24%|██▍       | 11410/48008 [1:38:00<5:03:35,  2.01it/s] 24%|██▍       | 11411/48008 [1:38:00<4:49:07,  2.11it/s] 24%|██▍       | 11412/48008 [1:38:01<5:00:20,  2.03it/s] 24%|██▍       | 11413/48008 [1:38:01<4:57:17,  2.05it/s] 24%|██▍       | 11414/48008 [1:38:02<5:03:42,  2.01it/s] 24%|██▍       | 11415/48008 [1:38:03<6:12:39,  1.64it/s] 24%|██▍       | 11416/48008 [1:38:03<5:48:31,  1.75it/s] 24%|██▍       | 11417/48008 [1:38:04<5:35:52,  1.82it/s] 24%|██▍       | 11418/48008 [1:38:04<5:10:39,  1.96it/s] 24%|██▍       | 11419/48008 [1:38:05<5:04:58,  2.00it/s] 24%|██▍       | 11420/48008 [1:38:05<5:05:51,  1.99it/s] 24%|██▍       | 11421/48008 [1:38:06<5:01:00,  2.03it/s] 24%|██▍       | 11422/48008 [1:38:06<5:08:38,  1.98it/s] 24%|██▍       | 11423/48008 [1:38:07<5:11:12,  1.96it/s] 24%|██▍       | 11424/48008 [1:38:07<5:09:02,  1.97it/s] 24%|██▍       | 11425/48008 [1:38:08<5:09:03,  1.97it/s] 24%|██▍       | 11426/48008 [1:38:08<5:04:12,  2.00it/s] 24%|██▍       | 11427/48008 [1:38:09<5:05:37,  1.99it/s] 24%|██▍       | 11428/48008 [1:38:09<5:02:06,  2.02it/s] 24%|██▍       | 11429/48008 [1:38:10<5:07:20,  1.98it/s] 24%|██▍       | 11430/48008 [1:38:10<5:07:31,  1.98it/s] 24%|██▍       | 11431/48008 [1:38:11<5:07:44,  1.98it/s] 24%|██▍       | 11432/48008 [1:38:11<5:07:19,  1.98it/s] 24%|██▍       | 11433/48008 [1:38:12<4:51:06,  2.09it/s] 24%|██▍       | 11434/48008 [1:38:12<4:55:04,  2.07it/s] 24%|██▍       | 11435/48008 [1:38:13<4:42:18,  2.16it/s] 24%|██▍       | 11436/48008 [1:38:13<4:33:37,  2.23it/s] 24%|██▍       | 11437/48008 [1:38:13<4:39:38,  2.18it/s] 24%|██▍       | 11438/48008 [1:38:14<4:48:19,  2.11it/s] 24%|██▍       | 11439/48008 [1:38:14<4:49:45,  2.10it/s] 24%|██▍       | 11440/48008 [1:38:15<4:54:38,  2.07it/s] 24%|██▍       | 11441/48008 [1:38:15<4:53:24,  2.08it/s] 24%|██▍       | 11442/48008 [1:38:16<4:34:34,  2.22it/s] 24%|██▍       | 11443/48008 [1:38:17<7:00:00,  1.45it/s] 24%|██▍       | 11444/48008 [1:38:17<6:09:40,  1.65it/s] 24%|██▍       | 11445/48008 [1:38:18<5:46:31,  1.76it/s] 24%|██▍       | 11446/48008 [1:38:18<5:30:35,  1.84it/s] 24%|██▍       | 11447/48008 [1:38:19<5:22:46,  1.89it/s] 24%|██▍       | 11448/48008 [1:38:19<5:20:44,  1.90it/s] 24%|██▍       | 11449/48008 [1:38:20<5:12:15,  1.95it/s] 24%|██▍       | 11450/48008 [1:38:20<5:09:47,  1.97it/s]                                                         {'loss': 4.284, 'grad_norm': 0.14466646313667297, 'learning_rate': 0.00015230378270288285, 'epoch': 0.24}
 24%|██▍       | 11450/48008 [1:38:20<5:09:47,  1.97it/s] 24%|██▍       | 11451/48008 [1:38:21<5:08:11,  1.98it/s] 24%|██▍       | 11452/48008 [1:38:21<5:03:24,  2.01it/s] 24%|██▍       | 11453/48008 [1:38:22<5:00:31,  2.03it/s] 24%|██▍       | 11454/48008 [1:38:22<4:57:50,  2.05it/s] 24%|██▍       | 11455/48008 [1:38:23<4:56:05,  2.06it/s] 24%|██▍       | 11456/48008 [1:38:23<4:54:52,  2.07it/s] 24%|██▍       | 11457/48008 [1:38:24<4:54:24,  2.07it/s] 24%|██▍       | 11458/48008 [1:38:24<4:53:44,  2.07it/s] 24%|██▍       | 11459/48008 [1:38:25<4:40:59,  2.17it/s] 24%|██▍       | 11460/48008 [1:38:25<4:32:38,  2.23it/s] 24%|██▍       | 11461/48008 [1:38:26<4:42:02,  2.16it/s] 24%|██▍       | 11462/48008 [1:38:26<4:32:45,  2.23it/s] 24%|██▍       | 11463/48008 [1:38:26<4:42:09,  2.16it/s] 24%|██▍       | 11464/48008 [1:38:27<4:44:55,  2.14it/s] 24%|██▍       | 11465/48008 [1:38:27<4:58:04,  2.04it/s] 24%|██▍       | 11466/48008 [1:38:28<4:56:11,  2.06it/s] 24%|██▍       | 11467/48008 [1:38:28<4:59:08,  2.04it/s] 24%|██▍       | 11468/48008 [1:38:30<7:17:00,  1.39it/s] 24%|██▍       | 11469/48008 [1:38:30<6:44:08,  1.51it/s] 24%|██▍       | 11470/48008 [1:38:31<6:14:43,  1.63it/s] 24%|██▍       | 11471/48008 [1:38:31<5:53:48,  1.72it/s] 24%|██▍       | 11472/48008 [1:38:32<6:10:40,  1.64it/s] 24%|██▍       | 11473/48008 [1:38:32<5:53:56,  1.72it/s] 24%|██▍       | 11474/48008 [1:38:33<5:40:48,  1.79it/s] 24%|██▍       | 11475/48008 [1:38:33<5:14:55,  1.93it/s] 24%|██▍       | 11476/48008 [1:38:34<5:08:16,  1.98it/s] 24%|██▍       | 11477/48008 [1:38:35<7:24:32,  1.37it/s] 24%|██▍       | 11478/48008 [1:38:36<6:43:38,  1.51it/s] 24%|██▍       | 11479/48008 [1:38:36<6:09:16,  1.65it/s] 24%|██▍       | 11480/48008 [1:38:37<5:34:33,  1.82it/s] 24%|██▍       | 11481/48008 [1:38:37<6:34:22,  1.54it/s] 24%|██▍       | 11482/48008 [1:38:38<6:07:49,  1.66it/s] 24%|██▍       | 11483/48008 [1:38:38<5:32:56,  1.83it/s] 24%|██▍       | 11484/48008 [1:38:39<5:31:24,  1.84it/s] 24%|██▍       | 11485/48008 [1:38:39<5:26:07,  1.87it/s] 24%|██▍       | 11486/48008 [1:38:40<5:15:07,  1.93it/s] 24%|██▍       | 11487/48008 [1:38:40<4:56:22,  2.05it/s] 24%|██▍       | 11488/48008 [1:38:41<5:02:35,  2.01it/s] 24%|██▍       | 11489/48008 [1:38:41<5:02:54,  2.01it/s] 24%|██▍       | 11490/48008 [1:38:42<5:04:59,  2.00it/s] 24%|██▍       | 11491/48008 [1:38:42<4:49:11,  2.10it/s] 24%|██▍       | 11492/48008 [1:38:43<4:49:43,  2.10it/s] 24%|██▍       | 11493/48008 [1:38:43<4:50:00,  2.10it/s] 24%|██▍       | 11494/48008 [1:38:44<4:38:18,  2.19it/s] 24%|██▍       | 11495/48008 [1:38:44<4:53:05,  2.08it/s] 24%|██▍       | 11496/48008 [1:38:45<4:52:54,  2.08it/s] 24%|██▍       | 11497/48008 [1:38:45<4:40:43,  2.17it/s] 24%|██▍       | 11498/48008 [1:38:45<4:44:15,  2.14it/s] 24%|██▍       | 11499/48008 [1:38:46<4:47:16,  2.12it/s] 24%|██▍       | 11500/48008 [1:38:46<4:36:21,  2.20it/s]                                                         {'loss': 4.2663, 'grad_norm': 0.14870585501194, 'learning_rate': 0.0001520954840859857, 'epoch': 0.24}
 24%|██▍       | 11500/48008 [1:38:46<4:36:21,  2.20it/s] 24%|██▍       | 11501/48008 [1:38:47<4:40:57,  2.17it/s] 24%|██▍       | 11502/48008 [1:38:47<4:51:46,  2.09it/s] 24%|██▍       | 11503/48008 [1:38:48<4:55:53,  2.06it/s] 24%|██▍       | 11504/48008 [1:38:48<4:55:26,  2.06it/s] 24%|██▍       | 11505/48008 [1:38:50<7:14:18,  1.40it/s] 24%|██▍       | 11506/48008 [1:38:50<6:31:16,  1.55it/s] 24%|██▍       | 11507/48008 [1:38:51<6:36:41,  1.53it/s] 24%|██▍       | 11508/48008 [1:38:51<5:52:47,  1.72it/s] 24%|██▍       | 11509/48008 [1:38:52<5:22:19,  1.89it/s] 24%|██▍       | 11510/48008 [1:38:52<5:13:07,  1.94it/s] 24%|██▍       | 11511/48008 [1:38:52<4:54:50,  2.06it/s] 24%|██▍       | 11512/48008 [1:38:53<4:41:38,  2.16it/s] 24%|██▍       | 11513/48008 [1:38:53<4:55:28,  2.06it/s] 24%|██▍       | 11514/48008 [1:38:54<4:54:41,  2.06it/s] 24%|██▍       | 11515/48008 [1:38:54<4:52:56,  2.08it/s] 24%|██▍       | 11516/48008 [1:38:55<4:52:58,  2.08it/s] 24%|██▍       | 11517/48008 [1:38:55<4:52:58,  2.08it/s] 24%|██▍       | 11518/48008 [1:38:56<4:52:21,  2.08it/s] 24%|██▍       | 11519/48008 [1:38:56<4:59:14,  2.03it/s] 24%|██▍       | 11520/48008 [1:38:57<5:00:40,  2.02it/s] 24%|██▍       | 11521/48008 [1:38:57<5:01:26,  2.02it/s] 24%|██▍       | 11522/48008 [1:38:58<5:02:38,  2.01it/s] 24%|██▍       | 11523/48008 [1:38:58<4:59:13,  2.03it/s] 24%|██▍       | 11524/48008 [1:38:59<4:57:24,  2.04it/s] 24%|██▍       | 11525/48008 [1:38:59<4:56:01,  2.05it/s] 24%|██▍       | 11526/48008 [1:39:00<4:55:19,  2.06it/s] 24%|██▍       | 11527/48008 [1:39:01<6:07:43,  1.65it/s] 24%|██▍       | 11528/48008 [1:39:01<5:45:53,  1.76it/s] 24%|██▍       | 11529/48008 [1:39:02<5:39:50,  1.79it/s] 24%|██▍       | 11530/48008 [1:39:02<5:25:27,  1.87it/s] 24%|██▍       | 11531/48008 [1:39:03<5:23:02,  1.88it/s] 24%|██▍       | 11532/48008 [1:39:03<5:17:13,  1.92it/s] 24%|██▍       | 11533/48008 [1:39:04<5:16:47,  1.92it/s] 24%|██▍       | 11534/48008 [1:39:04<4:57:49,  2.04it/s] 24%|██▍       | 11535/48008 [1:39:05<4:56:24,  2.05it/s] 24%|██▍       | 11536/48008 [1:39:05<4:55:14,  2.06it/s] 24%|██▍       | 11537/48008 [1:39:06<4:57:34,  2.04it/s] 24%|██▍       | 11538/48008 [1:39:06<4:44:18,  2.14it/s] 24%|██▍       | 11539/48008 [1:39:07<5:58:28,  1.70it/s] 24%|██▍       | 11540/48008 [1:39:07<5:26:17,  1.86it/s] 24%|██▍       | 11541/48008 [1:39:08<5:26:00,  1.86it/s] 24%|██▍       | 11542/48008 [1:39:08<5:15:26,  1.93it/s] 24%|██▍       | 11543/48008 [1:39:09<4:56:13,  2.05it/s] 24%|██▍       | 11544/48008 [1:39:09<4:59:17,  2.03it/s] 24%|██▍       | 11545/48008 [1:39:10<4:56:48,  2.05it/s] 24%|██▍       | 11546/48008 [1:39:10<4:55:52,  2.05it/s] 24%|██▍       | 11547/48008 [1:39:11<4:54:47,  2.06it/s] 24%|██▍       | 11548/48008 [1:39:11<4:57:14,  2.04it/s] 24%|██▍       | 11549/48008 [1:39:12<4:56:01,  2.05it/s] 24%|██▍       | 11550/48008 [1:39:12<4:58:49,  2.03it/s]                                                         {'loss': 4.2994, 'grad_norm': 0.12645074725151062, 'learning_rate': 0.00015188718546908848, 'epoch': 0.24}
 24%|██▍       | 11550/48008 [1:39:12<4:58:49,  2.03it/s] 24%|██▍       | 11551/48008 [1:39:13<5:03:46,  2.00it/s] 24%|██▍       | 11552/48008 [1:39:13<5:10:52,  1.95it/s] 24%|██▍       | 11553/48008 [1:39:14<5:08:46,  1.97it/s] 24%|██▍       | 11554/48008 [1:39:14<5:07:20,  1.98it/s] 24%|██▍       | 11555/48008 [1:39:15<7:23:10,  1.37it/s] 24%|██▍       | 11556/48008 [1:39:16<6:41:29,  1.51it/s] 24%|██▍       | 11557/48008 [1:39:16<6:08:55,  1.65it/s] 24%|██▍       | 11558/48008 [1:39:17<5:45:50,  1.76it/s] 24%|██▍       | 11559/48008 [1:39:17<5:11:08,  1.95it/s] 24%|██▍       | 11560/48008 [1:39:18<5:05:41,  1.99it/s] 24%|██▍       | 11561/48008 [1:39:18<4:49:48,  2.10it/s] 24%|██▍       | 11562/48008 [1:39:19<4:56:47,  2.05it/s] 24%|██▍       | 11563/48008 [1:39:19<4:54:38,  2.06it/s] 24%|██▍       | 11564/48008 [1:39:20<5:00:45,  2.02it/s] 24%|██▍       | 11565/48008 [1:39:20<5:02:11,  2.01it/s] 24%|██▍       | 11566/48008 [1:39:21<4:58:50,  2.03it/s] 24%|██▍       | 11567/48008 [1:39:21<5:01:54,  2.01it/s] 24%|██▍       | 11568/48008 [1:39:22<5:02:21,  2.01it/s] 24%|██▍       | 11569/48008 [1:39:22<5:00:00,  2.02it/s] 24%|██▍       | 11570/48008 [1:39:23<4:56:59,  2.04it/s] 24%|██▍       | 11571/48008 [1:39:24<6:07:14,  1.65it/s] 24%|██▍       | 11572/48008 [1:39:24<5:44:23,  1.76it/s] 24%|██▍       | 11573/48008 [1:39:25<5:35:10,  1.81it/s] 24%|██▍       | 11574/48008 [1:39:25<5:21:34,  1.89it/s] 24%|██▍       | 11575/48008 [1:39:26<5:48:01,  1.74it/s] 24%|██▍       | 11576/48008 [1:39:26<5:31:16,  1.83it/s] 24%|██▍       | 11577/48008 [1:39:27<5:53:57,  1.72it/s] 24%|██▍       | 11578/48008 [1:39:27<5:22:59,  1.88it/s] 24%|██▍       | 11579/48008 [1:39:28<5:01:28,  2.01it/s] 24%|██▍       | 11580/48008 [1:39:28<5:33:41,  1.82it/s] 24%|██▍       | 11581/48008 [1:39:29<5:25:15,  1.87it/s] 24%|██▍       | 11582/48008 [1:39:29<5:22:01,  1.89it/s] 24%|██▍       | 11583/48008 [1:39:30<5:19:34,  1.90it/s] 24%|██▍       | 11584/48008 [1:39:30<5:15:12,  1.93it/s] 24%|██▍       | 11585/48008 [1:39:31<4:56:49,  2.05it/s] 24%|██▍       | 11586/48008 [1:39:31<5:02:55,  2.00it/s] 24%|██▍       | 11587/48008 [1:39:32<5:04:04,  2.00it/s] 24%|██▍       | 11588/48008 [1:39:32<5:04:22,  1.99it/s] 24%|██▍       | 11589/48008 [1:39:33<5:04:36,  1.99it/s] 24%|██▍       | 11590/48008 [1:39:33<4:59:55,  2.02it/s] 24%|██▍       | 11591/48008 [1:39:34<5:01:53,  2.01it/s] 24%|██▍       | 11592/48008 [1:39:34<5:06:12,  1.98it/s] 24%|██▍       | 11593/48008 [1:39:35<5:02:03,  2.01it/s] 24%|██▍       | 11594/48008 [1:39:35<4:58:16,  2.03it/s] 24%|██▍       | 11595/48008 [1:39:36<4:56:11,  2.05it/s] 24%|██▍       | 11596/48008 [1:39:36<4:54:29,  2.06it/s] 24%|██▍       | 11597/48008 [1:39:37<4:41:57,  2.15it/s] 24%|██▍       | 11598/48008 [1:39:37<4:32:22,  2.23it/s] 24%|██▍       | 11599/48008 [1:39:38<4:42:51,  2.15it/s] 24%|██▍       | 11600/48008 [1:39:38<4:45:11,  2.13it/s]                                                         {'loss': 4.3029, 'grad_norm': 0.1312715709209442, 'learning_rate': 0.00015167888685219133, 'epoch': 0.24}
 24%|██▍       | 11600/48008 [1:39:38<4:45:11,  2.13it/s] 24%|██▍       | 11601/48008 [1:39:39<4:47:29,  2.11it/s] 24%|██▍       | 11602/48008 [1:39:39<6:00:02,  1.69it/s] 24%|██▍       | 11603/48008 [1:39:40<5:50:07,  1.73it/s] 24%|██▍       | 11604/48008 [1:39:40<5:20:47,  1.89it/s] 24%|██▍       | 11605/48008 [1:39:41<5:46:33,  1.75it/s] 24%|██▍       | 11606/48008 [1:39:42<5:34:33,  1.81it/s] 24%|██▍       | 11607/48008 [1:39:42<5:56:15,  1.70it/s] 24%|██▍       | 11608/48008 [1:39:43<5:24:34,  1.87it/s] 24%|██▍       | 11609/48008 [1:39:43<5:14:49,  1.93it/s] 24%|██▍       | 11610/48008 [1:39:44<5:08:21,  1.97it/s] 24%|██▍       | 11611/48008 [1:39:44<5:03:02,  2.00it/s] 24%|██▍       | 11612/48008 [1:39:45<5:02:50,  2.00it/s] 24%|██▍       | 11613/48008 [1:39:46<7:19:36,  1.38it/s] 24%|██▍       | 11614/48008 [1:39:46<6:41:56,  1.51it/s] 24%|██▍       | 11615/48008 [1:39:47<6:15:52,  1.61it/s] 24%|██▍       | 11616/48008 [1:39:47<5:50:03,  1.73it/s] 24%|██▍       | 11617/48008 [1:39:48<5:39:53,  1.78it/s] 24%|██▍       | 11618/48008 [1:39:48<5:32:54,  1.82it/s] 24%|██▍       | 11619/48008 [1:39:49<5:19:53,  1.90it/s] 24%|██▍       | 11620/48008 [1:39:49<5:11:31,  1.95it/s] 24%|██▍       | 11621/48008 [1:39:50<4:53:38,  2.07it/s] 24%|██▍       | 11622/48008 [1:39:50<5:27:37,  1.85it/s] 24%|██▍       | 11623/48008 [1:39:51<5:23:01,  1.88it/s] 24%|██▍       | 11624/48008 [1:39:51<5:01:33,  2.01it/s] 24%|██▍       | 11625/48008 [1:39:52<5:09:16,  1.96it/s] 24%|██▍       | 11626/48008 [1:39:53<5:39:03,  1.79it/s] 24%|██▍       | 11627/48008 [1:39:53<5:24:15,  1.87it/s] 24%|██▍       | 11628/48008 [1:39:53<5:01:56,  2.01it/s] 24%|██▍       | 11629/48008 [1:39:54<5:33:23,  1.82it/s] 24%|██▍       | 11630/48008 [1:39:55<5:27:52,  1.85it/s] 24%|██▍       | 11631/48008 [1:39:55<5:17:39,  1.91it/s] 24%|██▍       | 11632/48008 [1:39:56<4:57:40,  2.04it/s] 24%|██▍       | 11633/48008 [1:39:56<4:55:24,  2.05it/s] 24%|██▍       | 11634/48008 [1:39:57<5:00:35,  2.02it/s] 24%|██▍       | 11635/48008 [1:39:57<5:04:51,  1.99it/s] 24%|██▍       | 11636/48008 [1:39:58<5:04:20,  1.99it/s] 24%|██▍       | 11637/48008 [1:39:58<5:00:39,  2.02it/s] 24%|██▍       | 11638/48008 [1:39:59<4:57:24,  2.04it/s] 24%|██▍       | 11639/48008 [1:39:59<4:43:35,  2.14it/s] 24%|██▍       | 11640/48008 [1:40:00<5:57:03,  1.70it/s] 24%|██▍       | 11641/48008 [1:40:00<5:24:21,  1.87it/s] 24%|██▍       | 11642/48008 [1:40:01<5:02:07,  2.01it/s] 24%|██▍       | 11643/48008 [1:40:01<4:59:04,  2.03it/s] 24%|██▍       | 11644/48008 [1:40:02<5:02:55,  2.00it/s] 24%|██▍       | 11645/48008 [1:40:02<5:06:27,  1.98it/s] 24%|██▍       | 11646/48008 [1:40:03<5:12:05,  1.94it/s] 24%|██▍       | 11647/48008 [1:40:03<5:05:34,  1.98it/s] 24%|██▍       | 11648/48008 [1:40:04<5:04:44,  1.99it/s] 24%|██▍       | 11649/48008 [1:40:04<5:07:17,  1.97it/s] 24%|██▍       | 11650/48008 [1:40:05<5:06:30,  1.98it/s]                                                         {'loss': 4.3594, 'grad_norm': 0.12487104535102844, 'learning_rate': 0.00015147058823529412, 'epoch': 0.24} 24%|██▍       | 11650/48008 [1:40:05<5:06:30,  1.98it/s]
 24%|██▍       | 11651/48008 [1:40:05<4:50:33,  2.09it/s] 24%|██▍       | 11652/48008 [1:40:05<4:38:37,  2.17it/s] 24%|██▍       | 11653/48008 [1:40:06<4:41:42,  2.15it/s] 24%|██▍       | 11654/48008 [1:40:07<5:19:05,  1.90it/s] 24%|██▍       | 11655/48008 [1:40:07<5:14:38,  1.93it/s] 24%|██▍       | 11656/48008 [1:40:08<5:07:13,  1.97it/s] 24%|██▍       | 11657/48008 [1:40:08<5:07:41,  1.97it/s] 24%|██▍       | 11658/48008 [1:40:09<5:03:04,  2.00it/s] 24%|██▍       | 11659/48008 [1:40:09<5:03:26,  2.00it/s] 24%|██▍       | 11660/48008 [1:40:10<5:03:47,  1.99it/s] 24%|██▍       | 11661/48008 [1:40:10<4:48:25,  2.10it/s] 24%|██▍       | 11662/48008 [1:40:11<4:55:56,  2.05it/s] 24%|██▍       | 11663/48008 [1:40:11<5:04:55,  1.99it/s] 24%|██▍       | 11664/48008 [1:40:12<5:00:01,  2.02it/s] 24%|██▍       | 11665/48008 [1:40:13<7:16:55,  1.39it/s] 24%|██▍       | 11666/48008 [1:40:13<6:32:53,  1.54it/s] 24%|██▍       | 11667/48008 [1:40:14<5:50:43,  1.73it/s] 24%|██▍       | 11668/48008 [1:40:14<5:36:08,  1.80it/s] 24%|██▍       | 11669/48008 [1:40:15<5:26:11,  1.86it/s] 24%|██▍       | 11670/48008 [1:40:15<5:15:21,  1.92it/s] 24%|██▍       | 11671/48008 [1:40:16<5:15:09,  1.92it/s] 24%|██▍       | 11672/48008 [1:40:16<4:55:35,  2.05it/s] 24%|██▍       | 11673/48008 [1:40:17<5:05:30,  1.98it/s] 24%|██▍       | 11674/48008 [1:40:17<4:48:29,  2.10it/s] 24%|██▍       | 11675/48008 [1:40:17<4:37:17,  2.18it/s] 24%|██▍       | 11676/48008 [1:40:18<4:41:02,  2.15it/s] 24%|██▍       | 11677/48008 [1:40:18<4:47:25,  2.11it/s] 24%|██▍       | 11678/48008 [1:40:19<4:49:00,  2.10it/s] 24%|██▍       | 11679/48008 [1:40:19<4:56:18,  2.04it/s] 24%|██▍       | 11680/48008 [1:40:20<4:59:14,  2.02it/s] 24%|██▍       | 11681/48008 [1:40:20<4:56:25,  2.04it/s] 24%|██▍       | 11682/48008 [1:40:22<7:14:05,  1.39it/s] 24%|██▍       | 11683/48008 [1:40:22<6:13:01,  1.62it/s] 24%|██▍       | 11684/48008 [1:40:23<5:51:38,  1.72it/s] 24%|██▍       | 11685/48008 [1:40:23<5:36:58,  1.80it/s] 24%|██▍       | 11686/48008 [1:40:24<5:23:01,  1.87it/s] 24%|██▍       | 11687/48008 [1:40:24<5:20:50,  1.89it/s] 24%|██▍       | 11688/48008 [1:40:25<5:00:20,  2.02it/s] 24%|██▍       | 11689/48008 [1:40:25<5:07:33,  1.97it/s] 24%|██▍       | 11690/48008 [1:40:26<5:09:30,  1.96it/s] 24%|██▍       | 11691/48008 [1:40:26<4:51:22,  2.08it/s] 24%|██▍       | 11692/48008 [1:40:27<5:01:25,  2.01it/s] 24%|██▍       | 11693/48008 [1:40:27<4:45:44,  2.12it/s] 24%|██▍       | 11694/48008 [1:40:27<4:50:34,  2.08it/s] 24%|██▍       | 11695/48008 [1:40:28<4:50:10,  2.09it/s] 24%|██▍       | 11696/48008 [1:40:28<5:01:39,  2.01it/s] 24%|██▍       | 11697/48008 [1:40:29<5:02:26,  2.00it/s] 24%|██▍       | 11698/48008 [1:40:29<5:08:58,  1.96it/s] 24%|██▍       | 11699/48008 [1:40:30<5:04:10,  1.99it/s] 24%|██▍       | 11700/48008 [1:40:30<4:59:43,  2.02it/s]                                                         {'loss': 4.2517, 'grad_norm': 0.12433773279190063, 'learning_rate': 0.00015126228961839694, 'epoch': 0.24}
 24%|██▍       | 11700/48008 [1:40:30<4:59:43,  2.02it/s] 24%|██▍       | 11701/48008 [1:40:31<4:45:20,  2.12it/s] 24%|██▍       | 11702/48008 [1:40:31<4:34:33,  2.20it/s] 24%|██▍       | 11703/48008 [1:40:32<4:43:16,  2.14it/s] 24%|██▍       | 11704/48008 [1:40:32<4:46:15,  2.11it/s] 24%|██▍       | 11705/48008 [1:40:33<4:51:58,  2.07it/s] 24%|██▍       | 11706/48008 [1:40:33<4:56:23,  2.04it/s] 24%|██▍       | 11707/48008 [1:40:34<5:01:42,  2.01it/s] 24%|██▍       | 11708/48008 [1:40:34<4:58:38,  2.03it/s] 24%|██▍       | 11709/48008 [1:40:35<4:44:17,  2.13it/s] 24%|██▍       | 11710/48008 [1:40:35<4:46:24,  2.11it/s] 24%|██▍       | 11711/48008 [1:40:36<4:47:24,  2.10it/s] 24%|██▍       | 11712/48008 [1:40:36<4:48:38,  2.10it/s] 24%|██▍       | 11713/48008 [1:40:37<4:49:23,  2.09it/s] 24%|██▍       | 11714/48008 [1:40:37<4:49:56,  2.09it/s] 24%|██▍       | 11715/48008 [1:40:38<4:49:36,  2.09it/s] 24%|██▍       | 11716/48008 [1:40:38<4:49:49,  2.09it/s] 24%|██▍       | 11717/48008 [1:40:39<4:56:34,  2.04it/s] 24%|██▍       | 11718/48008 [1:40:39<4:58:01,  2.03it/s] 24%|██▍       | 11719/48008 [1:40:40<5:03:49,  1.99it/s] 24%|██▍       | 11720/48008 [1:40:40<5:00:06,  2.02it/s] 24%|██▍       | 11721/48008 [1:40:41<5:00:45,  2.01it/s] 24%|██▍       | 11722/48008 [1:40:41<4:45:54,  2.12it/s] 24%|██▍       | 11723/48008 [1:40:42<5:59:03,  1.68it/s] 24%|██▍       | 11724/48008 [1:40:42<5:38:31,  1.79it/s] 24%|██▍       | 11725/48008 [1:40:43<5:23:40,  1.87it/s] 24%|██▍       | 11726/48008 [1:40:43<5:13:00,  1.93it/s] 24%|██▍       | 11727/48008 [1:40:44<5:06:37,  1.97it/s] 24%|██▍       | 11728/48008 [1:40:44<4:50:27,  2.08it/s] 24%|██▍       | 11729/48008 [1:40:45<5:00:42,  2.01it/s] 24%|██▍       | 11730/48008 [1:40:46<6:09:46,  1.64it/s] 24%|██▍       | 11731/48008 [1:40:46<6:21:58,  1.58it/s] 24%|██▍       | 11732/48008 [1:40:47<6:04:43,  1.66it/s] 24%|██▍       | 11733/48008 [1:40:47<5:41:53,  1.77it/s] 24%|██▍       | 11734/48008 [1:40:48<5:25:59,  1.85it/s] 24%|██▍       | 11735/48008 [1:40:48<5:15:58,  1.91it/s] 24%|██▍       | 11736/48008 [1:40:49<5:42:43,  1.76it/s] 24%|██▍       | 11737/48008 [1:40:49<5:26:13,  1.85it/s] 24%|██▍       | 11738/48008 [1:40:50<5:02:50,  2.00it/s] 24%|██▍       | 11739/48008 [1:40:50<4:59:20,  2.02it/s] 24%|██▍       | 11740/48008 [1:40:51<5:00:03,  2.01it/s] 24%|██▍       | 11741/48008 [1:40:51<5:03:47,  1.99it/s] 24%|██▍       | 11742/48008 [1:40:53<7:19:50,  1.37it/s] 24%|██▍       | 11743/48008 [1:40:53<6:35:47,  1.53it/s] 24%|██▍       | 11744/48008 [1:40:54<6:08:43,  1.64it/s] 24%|██▍       | 11745/48008 [1:40:54<5:45:22,  1.75it/s] 24%|██▍       | 11746/48008 [1:40:54<5:16:52,  1.91it/s] 24%|██▍       | 11747/48008 [1:40:55<5:12:26,  1.93it/s] 24%|██▍       | 11748/48008 [1:40:55<5:10:17,  1.95it/s] 24%|██▍       | 11749/48008 [1:40:56<5:03:52,  1.99it/s] 24%|██▍       | 11750/48008 [1:40:56<4:59:35,  2.02it/s]                                                         {'loss': 4.2791, 'grad_norm': 0.1359606683254242, 'learning_rate': 0.00015105399100149975, 'epoch': 0.24} 24%|██▍       | 11750/48008 [1:40:56<4:59:35,  2.02it/s]
 24%|██▍       | 11751/48008 [1:40:57<5:31:26,  1.82it/s] 24%|██▍       | 11752/48008 [1:40:58<5:07:15,  1.97it/s] 24%|██▍       | 11753/48008 [1:40:58<5:01:39,  2.00it/s] 24%|██▍       | 11754/48008 [1:40:58<4:57:59,  2.03it/s] 24%|██▍       | 11755/48008 [1:40:59<4:59:00,  2.02it/s] 24%|██▍       | 11756/48008 [1:40:59<4:44:43,  2.12it/s] 24%|██▍       | 11757/48008 [1:41:00<4:46:22,  2.11it/s] 24%|██▍       | 11758/48008 [1:41:00<4:46:48,  2.11it/s] 24%|██▍       | 11759/48008 [1:41:01<4:53:58,  2.06it/s] 24%|██▍       | 11760/48008 [1:41:01<5:02:50,  1.99it/s] 24%|██▍       | 11761/48008 [1:41:02<5:03:01,  1.99it/s] 25%|██▍       | 11762/48008 [1:41:02<5:09:39,  1.95it/s] 25%|██▍       | 11763/48008 [1:41:04<7:22:53,  1.36it/s] 25%|██▍       | 11764/48008 [1:41:04<6:25:16,  1.57it/s] 25%|██▍       | 11765/48008 [1:41:05<5:55:51,  1.70it/s] 25%|██▍       | 11766/48008 [1:41:05<5:35:18,  1.80it/s] 25%|██▍       | 11767/48008 [1:41:06<5:21:22,  1.88it/s] 25%|██▍       | 11768/48008 [1:41:06<5:11:52,  1.94it/s] 25%|██▍       | 11769/48008 [1:41:06<4:53:09,  2.06it/s] 25%|██▍       | 11770/48008 [1:41:07<5:03:00,  1.99it/s] 25%|██▍       | 11771/48008 [1:41:07<4:59:13,  2.02it/s] 25%|██▍       | 11772/48008 [1:41:08<4:56:47,  2.03it/s] 25%|██▍       | 11773/48008 [1:41:08<4:55:42,  2.04it/s] 25%|██▍       | 11774/48008 [1:41:09<4:58:40,  2.02it/s] 25%|██▍       | 11775/48008 [1:41:09<5:06:40,  1.97it/s] 25%|██▍       | 11776/48008 [1:41:10<4:50:15,  2.08it/s] 25%|██▍       | 11777/48008 [1:41:10<4:49:25,  2.09it/s] 25%|██▍       | 11778/48008 [1:41:11<4:50:15,  2.08it/s] 25%|██▍       | 11779/48008 [1:41:11<4:50:12,  2.08it/s] 25%|██▍       | 11780/48008 [1:41:12<4:49:54,  2.08it/s] 25%|██▍       | 11781/48008 [1:41:12<4:38:16,  2.17it/s] 25%|██▍       | 11782/48008 [1:41:13<4:47:01,  2.10it/s] 25%|██▍       | 11783/48008 [1:41:13<4:58:39,  2.02it/s] 25%|██▍       | 11784/48008 [1:41:14<4:56:04,  2.04it/s] 25%|██▍       | 11785/48008 [1:41:14<4:41:45,  2.14it/s] 25%|██▍       | 11786/48008 [1:41:15<4:32:51,  2.21it/s] 25%|██▍       | 11787/48008 [1:41:15<4:42:35,  2.14it/s] 25%|██▍       | 11788/48008 [1:41:16<5:19:09,  1.89it/s] 25%|██▍       | 11789/48008 [1:41:16<4:58:36,  2.02it/s] 25%|██▍       | 11790/48008 [1:41:17<4:44:12,  2.12it/s] 25%|██▍       | 11791/48008 [1:41:17<4:56:06,  2.04it/s] 25%|██▍       | 11792/48008 [1:41:18<4:41:52,  2.14it/s] 25%|██▍       | 11793/48008 [1:41:18<4:47:37,  2.10it/s] 25%|██▍       | 11794/48008 [1:41:19<4:52:19,  2.06it/s] 25%|██▍       | 11795/48008 [1:41:19<4:51:17,  2.07it/s] 25%|██▍       | 11796/48008 [1:41:19<4:39:37,  2.16it/s] 25%|██▍       | 11797/48008 [1:41:20<4:42:20,  2.14it/s] 25%|██▍       | 11798/48008 [1:41:20<4:43:48,  2.13it/s] 25%|██▍       | 11799/48008 [1:41:21<6:17:41,  1.60it/s] 25%|██▍       | 11800/48008 [1:41:22<5:55:09,  1.70it/s]                                                         {'loss': 4.2221, 'grad_norm': 0.1466604322195053, 'learning_rate': 0.00015084569238460257, 'epoch': 0.25} 25%|██▍       | 11800/48008 [1:41:22<5:55:09,  1.70it/s]
 25%|██▍       | 11801/48008 [1:41:22<5:36:17,  1.79it/s] 25%|██▍       | 11802/48008 [1:41:23<5:28:36,  1.84it/s] 25%|██▍       | 11803/48008 [1:41:23<5:20:35,  1.88it/s] 25%|██▍       | 11804/48008 [1:41:24<4:59:37,  2.01it/s] 25%|██▍       | 11805/48008 [1:41:24<5:00:05,  2.01it/s] 25%|██▍       | 11806/48008 [1:41:26<7:15:43,  1.38it/s] 25%|██▍       | 11807/48008 [1:41:26<6:36:00,  1.52it/s] 25%|██▍       | 11808/48008 [1:41:26<6:03:50,  1.66it/s] 25%|██▍       | 11809/48008 [1:41:27<5:41:19,  1.77it/s] 25%|██▍       | 11810/48008 [1:41:27<5:26:12,  1.85it/s] 25%|██▍       | 11811/48008 [1:41:28<5:15:31,  1.91it/s] 25%|██▍       | 11812/48008 [1:41:28<5:08:03,  1.96it/s] 25%|██▍       | 11813/48008 [1:41:29<5:09:28,  1.95it/s] 25%|██▍       | 11814/48008 [1:41:30<7:22:31,  1.36it/s] 25%|██▍       | 11815/48008 [1:41:31<6:47:17,  1.48it/s] 25%|██▍       | 11816/48008 [1:41:31<6:11:46,  1.62it/s] 25%|██▍       | 11817/48008 [1:41:32<5:47:17,  1.74it/s] 25%|██▍       | 11818/48008 [1:41:32<5:34:04,  1.81it/s] 25%|██▍       | 11819/48008 [1:41:33<5:25:23,  1.85it/s] 25%|██▍       | 11820/48008 [1:41:33<5:18:44,  1.89it/s] 25%|██▍       | 11821/48008 [1:41:34<5:09:22,  1.95it/s] 25%|██▍       | 11822/48008 [1:41:34<5:13:18,  1.92it/s] 25%|██▍       | 11823/48008 [1:41:35<5:06:22,  1.97it/s] 25%|██▍       | 11824/48008 [1:41:35<5:01:32,  2.00it/s] 25%|██▍       | 11825/48008 [1:41:36<4:46:11,  2.11it/s] 25%|██▍       | 11826/48008 [1:41:36<4:50:49,  2.07it/s] 25%|██▍       | 11827/48008 [1:41:37<4:53:51,  2.05it/s] 25%|██▍       | 11828/48008 [1:41:37<4:41:01,  2.15it/s] 25%|██▍       | 11829/48008 [1:41:38<5:55:24,  1.70it/s] 25%|██▍       | 11830/48008 [1:41:39<6:10:46,  1.63it/s] 25%|██▍       | 11831/48008 [1:41:39<5:50:44,  1.72it/s] 25%|██▍       | 11832/48008 [1:41:40<5:32:05,  1.82it/s] 25%|██▍       | 11833/48008 [1:41:40<5:18:54,  1.89it/s] 25%|██▍       | 11834/48008 [1:41:41<5:14:46,  1.92it/s] 25%|██▍       | 11835/48008 [1:41:41<5:06:20,  1.97it/s] 25%|██▍       | 11836/48008 [1:41:41<5:00:54,  2.00it/s] 25%|██▍       | 11837/48008 [1:41:42<4:57:09,  2.03it/s] 25%|██▍       | 11838/48008 [1:41:42<4:58:38,  2.02it/s] 25%|██▍       | 11839/48008 [1:41:43<4:43:33,  2.13it/s] 25%|██▍       | 11840/48008 [1:41:43<4:49:11,  2.08it/s] 25%|██▍       | 11841/48008 [1:41:44<4:56:16,  2.03it/s] 25%|██▍       | 11842/48008 [1:41:44<4:53:32,  2.05it/s] 25%|██▍       | 11843/48008 [1:41:45<4:52:09,  2.06it/s] 25%|██▍       | 11844/48008 [1:41:45<4:57:46,  2.02it/s] 25%|██▍       | 11845/48008 [1:41:46<5:02:45,  1.99it/s] 25%|██▍       | 11846/48008 [1:41:46<4:57:49,  2.02it/s] 25%|██▍       | 11847/48008 [1:41:48<7:14:01,  1.39it/s] 25%|██▍       | 11848/48008 [1:41:48<6:30:53,  1.54it/s] 25%|██▍       | 11849/48008 [1:41:49<6:07:32,  1.64it/s] 25%|██▍       | 11850/48008 [1:41:49<5:44:20,  1.75it/s]                                                         {'loss': 4.3129, 'grad_norm': 0.13123458623886108, 'learning_rate': 0.0001506373937677054, 'epoch': 0.25} 25%|██▍       | 11850/48008 [1:41:49<5:44:20,  1.75it/s]
 25%|██▍       | 11851/48008 [1:41:50<5:33:01,  1.81it/s] 25%|██▍       | 11852/48008 [1:41:50<5:08:45,  1.95it/s] 25%|██▍       | 11853/48008 [1:41:51<5:38:47,  1.78it/s] 25%|██▍       | 11854/48008 [1:41:51<5:24:13,  1.86it/s] 25%|██▍       | 11855/48008 [1:41:52<5:14:09,  1.92it/s] 25%|██▍       | 11856/48008 [1:41:52<5:06:12,  1.97it/s] 25%|██▍       | 11857/48008 [1:41:53<5:07:40,  1.96it/s] 25%|██▍       | 11858/48008 [1:41:53<5:12:29,  1.93it/s] 25%|██▍       | 11859/48008 [1:41:54<5:40:10,  1.77it/s] 25%|██▍       | 11860/48008 [1:41:54<5:24:26,  1.86it/s] 25%|██▍       | 11861/48008 [1:41:55<5:17:27,  1.90it/s] 25%|██▍       | 11862/48008 [1:41:55<5:15:35,  1.91it/s] 25%|██▍       | 11863/48008 [1:41:56<5:42:44,  1.76it/s] 25%|██▍       | 11864/48008 [1:41:57<5:25:52,  1.85it/s] 25%|██▍       | 11865/48008 [1:41:57<5:50:30,  1.72it/s] 25%|██▍       | 11866/48008 [1:41:58<5:39:41,  1.77it/s] 25%|██▍       | 11867/48008 [1:41:58<5:12:38,  1.93it/s] 25%|██▍       | 11868/48008 [1:41:59<5:10:29,  1.94it/s] 25%|██▍       | 11869/48008 [1:41:59<5:03:52,  1.98it/s] 25%|██▍       | 11870/48008 [1:42:00<5:04:21,  1.98it/s] 25%|██▍       | 11871/48008 [1:42:00<5:04:21,  1.98it/s] 25%|██▍       | 11872/48008 [1:42:01<5:06:08,  1.97it/s] 25%|██▍       | 11873/48008 [1:42:01<5:01:31,  2.00it/s] 25%|██▍       | 11874/48008 [1:42:02<5:04:44,  1.98it/s] 25%|██▍       | 11875/48008 [1:42:02<4:59:32,  2.01it/s] 25%|██▍       | 11876/48008 [1:42:03<4:57:30,  2.02it/s] 25%|██▍       | 11877/48008 [1:42:03<4:55:30,  2.04it/s] 25%|██▍       | 11878/48008 [1:42:04<4:54:27,  2.04it/s] 25%|██▍       | 11879/48008 [1:42:04<4:56:11,  2.03it/s] 25%|██▍       | 11880/48008 [1:42:05<4:58:03,  2.02it/s] 25%|██▍       | 11881/48008 [1:42:05<4:55:16,  2.04it/s] 25%|██▍       | 11882/48008 [1:42:06<4:53:04,  2.05it/s] 25%|██▍       | 11883/48008 [1:42:06<4:51:32,  2.07it/s] 25%|██▍       | 11884/48008 [1:42:07<4:58:33,  2.02it/s] 25%|██▍       | 11885/48008 [1:42:07<4:59:53,  2.01it/s] 25%|██▍       | 11886/48008 [1:42:08<5:03:25,  1.98it/s] 25%|██▍       | 11887/48008 [1:42:08<4:59:24,  2.01it/s] 25%|██▍       | 11888/48008 [1:42:08<4:44:22,  2.12it/s] 25%|██▍       | 11889/48008 [1:42:09<4:45:23,  2.11it/s] 25%|██▍       | 11890/48008 [1:42:10<7:04:36,  1.42it/s] 25%|██▍       | 11891/48008 [1:42:11<6:23:24,  1.57it/s] 25%|██▍       | 11892/48008 [1:42:11<5:56:16,  1.69it/s] 25%|██▍       | 11893/48008 [1:42:12<5:36:21,  1.79it/s] 25%|██▍       | 11894/48008 [1:42:12<5:22:06,  1.87it/s] 25%|██▍       | 11895/48008 [1:42:13<5:11:58,  1.93it/s] 25%|██▍       | 11896/48008 [1:42:13<5:11:15,  1.93it/s] 25%|██▍       | 11897/48008 [1:42:14<5:04:33,  1.98it/s] 25%|██▍       | 11898/48008 [1:42:14<5:00:59,  2.00it/s] 25%|██▍       | 11899/48008 [1:42:15<4:57:58,  2.02it/s] 25%|██▍       | 11900/48008 [1:42:15<4:54:58,  2.04it/s]                                                         {'loss': 4.2881, 'grad_norm': 0.13337282836437225, 'learning_rate': 0.0001504290951508082, 'epoch': 0.25}
 25%|██▍       | 11900/48008 [1:42:15<4:54:58,  2.04it/s] 25%|██▍       | 11901/48008 [1:42:16<4:57:56,  2.02it/s] 25%|██▍       | 11902/48008 [1:42:16<4:55:53,  2.03it/s] 25%|██▍       | 11903/48008 [1:42:16<4:54:15,  2.04it/s] 25%|██▍       | 11904/48008 [1:42:17<4:52:42,  2.06it/s] 25%|██▍       | 11905/48008 [1:42:17<4:51:18,  2.07it/s] 25%|██▍       | 11906/48008 [1:42:18<4:39:12,  2.16it/s] 25%|██▍       | 11907/48008 [1:42:18<4:42:04,  2.13it/s] 25%|██▍       | 11908/48008 [1:42:19<4:53:52,  2.05it/s] 25%|██▍       | 11909/48008 [1:42:19<4:52:47,  2.05it/s] 25%|██▍       | 11910/48008 [1:42:20<4:39:18,  2.15it/s] 25%|██▍       | 11911/48008 [1:42:20<4:42:17,  2.13it/s] 25%|██▍       | 11912/48008 [1:42:21<4:51:55,  2.06it/s] 25%|██▍       | 11913/48008 [1:42:21<4:58:36,  2.01it/s] 25%|██▍       | 11914/48008 [1:42:22<5:31:29,  1.81it/s] 25%|██▍       | 11915/48008 [1:42:22<5:18:58,  1.89it/s] 25%|██▍       | 11916/48008 [1:42:23<4:57:49,  2.02it/s] 25%|██▍       | 11917/48008 [1:42:23<4:55:50,  2.03it/s] 25%|██▍       | 11918/48008 [1:42:24<4:54:19,  2.04it/s] 25%|██▍       | 11919/48008 [1:42:24<4:52:30,  2.06it/s] 25%|██▍       | 11920/48008 [1:42:25<4:39:59,  2.15it/s] 25%|██▍       | 11921/48008 [1:42:25<4:31:09,  2.22it/s] 25%|██▍       | 11922/48008 [1:42:26<4:43:11,  2.12it/s] 25%|██▍       | 11923/48008 [1:42:26<4:32:53,  2.20it/s] 25%|██▍       | 11924/48008 [1:42:27<4:43:50,  2.12it/s] 25%|██▍       | 11925/48008 [1:42:27<4:45:13,  2.11it/s] 25%|██▍       | 11926/48008 [1:42:28<4:50:49,  2.07it/s] 25%|██▍       | 11927/48008 [1:42:28<4:49:54,  2.07it/s] 25%|██▍       | 11928/48008 [1:42:29<5:00:03,  2.00it/s] 25%|██▍       | 11929/48008 [1:42:29<5:03:19,  1.98it/s] 25%|██▍       | 11930/48008 [1:42:30<5:02:16,  1.99it/s] 25%|██▍       | 11931/48008 [1:42:30<4:58:11,  2.02it/s] 25%|██▍       | 11932/48008 [1:42:31<4:42:40,  2.13it/s] 25%|██▍       | 11933/48008 [1:42:31<4:44:11,  2.12it/s] 25%|██▍       | 11934/48008 [1:42:32<5:21:07,  1.87it/s] 25%|██▍       | 11935/48008 [1:42:32<5:17:48,  1.89it/s] 25%|██▍       | 11936/48008 [1:42:33<5:15:10,  1.91it/s] 25%|██▍       | 11937/48008 [1:42:33<5:14:50,  1.91it/s] 25%|██▍       | 11938/48008 [1:42:34<5:07:15,  1.96it/s] 25%|██▍       | 11939/48008 [1:42:34<5:01:49,  1.99it/s] 25%|██▍       | 11940/48008 [1:42:35<5:07:35,  1.95it/s] 25%|██▍       | 11941/48008 [1:42:35<5:08:19,  1.95it/s] 25%|██▍       | 11942/48008 [1:42:36<4:50:22,  2.07it/s] 25%|██▍       | 11943/48008 [1:42:36<4:54:28,  2.04it/s] 25%|██▍       | 11944/48008 [1:42:37<4:40:59,  2.14it/s] 25%|██▍       | 11945/48008 [1:42:37<4:31:36,  2.21it/s] 25%|██▍       | 11946/48008 [1:42:37<4:36:56,  2.17it/s] 25%|██▍       | 11947/48008 [1:42:38<4:47:50,  2.09it/s] 25%|██▍       | 11948/48008 [1:42:38<4:48:17,  2.08it/s] 25%|██▍       | 11949/48008 [1:42:39<4:36:16,  2.18it/s] 25%|██▍       | 11950/48008 [1:42:39<4:39:30,  2.15it/s]                                                         {'loss': 4.285, 'grad_norm': 0.13979126513004303, 'learning_rate': 0.00015022079653391102, 'epoch': 0.25} 25%|██▍       | 11950/48008 [1:42:39<4:39:30,  2.15it/s]
 25%|██▍       | 11951/48008 [1:42:40<4:42:28,  2.13it/s] 25%|██▍       | 11952/48008 [1:42:40<4:44:42,  2.11it/s] 25%|██▍       | 11953/48008 [1:42:41<4:46:32,  2.10it/s] 25%|██▍       | 11954/48008 [1:42:41<4:46:52,  2.09it/s] 25%|██▍       | 11955/48008 [1:42:42<4:51:29,  2.06it/s] 25%|██▍       | 11956/48008 [1:42:42<4:55:47,  2.03it/s] 25%|██▍       | 11957/48008 [1:42:43<4:41:55,  2.13it/s] 25%|██▍       | 11958/48008 [1:42:43<4:47:24,  2.09it/s] 25%|██▍       | 11959/48008 [1:42:44<5:22:07,  1.87it/s] 25%|██▍       | 11960/48008 [1:42:44<5:11:49,  1.93it/s] 25%|██▍       | 11961/48008 [1:42:45<5:12:31,  1.92it/s] 25%|██▍       | 11962/48008 [1:42:45<5:16:34,  1.90it/s] 25%|██▍       | 11963/48008 [1:42:46<5:07:46,  1.95it/s] 25%|██▍       | 11964/48008 [1:42:46<5:06:01,  1.96it/s] 25%|██▍       | 11965/48008 [1:42:47<5:00:35,  2.00it/s] 25%|██▍       | 11966/48008 [1:42:47<5:02:59,  1.98it/s] 25%|██▍       | 11967/48008 [1:42:48<4:58:03,  2.02it/s] 25%|██▍       | 11968/48008 [1:42:48<4:55:14,  2.03it/s] 25%|██▍       | 11969/48008 [1:42:49<4:53:57,  2.04it/s] 25%|██▍       | 11970/48008 [1:42:49<4:52:02,  2.06it/s] 25%|██▍       | 11971/48008 [1:42:50<5:26:30,  1.84it/s] 25%|██▍       | 11972/48008 [1:42:51<5:22:58,  1.86it/s] 25%|██▍       | 11973/48008 [1:42:51<5:12:33,  1.92it/s] 25%|██▍       | 11974/48008 [1:42:52<5:13:08,  1.92it/s] 25%|██▍       | 11975/48008 [1:42:52<5:16:16,  1.90it/s] 25%|██▍       | 11976/48008 [1:42:53<5:07:04,  1.96it/s] 25%|██▍       | 11977/48008 [1:42:53<5:01:10,  1.99it/s] 25%|██▍       | 11978/48008 [1:42:54<5:01:29,  1.99it/s] 25%|██▍       | 11979/48008 [1:42:54<4:57:13,  2.02it/s] 25%|██▍       | 11980/48008 [1:42:55<5:02:00,  1.99it/s] 25%|██▍       | 11981/48008 [1:42:55<4:46:30,  2.10it/s] 25%|██▍       | 11982/48008 [1:42:55<4:46:43,  2.09it/s] 25%|██▍       | 11983/48008 [1:42:56<4:48:02,  2.08it/s] 25%|██▍       | 11984/48008 [1:42:56<4:48:24,  2.08it/s] 25%|██▍       | 11985/48008 [1:42:57<4:48:40,  2.08it/s] 25%|██▍       | 11986/48008 [1:42:57<4:48:46,  2.08it/s] 25%|██▍       | 11987/48008 [1:42:58<4:36:37,  2.17it/s] 25%|██▍       | 11988/48008 [1:42:58<4:51:14,  2.06it/s] 25%|██▍       | 11989/48008 [1:42:59<4:39:11,  2.15it/s] 25%|██▍       | 11990/48008 [1:42:59<4:45:08,  2.11it/s] 25%|██▍       | 11991/48008 [1:43:00<4:52:33,  2.05it/s] 25%|██▍       | 11992/48008 [1:43:00<4:51:29,  2.06it/s] 25%|██▍       | 11993/48008 [1:43:01<4:54:36,  2.04it/s] 25%|██▍       | 11994/48008 [1:43:02<6:04:39,  1.65it/s] 25%|██▍       | 11995/48008 [1:43:02<5:41:13,  1.76it/s] 25%|██▍       | 11996/48008 [1:43:02<5:13:43,  1.91it/s] 25%|██▍       | 11997/48008 [1:43:03<5:06:34,  1.96it/s] 25%|██▍       | 11998/48008 [1:43:04<5:10:52,  1.93it/s] 25%|██▍       | 11999/48008 [1:43:04<5:08:10,  1.95it/s] 25%|██▍       | 12000/48008 [1:43:04<5:01:11,  1.99it/s]                                                         {'loss': 4.2829, 'grad_norm': 0.12909486889839172, 'learning_rate': 0.00015001249791701384, 'epoch': 0.25}
 25%|██▍       | 12000/48008 [1:43:04<5:01:11,  1.99it/s] 25%|██▍       | 12001/48008 [1:43:05<4:46:02,  2.10it/s] 25%|██▌       | 12002/48008 [1:43:05<4:35:00,  2.18it/s] 25%|██▌       | 12003/48008 [1:43:06<4:48:48,  2.08it/s] 25%|██▌       | 12004/48008 [1:43:06<4:52:35,  2.05it/s] 25%|██▌       | 12005/48008 [1:43:07<4:54:37,  2.04it/s] 25%|██▌       | 12006/48008 [1:43:07<4:57:21,  2.02it/s] 25%|██▌       | 12007/48008 [1:43:08<4:59:01,  2.01it/s] 25%|██▌       | 12008/48008 [1:43:08<5:00:16,  2.00it/s] 25%|██▌       | 12009/48008 [1:43:09<5:30:46,  1.81it/s] 25%|██▌       | 12010/48008 [1:43:10<5:18:10,  1.89it/s] 25%|██▌       | 12011/48008 [1:43:10<5:15:45,  1.90it/s] 25%|██▌       | 12012/48008 [1:43:11<6:17:56,  1.59it/s] 25%|██▌       | 12013/48008 [1:43:11<5:39:22,  1.77it/s] 25%|██▌       | 12014/48008 [1:43:12<5:28:38,  1.83it/s] 25%|██▌       | 12015/48008 [1:43:12<5:23:24,  1.85it/s] 25%|██▌       | 12016/48008 [1:43:13<5:01:18,  1.99it/s] 25%|██▌       | 12017/48008 [1:43:13<4:56:48,  2.02it/s] 25%|██▌       | 12018/48008 [1:43:14<4:42:40,  2.12it/s] 25%|██▌       | 12019/48008 [1:43:14<4:52:00,  2.05it/s] 25%|██▌       | 12020/48008 [1:43:15<4:55:42,  2.03it/s] 25%|██▌       | 12021/48008 [1:43:15<4:53:26,  2.04it/s] 25%|██▌       | 12022/48008 [1:43:16<4:51:52,  2.05it/s] 25%|██▌       | 12023/48008 [1:43:16<4:51:20,  2.06it/s] 25%|██▌       | 12024/48008 [1:43:17<4:49:54,  2.07it/s] 25%|██▌       | 12025/48008 [1:43:17<4:53:16,  2.04it/s] 25%|██▌       | 12026/48008 [1:43:18<4:55:47,  2.03it/s] 25%|██▌       | 12027/48008 [1:43:19<7:11:23,  1.39it/s] 25%|██▌       | 12028/48008 [1:43:19<6:28:36,  1.54it/s] 25%|██▌       | 12029/48008 [1:43:20<6:08:21,  1.63it/s] 25%|██▌       | 12030/48008 [1:43:20<5:48:26,  1.72it/s] 25%|██▌       | 12031/48008 [1:43:21<5:30:28,  1.81it/s] 25%|██▌       | 12032/48008 [1:43:21<5:17:13,  1.89it/s] 25%|██▌       | 12033/48008 [1:43:22<4:56:12,  2.02it/s] 25%|██▌       | 12034/48008 [1:43:22<4:57:36,  2.01it/s] 25%|██▌       | 12035/48008 [1:43:23<4:54:05,  2.04it/s] 25%|██▌       | 12036/48008 [1:43:23<4:40:25,  2.14it/s] 25%|██▌       | 12037/48008 [1:43:24<4:42:17,  2.12it/s] 25%|██▌       | 12038/48008 [1:43:24<4:43:19,  2.12it/s] 25%|██▌       | 12039/48008 [1:43:25<4:32:25,  2.20it/s] 25%|██▌       | 12040/48008 [1:43:25<4:25:21,  2.26it/s] 25%|██▌       | 12041/48008 [1:43:25<4:32:15,  2.20it/s] 25%|██▌       | 12042/48008 [1:43:26<4:47:20,  2.09it/s] 25%|██▌       | 12043/48008 [1:43:26<4:47:09,  2.09it/s] 25%|██▌       | 12044/48008 [1:43:27<5:21:36,  1.86it/s] 25%|██▌       | 12045/48008 [1:43:28<5:14:55,  1.90it/s] 25%|██▌       | 12046/48008 [1:43:28<5:11:58,  1.92it/s] 25%|██▌       | 12047/48008 [1:43:29<5:39:08,  1.77it/s] 25%|██▌       | 12048/48008 [1:43:29<5:23:45,  1.85it/s] 25%|██▌       | 12049/48008 [1:43:30<5:48:39,  1.72it/s] 25%|██▌       | 12050/48008 [1:43:30<5:34:51,  1.79it/s]                                                         {'loss': 4.2915, 'grad_norm': 0.30277925729751587, 'learning_rate': 0.00014980419930011666, 'epoch': 0.25}
 25%|██▌       | 12050/48008 [1:43:30<5:34:51,  1.79it/s] 25%|██▌       | 12051/48008 [1:43:31<5:31:20,  1.81it/s] 25%|██▌       | 12052/48008 [1:43:31<5:18:12,  1.88it/s] 25%|██▌       | 12053/48008 [1:43:32<5:08:20,  1.94it/s] 25%|██▌       | 12054/48008 [1:43:32<5:08:22,  1.94it/s] 25%|██▌       | 12055/48008 [1:43:33<5:02:09,  1.98it/s] 25%|██▌       | 12056/48008 [1:43:33<4:46:08,  2.09it/s] 25%|██▌       | 12057/48008 [1:43:34<4:34:47,  2.18it/s] 25%|██▌       | 12058/48008 [1:43:34<4:42:20,  2.12it/s] 25%|██▌       | 12059/48008 [1:43:35<4:47:48,  2.08it/s] 25%|██▌       | 12060/48008 [1:43:35<4:58:10,  2.01it/s] 25%|██▌       | 12061/48008 [1:43:36<4:54:46,  2.03it/s] 25%|██▌       | 12062/48008 [1:43:36<4:57:44,  2.01it/s] 25%|██▌       | 12063/48008 [1:43:37<4:54:41,  2.03it/s] 25%|██▌       | 12064/48008 [1:43:37<4:51:43,  2.05it/s] 25%|██▌       | 12065/48008 [1:43:38<4:53:51,  2.04it/s] 25%|██▌       | 12066/48008 [1:43:38<4:51:50,  2.05it/s] 25%|██▌       | 12067/48008 [1:43:39<4:38:41,  2.15it/s] 25%|██▌       | 12068/48008 [1:43:39<4:42:10,  2.12it/s] 25%|██▌       | 12069/48008 [1:43:40<4:47:48,  2.08it/s] 25%|██▌       | 12070/48008 [1:43:40<4:54:06,  2.04it/s] 25%|██▌       | 12071/48008 [1:43:41<5:26:17,  1.84it/s] 25%|██▌       | 12072/48008 [1:43:41<5:18:30,  1.88it/s] 25%|██▌       | 12073/48008 [1:43:42<5:10:01,  1.93it/s] 25%|██▌       | 12074/48008 [1:43:42<5:07:31,  1.95it/s] 25%|██▌       | 12075/48008 [1:43:43<4:49:51,  2.07it/s] 25%|██▌       | 12076/48008 [1:43:43<4:55:41,  2.03it/s] 25%|██▌       | 12077/48008 [1:43:44<4:59:30,  2.00it/s] 25%|██▌       | 12078/48008 [1:43:44<4:43:37,  2.11it/s] 25%|██▌       | 12079/48008 [1:43:45<4:33:03,  2.19it/s] 25%|██▌       | 12080/48008 [1:43:45<4:25:06,  2.26it/s] 25%|██▌       | 12081/48008 [1:43:45<4:31:38,  2.20it/s] 25%|██▌       | 12082/48008 [1:43:46<4:40:59,  2.13it/s] 25%|██▌       | 12083/48008 [1:43:47<5:54:10,  1.69it/s] 25%|██▌       | 12084/48008 [1:43:47<5:41:19,  1.75it/s] 25%|██▌       | 12085/48008 [1:43:48<5:24:50,  1.84it/s] 25%|██▌       | 12086/48008 [1:43:48<5:17:34,  1.89it/s] 25%|██▌       | 12087/48008 [1:43:49<5:11:57,  1.92it/s] 25%|██▌       | 12088/48008 [1:43:49<5:04:49,  1.96it/s] 25%|██▌       | 12089/48008 [1:43:50<4:59:00,  2.00it/s] 25%|██▌       | 12090/48008 [1:43:50<4:59:24,  2.00it/s] 25%|██▌       | 12091/48008 [1:43:51<4:55:26,  2.03it/s] 25%|██▌       | 12092/48008 [1:43:51<4:52:55,  2.04it/s] 25%|██▌       | 12093/48008 [1:43:52<4:50:36,  2.06it/s] 25%|██▌       | 12094/48008 [1:43:53<7:09:44,  1.39it/s] 25%|██▌       | 12095/48008 [1:43:54<6:31:04,  1.53it/s] 25%|██▌       | 12096/48008 [1:43:54<6:06:41,  1.63it/s] 25%|██▌       | 12097/48008 [1:43:54<5:31:02,  1.81it/s] 25%|██▌       | 12098/48008 [1:43:55<5:17:41,  1.88it/s] 25%|██▌       | 12099/48008 [1:43:55<5:18:42,  1.88it/s] 25%|██▌       | 12100/48008 [1:43:56<5:43:27,  1.74it/s]                                                         {'loss': 4.2556, 'grad_norm': 0.14948731660842896, 'learning_rate': 0.00014959590068321947, 'epoch': 0.25}
 25%|██▌       | 12100/48008 [1:43:56<5:43:27,  1.74it/s] 25%|██▌       | 12101/48008 [1:43:57<5:26:56,  1.83it/s] 25%|██▌       | 12102/48008 [1:43:57<5:49:56,  1.71it/s] 25%|██▌       | 12103/48008 [1:43:58<5:41:29,  1.75it/s] 25%|██▌       | 12104/48008 [1:43:58<5:25:13,  1.84it/s] 25%|██▌       | 12105/48008 [1:43:59<5:24:03,  1.85it/s] 25%|██▌       | 12106/48008 [1:43:59<5:12:29,  1.91it/s] 25%|██▌       | 12107/48008 [1:44:00<5:08:51,  1.94it/s] 25%|██▌       | 12108/48008 [1:44:00<5:06:39,  1.95it/s] 25%|██▌       | 12109/48008 [1:44:01<5:00:00,  1.99it/s] 25%|██▌       | 12110/48008 [1:44:01<5:00:02,  1.99it/s] 25%|██▌       | 12111/48008 [1:44:02<5:30:10,  1.81it/s] 25%|██▌       | 12112/48008 [1:44:02<5:17:30,  1.88it/s] 25%|██▌       | 12113/48008 [1:44:03<5:15:12,  1.90it/s] 25%|██▌       | 12114/48008 [1:44:03<5:10:27,  1.93it/s] 25%|██▌       | 12115/48008 [1:44:04<5:11:16,  1.92it/s] 25%|██▌       | 12116/48008 [1:44:05<5:15:20,  1.90it/s] 25%|██▌       | 12117/48008 [1:44:05<5:16:58,  1.89it/s] 25%|██▌       | 12118/48008 [1:44:06<5:43:07,  1.74it/s] 25%|██▌       | 12119/48008 [1:44:06<5:33:47,  1.79it/s] 25%|██▌       | 12120/48008 [1:44:07<5:23:32,  1.85it/s] 25%|██▌       | 12121/48008 [1:44:07<5:11:52,  1.92it/s] 25%|██▌       | 12122/48008 [1:44:08<5:04:28,  1.96it/s] 25%|██▌       | 12123/48008 [1:44:08<5:03:11,  1.97it/s] 25%|██▌       | 12124/48008 [1:44:09<5:06:04,  1.95it/s] 25%|██▌       | 12125/48008 [1:44:10<6:11:34,  1.61it/s] 25%|██▌       | 12126/48008 [1:44:10<5:45:53,  1.73it/s] 25%|██▌       | 12127/48008 [1:44:11<5:28:11,  1.82it/s] 25%|██▌       | 12128/48008 [1:44:11<5:15:35,  1.89it/s] 25%|██▌       | 12129/48008 [1:44:12<5:10:30,  1.93it/s] 25%|██▌       | 12130/48008 [1:44:12<5:02:38,  1.98it/s] 25%|██▌       | 12131/48008 [1:44:13<4:57:59,  2.01it/s] 25%|██▌       | 12132/48008 [1:44:13<4:53:58,  2.03it/s] 25%|██▌       | 12133/48008 [1:44:13<4:55:13,  2.03it/s] 25%|██▌       | 12134/48008 [1:44:14<5:27:01,  1.83it/s] 25%|██▌       | 12135/48008 [1:44:15<5:03:41,  1.97it/s] 25%|██▌       | 12136/48008 [1:44:15<4:47:00,  2.08it/s] 25%|██▌       | 12137/48008 [1:44:15<4:47:07,  2.08it/s] 25%|██▌       | 12138/48008 [1:44:16<4:50:58,  2.05it/s] 25%|██▌       | 12139/48008 [1:44:16<4:49:49,  2.06it/s] 25%|██▌       | 12140/48008 [1:44:17<4:53:44,  2.04it/s] 25%|██▌       | 12141/48008 [1:44:17<4:55:18,  2.02it/s] 25%|██▌       | 12142/48008 [1:44:18<4:56:52,  2.01it/s] 25%|██▌       | 12143/48008 [1:44:18<5:00:39,  1.99it/s] 25%|██▌       | 12144/48008 [1:44:19<5:00:29,  1.99it/s] 25%|██▌       | 12145/48008 [1:44:19<5:01:00,  1.99it/s] 25%|██▌       | 12146/48008 [1:44:20<4:45:08,  2.10it/s] 25%|██▌       | 12147/48008 [1:44:20<4:46:30,  2.09it/s] 25%|██▌       | 12148/48008 [1:44:21<4:34:34,  2.18it/s] 25%|██▌       | 12149/48008 [1:44:21<4:38:46,  2.14it/s] 25%|██▌       | 12150/48008 [1:44:22<4:29:50,  2.21it/s]                                                         {'loss': 4.3017, 'grad_norm': 0.3616689443588257, 'learning_rate': 0.0001493876020663223, 'epoch': 0.25}
 25%|██▌       | 12150/48008 [1:44:22<4:29:50,  2.21it/s] 25%|██▌       | 12151/48008 [1:44:22<4:38:29,  2.15it/s] 25%|██▌       | 12152/48008 [1:44:23<4:44:23,  2.10it/s] 25%|██▌       | 12153/48008 [1:44:23<4:32:59,  2.19it/s] 25%|██▌       | 12154/48008 [1:44:24<4:36:57,  2.16it/s] 25%|██▌       | 12155/48008 [1:44:24<4:43:52,  2.11it/s] 25%|██▌       | 12156/48008 [1:44:25<4:48:50,  2.07it/s] 25%|██▌       | 12157/48008 [1:44:25<4:30:38,  2.21it/s] 25%|██▌       | 12158/48008 [1:44:26<4:43:32,  2.11it/s] 25%|██▌       | 12159/48008 [1:44:26<4:43:51,  2.10it/s] 25%|██▌       | 12160/48008 [1:44:26<4:33:08,  2.19it/s] 25%|██▌       | 12161/48008 [1:44:27<4:25:33,  2.25it/s] 25%|██▌       | 12162/48008 [1:44:27<4:20:39,  2.29it/s] 25%|██▌       | 12163/48008 [1:44:28<4:28:11,  2.23it/s] 25%|██▌       | 12164/48008 [1:44:28<4:38:27,  2.15it/s] 25%|██▌       | 12165/48008 [1:44:29<4:44:33,  2.10it/s] 25%|██▌       | 12166/48008 [1:44:29<4:33:54,  2.18it/s] 25%|██▌       | 12167/48008 [1:44:30<4:47:32,  2.08it/s] 25%|██▌       | 12168/48008 [1:44:30<4:50:30,  2.06it/s] 25%|██▌       | 12169/48008 [1:44:31<4:37:16,  2.15it/s] 25%|██▌       | 12170/48008 [1:44:31<4:46:23,  2.09it/s] 25%|██▌       | 12171/48008 [1:44:32<4:47:18,  2.08it/s] 25%|██▌       | 12172/48008 [1:44:32<4:35:12,  2.17it/s] 25%|██▌       | 12173/48008 [1:44:32<4:42:36,  2.11it/s] 25%|██▌       | 12174/48008 [1:44:33<4:48:23,  2.07it/s] 25%|██▌       | 12175/48008 [1:44:33<4:29:49,  2.21it/s] 25%|██▌       | 12176/48008 [1:44:34<4:35:22,  2.17it/s] 25%|██▌       | 12177/48008 [1:44:34<4:38:43,  2.14it/s] 25%|██▌       | 12178/48008 [1:44:35<4:41:30,  2.12it/s] 25%|██▌       | 12179/48008 [1:44:35<4:30:30,  2.21it/s] 25%|██▌       | 12180/48008 [1:44:36<4:35:06,  2.17it/s] 25%|██▌       | 12181/48008 [1:44:36<4:39:17,  2.14it/s] 25%|██▌       | 12182/48008 [1:44:37<4:42:12,  2.12it/s] 25%|██▌       | 12183/48008 [1:44:37<4:43:21,  2.11it/s] 25%|██▌       | 12184/48008 [1:44:38<4:47:44,  2.07it/s] 25%|██▌       | 12185/48008 [1:44:38<4:35:31,  2.17it/s] 25%|██▌       | 12186/48008 [1:44:39<4:45:25,  2.09it/s] 25%|██▌       | 12187/48008 [1:44:39<4:45:37,  2.09it/s] 25%|██▌       | 12188/48008 [1:44:40<5:56:50,  1.67it/s] 25%|██▌       | 12189/48008 [1:44:41<6:46:59,  1.47it/s] 25%|██▌       | 12190/48008 [1:44:41<6:20:51,  1.57it/s] 25%|██▌       | 12191/48008 [1:44:42<5:56:17,  1.68it/s] 25%|██▌       | 12192/48008 [1:44:42<5:45:25,  1.73it/s] 25%|██▌       | 12193/48008 [1:44:43<5:16:04,  1.89it/s] 25%|██▌       | 12194/48008 [1:44:43<5:07:31,  1.94it/s] 25%|██▌       | 12195/48008 [1:44:44<4:50:00,  2.06it/s] 25%|██▌       | 12196/48008 [1:44:44<4:48:29,  2.07it/s] 25%|██▌       | 12197/48008 [1:44:45<4:48:10,  2.07it/s] 25%|██▌       | 12198/48008 [1:44:45<4:47:35,  2.08it/s] 25%|██▌       | 12199/48008 [1:44:46<4:47:05,  2.08it/s] 25%|██▌       | 12200/48008 [1:44:46<5:57:29,  1.67it/s]                                                         {'loss': 4.2797, 'grad_norm': 0.7974147200584412, 'learning_rate': 0.0001491793034494251, 'epoch': 0.25} 25%|██▌       | 12200/48008 [1:44:46<5:57:29,  1.67it/s]
 25%|██▌       | 12201/48008 [1:44:47<5:25:12,  1.84it/s] 25%|██▌       | 12202/48008 [1:44:48<5:48:00,  1.71it/s] 25%|██▌       | 12203/48008 [1:44:48<5:29:00,  1.81it/s] 25%|██▌       | 12204/48008 [1:44:49<5:19:48,  1.87it/s] 25%|██▌       | 12205/48008 [1:44:49<5:13:25,  1.90it/s] 25%|██▌       | 12206/48008 [1:44:50<5:16:33,  1.88it/s] 25%|██▌       | 12207/48008 [1:44:50<5:07:15,  1.94it/s] 25%|██▌       | 12208/48008 [1:44:51<5:05:34,  1.95it/s] 25%|██▌       | 12209/48008 [1:44:51<5:00:38,  1.98it/s] 25%|██▌       | 12210/48008 [1:44:51<4:45:07,  2.09it/s] 25%|██▌       | 12211/48008 [1:44:52<4:45:02,  2.09it/s] 25%|██▌       | 12212/48008 [1:44:52<4:44:48,  2.09it/s] 25%|██▌       | 12213/48008 [1:44:53<4:33:38,  2.18it/s] 25%|██▌       | 12214/48008 [1:44:53<4:37:22,  2.15it/s] 25%|██▌       | 12215/48008 [1:44:54<4:44:09,  2.10it/s] 25%|██▌       | 12216/48008 [1:44:54<4:48:24,  2.07it/s] 25%|██▌       | 12217/48008 [1:44:55<4:47:30,  2.07it/s] 25%|██▌       | 12218/48008 [1:44:55<4:46:51,  2.08it/s] 25%|██▌       | 12219/48008 [1:44:56<4:46:52,  2.08it/s] 25%|██▌       | 12220/48008 [1:44:56<4:50:25,  2.05it/s] 25%|██▌       | 12221/48008 [1:44:57<4:59:12,  1.99it/s] 25%|██▌       | 12222/48008 [1:44:57<4:43:20,  2.10it/s] 25%|██▌       | 12223/48008 [1:44:58<4:48:16,  2.07it/s] 25%|██▌       | 12224/48008 [1:44:58<4:48:03,  2.07it/s] 25%|██▌       | 12225/48008 [1:44:59<4:54:20,  2.03it/s] 25%|██▌       | 12226/48008 [1:44:59<4:58:54,  2.00it/s] 25%|██▌       | 12227/48008 [1:45:00<4:59:21,  1.99it/s] 25%|██▌       | 12228/48008 [1:45:00<5:02:06,  1.97it/s] 25%|██▌       | 12229/48008 [1:45:01<4:57:02,  2.01it/s] 25%|██▌       | 12230/48008 [1:45:01<4:53:06,  2.03it/s] 25%|██▌       | 12231/48008 [1:45:02<4:51:13,  2.05it/s] 25%|██▌       | 12232/48008 [1:45:02<4:54:59,  2.02it/s] 25%|██▌       | 12233/48008 [1:45:03<4:53:03,  2.03it/s] 25%|██▌       | 12234/48008 [1:45:03<4:54:10,  2.03it/s] 25%|██▌       | 12235/48008 [1:45:04<5:25:47,  1.83it/s] 25%|██▌       | 12236/48008 [1:45:04<5:02:07,  1.97it/s] 25%|██▌       | 12237/48008 [1:45:05<4:45:45,  2.09it/s] 25%|██▌       | 12238/48008 [1:45:05<4:49:13,  2.06it/s] 25%|██▌       | 12239/48008 [1:45:06<4:58:45,  2.00it/s] 25%|██▌       | 12240/48008 [1:45:06<4:59:39,  1.99it/s] 25%|██▌       | 12241/48008 [1:45:07<4:55:53,  2.01it/s] 25%|██▌       | 12242/48008 [1:45:07<4:52:53,  2.04it/s] 26%|██▌       | 12243/48008 [1:45:08<4:57:27,  2.00it/s] 26%|██▌       | 12244/48008 [1:45:08<4:54:09,  2.03it/s] 26%|██▌       | 12245/48008 [1:45:09<4:39:31,  2.13it/s] 26%|██▌       | 12246/48008 [1:45:09<4:29:30,  2.21it/s] 26%|██▌       | 12247/48008 [1:45:10<4:38:28,  2.14it/s] 26%|██▌       | 12248/48008 [1:45:10<4:40:44,  2.12it/s] 26%|██▌       | 12249/48008 [1:45:10<4:42:29,  2.11it/s] 26%|██▌       | 12250/48008 [1:45:11<4:53:09,  2.03it/s]                                                         {'loss': 4.3088, 'grad_norm': 0.8837426900863647, 'learning_rate': 0.00014897100483252793, 'epoch': 0.26}
 26%|██▌       | 12250/48008 [1:45:11<4:53:09,  2.03it/s] 26%|██▌       | 12251/48008 [1:45:12<4:55:51,  2.01it/s] 26%|██▌       | 12252/48008 [1:45:12<4:53:04,  2.03it/s] 26%|██▌       | 12253/48008 [1:45:13<4:54:20,  2.02it/s] 26%|██▌       | 12254/48008 [1:45:13<4:51:59,  2.04it/s] 26%|██▌       | 12255/48008 [1:45:13<4:50:17,  2.05it/s] 26%|██▌       | 12256/48008 [1:45:14<4:48:34,  2.06it/s] 26%|██▌       | 12257/48008 [1:45:14<4:36:19,  2.16it/s] 26%|██▌       | 12258/48008 [1:45:15<4:39:11,  2.13it/s] 26%|██▌       | 12259/48008 [1:45:15<4:41:32,  2.12it/s] 26%|██▌       | 12260/48008 [1:45:16<4:47:22,  2.07it/s] 26%|██▌       | 12261/48008 [1:45:16<4:35:03,  2.17it/s] 26%|██▌       | 12262/48008 [1:45:17<4:42:47,  2.11it/s] 26%|██▌       | 12263/48008 [1:45:17<4:43:52,  2.10it/s] 26%|██▌       | 12264/48008 [1:45:18<4:43:41,  2.10it/s] 26%|██▌       | 12265/48008 [1:45:18<4:32:48,  2.18it/s] 26%|██▌       | 12266/48008 [1:45:19<4:36:13,  2.16it/s] 26%|██▌       | 12267/48008 [1:45:19<4:42:41,  2.11it/s] 26%|██▌       | 12268/48008 [1:45:20<4:50:25,  2.05it/s] 26%|██▌       | 12269/48008 [1:45:20<4:36:56,  2.15it/s] 26%|██▌       | 12270/48008 [1:45:20<4:27:49,  2.22it/s] 26%|██▌       | 12271/48008 [1:45:21<4:32:35,  2.18it/s] 26%|██▌       | 12272/48008 [1:45:21<4:37:12,  2.15it/s] 26%|██▌       | 12273/48008 [1:45:22<4:43:24,  2.10it/s] 26%|██▌       | 12274/48008 [1:45:23<5:18:55,  1.87it/s] 26%|██▌       | 12275/48008 [1:45:23<5:13:47,  1.90it/s] 26%|██▌       | 12276/48008 [1:45:24<4:53:49,  2.03it/s] 26%|██▌       | 12277/48008 [1:45:24<4:33:41,  2.18it/s] 26%|██▌       | 12278/48008 [1:45:24<4:38:00,  2.14it/s] 26%|██▌       | 12279/48008 [1:45:25<4:46:34,  2.08it/s] 26%|██▌       | 12280/48008 [1:45:25<4:57:02,  2.00it/s] 26%|██▌       | 12281/48008 [1:45:26<4:58:18,  2.00it/s] 26%|██▌       | 12282/48008 [1:45:26<4:54:15,  2.02it/s] 26%|██▌       | 12283/48008 [1:45:27<4:51:05,  2.05it/s] 26%|██▌       | 12284/48008 [1:45:27<4:49:58,  2.05it/s] 26%|██▌       | 12285/48008 [1:45:28<4:48:43,  2.06it/s] 26%|██▌       | 12286/48008 [1:45:28<4:51:14,  2.04it/s] 26%|██▌       | 12287/48008 [1:45:29<4:53:38,  2.03it/s] 26%|██▌       | 12288/48008 [1:45:29<4:50:39,  2.05it/s] 26%|██▌       | 12289/48008 [1:45:30<4:53:03,  2.03it/s] 26%|██▌       | 12290/48008 [1:45:30<4:38:53,  2.13it/s] 26%|██▌       | 12291/48008 [1:45:31<5:14:46,  1.89it/s] 26%|██▌       | 12292/48008 [1:45:31<5:09:30,  1.92it/s] 26%|██▌       | 12293/48008 [1:45:32<5:07:07,  1.94it/s] 26%|██▌       | 12294/48008 [1:45:32<5:04:35,  1.95it/s] 26%|██▌       | 12295/48008 [1:45:33<4:47:23,  2.07it/s] 26%|██▌       | 12296/48008 [1:45:33<4:57:38,  2.00it/s] 26%|██▌       | 12297/48008 [1:45:34<4:54:02,  2.02it/s] 26%|██▌       | 12298/48008 [1:45:34<4:58:01,  2.00it/s] 26%|██▌       | 12299/48008 [1:45:35<6:05:22,  1.63it/s] 26%|██▌       | 12300/48008 [1:45:36<6:15:39,  1.58it/s]                                                         {'loss': 4.3387, 'grad_norm': 0.7221353650093079, 'learning_rate': 0.00014876270621563074, 'epoch': 0.26}
 26%|██▌       | 12300/48008 [1:45:36<6:15:39,  1.58it/s] 26%|██▌       | 12301/48008 [1:45:36<5:55:59,  1.67it/s] 26%|██▌       | 12302/48008 [1:45:37<5:42:24,  1.74it/s] 26%|██▌       | 12303/48008 [1:45:37<5:32:05,  1.79it/s] 26%|██▌       | 12304/48008 [1:45:38<6:28:15,  1.53it/s] 26%|██▌       | 12305/48008 [1:45:39<6:00:53,  1.65it/s] 26%|██▌       | 12306/48008 [1:45:39<5:41:44,  1.74it/s] 26%|██▌       | 12307/48008 [1:45:40<5:24:17,  1.83it/s] 26%|██▌       | 12308/48008 [1:45:40<5:12:20,  1.90it/s] 26%|██▌       | 12309/48008 [1:45:41<5:08:41,  1.93it/s] 26%|██▌       | 12310/48008 [1:45:41<4:49:59,  2.05it/s] 26%|██▌       | 12311/48008 [1:45:42<4:48:14,  2.06it/s] 26%|██▌       | 12312/48008 [1:45:42<4:54:27,  2.02it/s] 26%|██▌       | 12313/48008 [1:45:43<4:51:33,  2.04it/s] 26%|██▌       | 12314/48008 [1:45:43<5:23:40,  1.84it/s] 26%|██▌       | 12315/48008 [1:45:44<5:11:55,  1.91it/s] 26%|██▌       | 12316/48008 [1:45:44<5:03:36,  1.96it/s] 26%|██▌       | 12317/48008 [1:45:45<4:47:00,  2.07it/s] 26%|██▌       | 12318/48008 [1:45:45<4:47:29,  2.07it/s] 26%|██▌       | 12319/48008 [1:45:46<4:34:54,  2.16it/s] 26%|██▌       | 12320/48008 [1:45:46<4:37:52,  2.14it/s] 26%|██▌       | 12321/48008 [1:45:47<4:43:43,  2.10it/s] 26%|██▌       | 12322/48008 [1:45:47<4:44:31,  2.09it/s] 26%|██▌       | 12323/48008 [1:45:48<4:51:04,  2.04it/s] 26%|██▌       | 12324/48008 [1:45:48<5:23:21,  1.84it/s] 26%|██▌       | 12325/48008 [1:45:49<5:12:52,  1.90it/s] 26%|██▌       | 12326/48008 [1:45:49<5:05:29,  1.95it/s] 26%|██▌       | 12327/48008 [1:45:50<4:58:56,  1.99it/s] 26%|██▌       | 12328/48008 [1:45:50<4:42:19,  2.11it/s] 26%|██▌       | 12329/48008 [1:45:51<7:00:57,  1.41it/s] 26%|██▌       | 12330/48008 [1:45:52<6:27:38,  1.53it/s] 26%|██▌       | 12331/48008 [1:45:52<5:57:09,  1.66it/s] 26%|██▌       | 12332/48008 [1:45:53<5:43:21,  1.73it/s] 26%|██▌       | 12333/48008 [1:45:53<5:26:21,  1.82it/s] 26%|██▌       | 12334/48008 [1:45:54<5:17:37,  1.87it/s] 26%|██▌       | 12335/48008 [1:45:54<5:14:22,  1.89it/s] 26%|██▌       | 12336/48008 [1:45:55<5:05:18,  1.95it/s] 26%|██▌       | 12337/48008 [1:45:55<5:04:09,  1.95it/s] 26%|██▌       | 12338/48008 [1:45:56<4:58:19,  1.99it/s] 26%|██▌       | 12339/48008 [1:45:56<4:55:04,  2.01it/s] 26%|██▌       | 12340/48008 [1:45:57<4:52:20,  2.03it/s] 26%|██▌       | 12341/48008 [1:45:58<6:00:15,  1.65it/s] 26%|██▌       | 12342/48008 [1:45:58<5:44:32,  1.73it/s] 26%|██▌       | 12343/48008 [1:45:59<5:26:06,  1.82it/s] 26%|██▌       | 12344/48008 [1:45:59<5:47:44,  1.71it/s] 26%|██▌       | 12345/48008 [1:46:00<5:28:37,  1.81it/s] 26%|██▌       | 12346/48008 [1:46:00<5:15:55,  1.88it/s] 26%|██▌       | 12347/48008 [1:46:01<5:10:41,  1.91it/s] 26%|██▌       | 12348/48008 [1:46:01<5:09:51,  1.92it/s] 26%|██▌       | 12349/48008 [1:46:02<5:06:19,  1.94it/s] 26%|██▌       | 12350/48008 [1:46:02<5:04:11,  1.95it/s]                                                         {'loss': 4.3295, 'grad_norm': 0.6303556561470032, 'learning_rate': 0.00014855440759873356, 'epoch': 0.26}
 26%|██▌       | 12350/48008 [1:46:02<5:04:11,  1.95it/s] 26%|██▌       | 12351/48008 [1:46:03<5:03:53,  1.96it/s] 26%|██▌       | 12352/48008 [1:46:03<4:58:27,  1.99it/s] 26%|██▌       | 12353/48008 [1:46:04<5:04:13,  1.95it/s] 26%|██▌       | 12354/48008 [1:46:04<4:57:41,  2.00it/s] 26%|██▌       | 12355/48008 [1:46:05<4:54:17,  2.02it/s] 26%|██▌       | 12356/48008 [1:46:05<4:51:28,  2.04it/s] 26%|██▌       | 12357/48008 [1:46:06<4:37:47,  2.14it/s] 26%|██▌       | 12358/48008 [1:46:06<4:28:14,  2.22it/s] 26%|██▌       | 12359/48008 [1:46:07<4:33:45,  2.17it/s] 26%|██▌       | 12360/48008 [1:46:07<4:25:43,  2.24it/s] 26%|██▌       | 12361/48008 [1:46:08<5:41:47,  1.74it/s] 26%|██▌       | 12362/48008 [1:46:08<5:28:29,  1.81it/s] 26%|██▌       | 12363/48008 [1:46:09<5:15:25,  1.88it/s] 26%|██▌       | 12364/48008 [1:46:09<5:10:17,  1.91it/s] 26%|██▌       | 12365/48008 [1:46:10<4:51:46,  2.04it/s] 26%|██▌       | 12366/48008 [1:46:10<4:50:09,  2.05it/s] 26%|██▌       | 12367/48008 [1:46:11<5:58:32,  1.66it/s] 26%|██▌       | 12368/48008 [1:46:12<5:36:28,  1.77it/s] 26%|██▌       | 12369/48008 [1:46:12<5:20:56,  1.85it/s] 26%|██▌       | 12370/48008 [1:46:13<6:20:03,  1.56it/s] 26%|██▌       | 12371/48008 [1:46:13<5:39:48,  1.75it/s] 26%|██▌       | 12372/48008 [1:46:14<5:11:40,  1.91it/s] 26%|██▌       | 12373/48008 [1:46:14<5:02:57,  1.96it/s] 26%|██▌       | 12374/48008 [1:46:15<4:57:24,  2.00it/s] 26%|██▌       | 12375/48008 [1:46:15<4:57:02,  2.00it/s] 26%|██▌       | 12376/48008 [1:46:16<4:56:45,  2.00it/s] 26%|██▌       | 12377/48008 [1:46:16<4:53:16,  2.02it/s] 26%|██▌       | 12378/48008 [1:46:17<5:25:13,  1.83it/s] 26%|██▌       | 12379/48008 [1:46:17<5:16:36,  1.88it/s] 26%|██▌       | 12380/48008 [1:46:18<5:16:47,  1.87it/s] 26%|██▌       | 12381/48008 [1:46:19<5:13:56,  1.89it/s] 26%|██▌       | 12382/48008 [1:46:19<5:05:35,  1.94it/s] 26%|██▌       | 12383/48008 [1:46:19<4:59:50,  1.98it/s] 26%|██▌       | 12384/48008 [1:46:20<5:01:36,  1.97it/s] 26%|██▌       | 12385/48008 [1:46:20<4:57:17,  2.00it/s] 26%|██▌       | 12386/48008 [1:46:21<4:58:05,  1.99it/s] 26%|██▌       | 12387/48008 [1:46:21<4:58:35,  1.99it/s] 26%|██▌       | 12388/48008 [1:46:22<4:54:20,  2.02it/s] 26%|██▌       | 12389/48008 [1:46:22<4:51:09,  2.04it/s] 26%|██▌       | 12390/48008 [1:46:23<4:49:22,  2.05it/s] 26%|██▌       | 12391/48008 [1:46:24<5:21:49,  1.84it/s] 26%|██▌       | 12392/48008 [1:46:24<5:18:44,  1.86it/s] 26%|██▌       | 12393/48008 [1:46:25<5:07:35,  1.93it/s] 26%|██▌       | 12394/48008 [1:46:25<5:01:38,  1.97it/s] 26%|██▌       | 12395/48008 [1:46:26<7:13:13,  1.37it/s] 26%|██▌       | 12396/48008 [1:46:27<6:34:43,  1.50it/s] 26%|██▌       | 12397/48008 [1:46:27<6:01:00,  1.64it/s] 26%|██▌       | 12398/48008 [1:46:28<5:37:50,  1.76it/s] 26%|██▌       | 12399/48008 [1:46:28<5:25:38,  1.82it/s] 26%|██▌       | 12400/48008 [1:46:29<5:13:11,  1.89it/s]                                                         {'loss': 4.275, 'grad_norm': 0.49828270077705383, 'learning_rate': 0.00014834610898183635, 'epoch': 0.26}
 26%|██▌       | 12400/48008 [1:46:29<5:13:11,  1.89it/s] 26%|██▌       | 12401/48008 [1:46:29<5:04:26,  1.95it/s] 26%|██▌       | 12402/48008 [1:46:30<4:58:07,  1.99it/s] 26%|██▌       | 12403/48008 [1:46:30<4:42:33,  2.10it/s] 26%|██▌       | 12404/48008 [1:46:31<4:43:40,  2.09it/s] 26%|██▌       | 12405/48008 [1:46:31<4:48:27,  2.06it/s] 26%|██▌       | 12406/48008 [1:46:32<4:48:15,  2.06it/s] 26%|██▌       | 12407/48008 [1:46:32<4:57:48,  1.99it/s] 26%|██▌       | 12408/48008 [1:46:33<4:54:13,  2.02it/s] 26%|██▌       | 12409/48008 [1:46:33<5:25:50,  1.82it/s] 26%|██▌       | 12410/48008 [1:46:34<5:13:28,  1.89it/s] 26%|██▌       | 12411/48008 [1:46:34<5:15:03,  1.88it/s] 26%|██▌       | 12412/48008 [1:46:35<5:16:06,  1.88it/s] 26%|██▌       | 12413/48008 [1:46:35<5:06:27,  1.94it/s] 26%|██▌       | 12414/48008 [1:46:36<5:07:10,  1.93it/s] 26%|██▌       | 12415/48008 [1:46:36<5:01:20,  1.97it/s] 26%|██▌       | 12416/48008 [1:46:37<5:06:14,  1.94it/s] 26%|██▌       | 12417/48008 [1:46:37<5:11:04,  1.91it/s] 26%|██▌       | 12418/48008 [1:46:38<5:09:57,  1.91it/s] 26%|██▌       | 12419/48008 [1:46:38<5:07:33,  1.93it/s] 26%|██▌       | 12420/48008 [1:46:39<5:05:15,  1.94it/s] 26%|██▌       | 12421/48008 [1:46:39<4:47:36,  2.06it/s] 26%|██▌       | 12422/48008 [1:46:40<4:47:08,  2.07it/s] 26%|██▌       | 12423/48008 [1:46:41<5:21:42,  1.84it/s] 26%|██▌       | 12424/48008 [1:46:41<5:10:08,  1.91it/s] 26%|██▌       | 12425/48008 [1:46:42<5:12:28,  1.90it/s] 26%|██▌       | 12426/48008 [1:46:42<5:04:09,  1.95it/s] 26%|██▌       | 12427/48008 [1:46:43<5:05:15,  1.94it/s] 26%|██▌       | 12428/48008 [1:46:43<4:47:17,  2.06it/s] 26%|██▌       | 12429/48008 [1:46:43<4:34:43,  2.16it/s] 26%|██▌       | 12430/48008 [1:46:44<4:47:29,  2.06it/s] 26%|██▌       | 12431/48008 [1:46:44<4:50:41,  2.04it/s] 26%|██▌       | 12432/48008 [1:46:45<4:59:57,  1.98it/s] 26%|██▌       | 12433/48008 [1:46:45<4:37:09,  2.14it/s] 26%|██▌       | 12434/48008 [1:46:46<4:39:41,  2.12it/s] 26%|██▌       | 12435/48008 [1:46:46<4:40:27,  2.11it/s] 26%|██▌       | 12436/48008 [1:46:47<4:49:20,  2.05it/s] 26%|██▌       | 12437/48008 [1:46:47<4:51:57,  2.03it/s] 26%|██▌       | 12438/48008 [1:46:48<4:50:26,  2.04it/s] 26%|██▌       | 12439/48008 [1:46:48<4:48:45,  2.05it/s] 26%|██▌       | 12440/48008 [1:46:49<4:47:25,  2.06it/s] 26%|██▌       | 12441/48008 [1:46:49<4:46:01,  2.07it/s] 26%|██▌       | 12442/48008 [1:46:50<5:20:02,  1.85it/s] 26%|██▌       | 12443/48008 [1:46:50<5:09:42,  1.91it/s] 26%|██▌       | 12444/48008 [1:46:51<4:50:35,  2.04it/s] 26%|██▌       | 12445/48008 [1:46:51<4:55:33,  2.01it/s] 26%|██▌       | 12446/48008 [1:46:52<4:40:20,  2.11it/s] 26%|██▌       | 12447/48008 [1:46:52<4:41:51,  2.10it/s] 26%|██▌       | 12448/48008 [1:46:53<6:23:38,  1.54it/s] 26%|██▌       | 12449/48008 [1:46:54<6:27:51,  1.53it/s] 26%|██▌       | 12450/48008 [1:46:54<6:03:48,  1.63it/s]                                                         {'loss': 4.3025, 'grad_norm': 0.3347756266593933, 'learning_rate': 0.0001481378103649392, 'epoch': 0.26}
 26%|██▌       | 12450/48008 [1:46:54<6:03:48,  1.63it/s] 26%|██▌       | 12451/48008 [1:46:55<5:40:11,  1.74it/s] 26%|██▌       | 12452/48008 [1:46:56<7:39:44,  1.29it/s] 26%|██▌       | 12453/48008 [1:46:57<6:35:14,  1.50it/s] 26%|██▌       | 12454/48008 [1:46:57<6:01:38,  1.64it/s] 26%|██▌       | 12455/48008 [1:46:58<5:38:22,  1.75it/s] 26%|██▌       | 12456/48008 [1:46:58<5:22:20,  1.84it/s] 26%|██▌       | 12457/48008 [1:46:59<5:20:44,  1.85it/s] 26%|██▌       | 12458/48008 [1:46:59<5:13:19,  1.89it/s] 26%|██▌       | 12459/48008 [1:47:00<5:03:53,  1.95it/s] 26%|██▌       | 12460/48008 [1:47:00<5:02:38,  1.96it/s] 26%|██▌       | 12461/48008 [1:47:01<5:00:30,  1.97it/s] 26%|██▌       | 12462/48008 [1:47:01<4:59:39,  1.98it/s] 26%|██▌       | 12463/48008 [1:47:02<4:58:59,  1.98it/s] 26%|██▌       | 12464/48008 [1:47:02<4:53:55,  2.02it/s] 26%|██▌       | 12465/48008 [1:47:03<4:51:22,  2.03it/s] 26%|██▌       | 12466/48008 [1:47:03<4:37:10,  2.14it/s] 26%|██▌       | 12467/48008 [1:47:03<4:27:56,  2.21it/s] 26%|██▌       | 12468/48008 [1:47:04<4:43:14,  2.09it/s] 26%|██▌       | 12469/48008 [1:47:04<4:43:07,  2.09it/s] 26%|██▌       | 12470/48008 [1:47:05<4:47:29,  2.06it/s] 26%|██▌       | 12471/48008 [1:47:05<4:34:34,  2.16it/s] 26%|██▌       | 12472/48008 [1:47:06<4:41:55,  2.10it/s] 26%|██▌       | 12473/48008 [1:47:06<4:30:49,  2.19it/s] 26%|██▌       | 12474/48008 [1:47:07<4:34:51,  2.15it/s] 26%|██▌       | 12475/48008 [1:47:07<4:26:16,  2.22it/s] 26%|██▌       | 12476/48008 [1:47:08<4:31:05,  2.18it/s] 26%|██▌       | 12477/48008 [1:47:08<4:45:10,  2.08it/s] 26%|██▌       | 12478/48008 [1:47:09<4:49:05,  2.05it/s] 26%|██▌       | 12479/48008 [1:47:09<4:47:58,  2.06it/s] 26%|██▌       | 12480/48008 [1:47:10<4:46:37,  2.07it/s] 26%|██▌       | 12481/48008 [1:47:11<7:02:55,  1.40it/s] 26%|██▌       | 12482/48008 [1:47:11<6:22:01,  1.55it/s] 26%|██▌       | 12483/48008 [1:47:12<6:03:10,  1.63it/s] 26%|██▌       | 12484/48008 [1:47:12<5:43:32,  1.72it/s] 26%|██▌       | 12485/48008 [1:47:13<5:25:13,  1.82it/s] 26%|██▌       | 12486/48008 [1:47:13<5:13:33,  1.89it/s] 26%|██▌       | 12487/48008 [1:47:14<5:08:30,  1.92it/s] 26%|██▌       | 12488/48008 [1:47:14<5:01:32,  1.96it/s] 26%|██▌       | 12489/48008 [1:47:15<5:06:58,  1.93it/s] 26%|██▌       | 12490/48008 [1:47:15<5:00:36,  1.97it/s] 26%|██▌       | 12491/48008 [1:47:16<4:59:11,  1.98it/s] 26%|██▌       | 12492/48008 [1:47:16<5:05:01,  1.94it/s] 26%|██▌       | 12493/48008 [1:47:17<5:08:34,  1.92it/s] 26%|██▌       | 12494/48008 [1:47:17<5:01:15,  1.96it/s] 26%|██▌       | 12495/48008 [1:47:18<5:30:01,  1.79it/s] 26%|██▌       | 12496/48008 [1:47:18<5:04:52,  1.94it/s] 26%|██▌       | 12497/48008 [1:47:19<4:58:00,  1.99it/s] 26%|██▌       | 12498/48008 [1:47:19<5:01:27,  1.96it/s] 26%|██▌       | 12499/48008 [1:47:20<5:03:43,  1.95it/s] 26%|██▌       | 12500/48008 [1:47:20<4:57:33,  1.99it/s]                                                         {'loss': 4.3046, 'grad_norm': 0.3127085864543915, 'learning_rate': 0.00014792951174804199, 'epoch': 0.26} 26%|██▌       | 12500/48008 [1:47:20<4:57:33,  1.99it/s]
 26%|██▌       | 12501/48008 [1:47:21<5:28:06,  1.80it/s] 26%|██▌       | 12502/48008 [1:47:22<5:14:17,  1.88it/s] 26%|██▌       | 12503/48008 [1:47:22<5:15:08,  1.88it/s] 26%|██▌       | 12504/48008 [1:47:23<5:05:51,  1.93it/s] 26%|██▌       | 12505/48008 [1:47:23<4:59:34,  1.98it/s] 26%|██▌       | 12506/48008 [1:47:24<4:58:11,  1.98it/s] 26%|██▌       | 12507/48008 [1:47:24<5:27:51,  1.80it/s] 26%|██▌       | 12508/48008 [1:47:25<5:14:24,  1.88it/s] 26%|██▌       | 12509/48008 [1:47:25<4:53:43,  2.01it/s] 26%|██▌       | 12510/48008 [1:47:26<4:38:34,  2.12it/s] 26%|██▌       | 12511/48008 [1:47:26<4:49:54,  2.04it/s] 26%|██▌       | 12512/48008 [1:47:27<4:48:24,  2.05it/s] 26%|██▌       | 12513/48008 [1:47:27<4:47:15,  2.06it/s] 26%|██▌       | 12514/48008 [1:47:28<4:46:42,  2.06it/s] 26%|██▌       | 12515/48008 [1:47:28<4:27:55,  2.21it/s] 26%|██▌       | 12516/48008 [1:47:28<4:42:37,  2.09it/s] 26%|██▌       | 12517/48008 [1:47:29<5:53:35,  1.67it/s] 26%|██▌       | 12518/48008 [1:47:30<5:42:32,  1.73it/s] 26%|██▌       | 12519/48008 [1:47:30<5:28:56,  1.80it/s] 26%|██▌       | 12520/48008 [1:47:31<5:15:19,  1.88it/s] 26%|██▌       | 12521/48008 [1:47:31<5:05:09,  1.94it/s] 26%|██▌       | 12522/48008 [1:47:32<4:46:51,  2.06it/s] 26%|██▌       | 12523/48008 [1:47:32<4:33:50,  2.16it/s] 26%|██▌       | 12524/48008 [1:47:33<4:44:04,  2.08it/s] 26%|██▌       | 12525/48008 [1:47:33<4:50:41,  2.03it/s] 26%|██▌       | 12526/48008 [1:47:34<4:48:57,  2.05it/s] 26%|██▌       | 12527/48008 [1:47:35<7:03:19,  1.40it/s] 26%|██▌       | 12528/48008 [1:47:36<8:59:18,  1.10it/s] 26%|██▌       | 12529/48008 [1:47:37<7:49:06,  1.26it/s] 26%|██▌       | 12530/48008 [1:47:37<6:54:18,  1.43it/s] 26%|██▌       | 12531/48008 [1:47:38<6:03:55,  1.62it/s] 26%|██▌       | 12532/48008 [1:47:38<5:28:37,  1.80it/s] 26%|██▌       | 12533/48008 [1:47:39<5:04:13,  1.94it/s] 26%|██▌       | 12534/48008 [1:47:40<7:34:27,  1.30it/s] 26%|██▌       | 12535/48008 [1:47:40<6:42:26,  1.47it/s] 26%|██▌       | 12536/48008 [1:47:41<6:07:42,  1.61it/s] 26%|██▌       | 12537/48008 [1:47:41<5:42:41,  1.73it/s] 26%|██▌       | 12538/48008 [1:47:42<5:58:42,  1.65it/s] 26%|██▌       | 12539/48008 [1:47:43<5:36:09,  1.76it/s] 26%|██▌       | 12540/48008 [1:47:44<6:58:59,  1.41it/s] 26%|██▌       | 12541/48008 [1:47:44<6:19:22,  1.56it/s] 26%|██▌       | 12542/48008 [1:47:44<5:38:45,  1.74it/s] 26%|██▌       | 12543/48008 [1:47:45<5:11:00,  1.90it/s] 26%|██▌       | 12544/48008 [1:47:45<5:10:45,  1.90it/s] 26%|██▌       | 12545/48008 [1:47:46<5:02:09,  1.96it/s] 26%|██▌       | 12546/48008 [1:47:47<6:06:50,  1.61it/s] 26%|██▌       | 12547/48008 [1:47:47<5:45:59,  1.71it/s] 26%|██▌       | 12548/48008 [1:47:48<5:26:47,  1.81it/s] 26%|██▌       | 12549/48008 [1:47:48<5:18:24,  1.86it/s] 26%|██▌       | 12550/48008 [1:47:49<4:56:15,  1.99it/s]                                                         {'loss': 4.2536, 'grad_norm': 0.34115397930145264, 'learning_rate': 0.00014772121313114483, 'epoch': 0.26} 26%|██▌       | 12550/48008 [1:47:49<4:56:15,  1.99it/s]
 26%|██▌       | 12551/48008 [1:47:49<4:40:30,  2.11it/s] 26%|██▌       | 12552/48008 [1:47:50<4:40:53,  2.10it/s] 26%|██▌       | 12553/48008 [1:47:50<4:29:35,  2.19it/s] 26%|██▌       | 12554/48008 [1:47:50<4:39:59,  2.11it/s] 26%|██▌       | 12555/48008 [1:47:51<4:46:12,  2.06it/s] 26%|██▌       | 12556/48008 [1:47:51<4:45:49,  2.07it/s] 26%|██▌       | 12557/48008 [1:47:52<4:55:34,  2.00it/s] 26%|██▌       | 12558/48008 [1:47:52<4:57:06,  1.99it/s] 26%|██▌       | 12559/48008 [1:47:53<4:52:56,  2.02it/s] 26%|██▌       | 12560/48008 [1:47:53<4:38:18,  2.12it/s] 26%|██▌       | 12561/48008 [1:47:54<4:39:39,  2.11it/s] 26%|██▌       | 12562/48008 [1:47:54<4:29:36,  2.19it/s] 26%|██▌       | 12563/48008 [1:47:55<4:22:46,  2.25it/s] 26%|██▌       | 12564/48008 [1:47:56<6:44:46,  1.46it/s] 26%|██▌       | 12565/48008 [1:47:56<6:08:12,  1.60it/s] 26%|██▌       | 12566/48008 [1:47:57<5:49:54,  1.69it/s] 26%|██▌       | 12567/48008 [1:47:57<5:29:06,  1.79it/s] 26%|██▌       | 12568/48008 [1:47:58<5:16:14,  1.87it/s] 26%|██▌       | 12569/48008 [1:47:58<5:12:40,  1.89it/s] 26%|██▌       | 12570/48008 [1:47:59<5:07:17,  1.92it/s] 26%|██▌       | 12571/48008 [1:47:59<4:48:54,  2.04it/s] 26%|██▌       | 12572/48008 [1:48:00<4:51:40,  2.02it/s] 26%|██▌       | 12573/48008 [1:48:00<4:53:06,  2.01it/s] 26%|██▌       | 12574/48008 [1:48:01<4:50:34,  2.03it/s] 26%|██▌       | 12575/48008 [1:48:01<4:47:54,  2.05it/s] 26%|██▌       | 12576/48008 [1:48:02<4:47:25,  2.05it/s] 26%|██▌       | 12577/48008 [1:48:02<4:46:37,  2.06it/s] 26%|██▌       | 12578/48008 [1:48:03<4:45:19,  2.07it/s] 26%|██▌       | 12579/48008 [1:48:03<4:44:53,  2.07it/s] 26%|██▌       | 12580/48008 [1:48:04<7:00:18,  1.40it/s] 26%|██▌       | 12581/48008 [1:48:05<6:18:50,  1.56it/s] 26%|██▌       | 12582/48008 [1:48:05<5:50:42,  1.68it/s] 26%|██▌       | 12583/48008 [1:48:06<5:35:08,  1.76it/s] 26%|██▌       | 12584/48008 [1:48:07<5:53:45,  1.67it/s] 26%|██▌       | 12585/48008 [1:48:07<5:37:06,  1.75it/s] 26%|██▌       | 12586/48008 [1:48:08<5:20:30,  1.84it/s] 26%|██▌       | 12587/48008 [1:48:09<7:26:01,  1.32it/s] 26%|██▌       | 12588/48008 [1:48:09<6:43:51,  1.46it/s] 26%|██▌       | 12589/48008 [1:48:10<6:08:27,  1.60it/s] 26%|██▌       | 12590/48008 [1:48:10<5:43:14,  1.72it/s] 26%|██▌       | 12591/48008 [1:48:11<5:32:51,  1.77it/s] 26%|██▌       | 12592/48008 [1:48:11<5:06:02,  1.93it/s] 26%|██▌       | 12593/48008 [1:48:12<5:05:53,  1.93it/s] 26%|██▌       | 12594/48008 [1:48:12<5:02:56,  1.95it/s] 26%|██▌       | 12595/48008 [1:48:14<7:13:30,  1.36it/s] 26%|██▌       | 12596/48008 [1:48:14<6:28:37,  1.52it/s] 26%|██▌       | 12597/48008 [1:48:14<5:57:37,  1.65it/s] 26%|██▌       | 12598/48008 [1:48:15<5:41:49,  1.73it/s] 26%|██▌       | 12599/48008 [1:48:16<5:57:57,  1.65it/s] 26%|██▌       | 12600/48008 [1:48:16<5:35:11,  1.76it/s]                                                         {'loss': 4.2909, 'grad_norm': 0.17980223894119263, 'learning_rate': 0.00014751291451424762, 'epoch': 0.26}
 26%|██▌       | 12600/48008 [1:48:16<5:35:11,  1.76it/s] 26%|██▌       | 12601/48008 [1:48:17<5:19:01,  1.85it/s] 26%|██▌       | 12602/48008 [1:48:17<5:14:33,  1.88it/s] 26%|██▋       | 12603/48008 [1:48:18<5:04:57,  1.93it/s] 26%|██▋       | 12604/48008 [1:48:18<5:05:29,  1.93it/s] 26%|██▋       | 12605/48008 [1:48:19<5:03:20,  1.95it/s] 26%|██▋       | 12606/48008 [1:48:19<5:01:57,  1.95it/s] 26%|██▋       | 12607/48008 [1:48:20<4:56:37,  1.99it/s] 26%|██▋       | 12608/48008 [1:48:20<4:52:23,  2.02it/s] 26%|██▋       | 12609/48008 [1:48:21<4:50:49,  2.03it/s] 26%|██▋       | 12610/48008 [1:48:21<5:22:47,  1.83it/s] 26%|██▋       | 12611/48008 [1:48:22<5:16:08,  1.87it/s] 26%|██▋       | 12612/48008 [1:48:22<5:10:42,  1.90it/s] 26%|██▋       | 12613/48008 [1:48:23<5:06:29,  1.92it/s] 26%|██▋       | 12614/48008 [1:48:23<4:47:34,  2.05it/s] 26%|██▋       | 12615/48008 [1:48:24<4:50:31,  2.03it/s] 26%|██▋       | 12616/48008 [1:48:24<4:36:18,  2.13it/s] 26%|██▋       | 12617/48008 [1:48:25<4:38:34,  2.12it/s] 26%|██▋       | 12618/48008 [1:48:25<4:47:35,  2.05it/s] 26%|██▋       | 12619/48008 [1:48:26<4:49:46,  2.04it/s] 26%|██▋       | 12620/48008 [1:48:26<4:47:56,  2.05it/s] 26%|██▋       | 12621/48008 [1:48:27<4:50:10,  2.03it/s] 26%|██▋       | 12622/48008 [1:48:27<4:47:46,  2.05it/s] 26%|██▋       | 12623/48008 [1:48:28<4:46:24,  2.06it/s] 26%|██▋       | 12624/48008 [1:48:28<4:46:13,  2.06it/s] 26%|██▋       | 12625/48008 [1:48:29<5:54:43,  1.66it/s] 26%|██▋       | 12626/48008 [1:48:29<5:32:53,  1.77it/s] 26%|██▋       | 12627/48008 [1:48:30<5:18:00,  1.85it/s] 26%|██▋       | 12628/48008 [1:48:31<5:41:11,  1.73it/s] 26%|██▋       | 12629/48008 [1:48:31<5:27:51,  1.80it/s] 26%|██▋       | 12630/48008 [1:48:32<5:14:11,  1.88it/s] 26%|██▋       | 12631/48008 [1:48:32<5:08:12,  1.91it/s] 26%|██▋       | 12632/48008 [1:48:33<4:59:43,  1.97it/s] 26%|██▋       | 12633/48008 [1:48:33<5:01:15,  1.96it/s] 26%|██▋       | 12634/48008 [1:48:34<4:59:01,  1.97it/s] 26%|██▋       | 12635/48008 [1:48:34<4:54:45,  2.00it/s] 26%|██▋       | 12636/48008 [1:48:34<4:39:40,  2.11it/s] 26%|██▋       | 12637/48008 [1:48:35<4:41:14,  2.10it/s] 26%|██▋       | 12638/48008 [1:48:35<4:46:35,  2.06it/s] 26%|██▋       | 12639/48008 [1:48:36<4:46:12,  2.06it/s] 26%|██▋       | 12640/48008 [1:48:36<4:33:26,  2.16it/s] 26%|██▋       | 12641/48008 [1:48:37<4:35:54,  2.14it/s] 26%|██▋       | 12642/48008 [1:48:37<4:37:59,  2.12it/s] 26%|██▋       | 12643/48008 [1:48:38<5:13:50,  1.88it/s] 26%|██▋       | 12644/48008 [1:48:38<4:53:45,  2.01it/s] 26%|██▋       | 12645/48008 [1:48:39<4:38:54,  2.11it/s] 26%|██▋       | 12646/48008 [1:48:39<4:40:24,  2.10it/s] 26%|██▋       | 12647/48008 [1:48:40<4:51:24,  2.02it/s] 26%|██▋       | 12648/48008 [1:48:40<5:23:09,  1.82it/s] 26%|██▋       | 12649/48008 [1:48:41<5:11:23,  1.89it/s] 26%|██▋       | 12650/48008 [1:48:41<5:02:36,  1.95it/s]{'loss': 4.2564, 'grad_norm': 0.24031977355480194, 'learning_rate': 0.00014730461589735044, 'epoch': 0.26}                                                          26%|██▋       | 12650/48008 [1:48:41<5:02:36,  1.95it/s]
 26%|██▋       | 12651/48008 [1:48:42<4:56:46,  1.99it/s] 26%|██▋       | 12652/48008 [1:48:42<4:53:17,  2.01it/s] 26%|██▋       | 12653/48008 [1:48:43<4:50:21,  2.03it/s] 26%|██▋       | 12654/48008 [1:48:43<4:48:30,  2.04it/s] 26%|██▋       | 12655/48008 [1:48:44<4:46:19,  2.06it/s] 26%|██▋       | 12656/48008 [1:48:44<4:52:00,  2.02it/s] 26%|██▋       | 12657/48008 [1:48:45<4:49:05,  2.04it/s] 26%|██▋       | 12658/48008 [1:48:46<5:21:34,  1.83it/s] 26%|██▋       | 12659/48008 [1:48:46<5:17:45,  1.85it/s] 26%|██▋       | 12660/48008 [1:48:47<5:06:58,  1.92it/s] 26%|██▋       | 12661/48008 [1:48:47<5:03:05,  1.94it/s] 26%|██▋       | 12662/48008 [1:48:48<5:03:56,  1.94it/s] 26%|██▋       | 12663/48008 [1:48:48<5:01:32,  1.95it/s] 26%|██▋       | 12664/48008 [1:48:49<5:00:41,  1.96it/s] 26%|██▋       | 12665/48008 [1:48:49<4:59:22,  1.97it/s] 26%|██▋       | 12666/48008 [1:48:50<4:59:07,  1.97it/s] 26%|██▋       | 12667/48008 [1:48:50<4:53:53,  2.00it/s] 26%|██▋       | 12668/48008 [1:48:51<4:50:15,  2.03it/s] 26%|██▋       | 12669/48008 [1:48:51<4:57:27,  1.98it/s] 26%|██▋       | 12670/48008 [1:48:52<5:03:02,  1.94it/s] 26%|██▋       | 12671/48008 [1:48:52<5:30:36,  1.78it/s] 26%|██▋       | 12672/48008 [1:48:53<5:17:07,  1.86it/s] 26%|██▋       | 12673/48008 [1:48:53<5:07:06,  1.92it/s] 26%|██▋       | 12674/48008 [1:48:54<5:00:01,  1.96it/s] 26%|██▋       | 12675/48008 [1:48:54<4:59:43,  1.96it/s] 26%|██▋       | 12676/48008 [1:48:55<4:54:10,  2.00it/s] 26%|██▋       | 12677/48008 [1:48:55<5:24:28,  1.81it/s] 26%|██▋       | 12678/48008 [1:48:56<5:19:10,  1.84it/s] 26%|██▋       | 12679/48008 [1:48:56<4:56:22,  1.99it/s] 26%|██▋       | 12680/48008 [1:48:57<4:51:57,  2.02it/s] 26%|██▋       | 12681/48008 [1:48:57<4:49:15,  2.04it/s] 26%|██▋       | 12682/48008 [1:48:58<5:20:52,  1.83it/s] 26%|██▋       | 12683/48008 [1:48:58<5:09:45,  1.90it/s] 26%|██▋       | 12684/48008 [1:48:59<5:11:33,  1.89it/s] 26%|██▋       | 12685/48008 [1:48:59<4:50:48,  2.02it/s] 26%|██▋       | 12686/48008 [1:49:00<5:23:24,  1.82it/s] 26%|██▋       | 12687/48008 [1:49:01<5:11:09,  1.89it/s] 26%|██▋       | 12688/48008 [1:49:01<5:09:13,  1.90it/s] 26%|██▋       | 12689/48008 [1:49:02<5:06:35,  1.92it/s] 26%|██▋       | 12690/48008 [1:49:02<5:00:23,  1.96it/s] 26%|██▋       | 12691/48008 [1:49:03<4:55:46,  1.99it/s] 26%|██▋       | 12692/48008 [1:49:03<4:55:35,  1.99it/s] 26%|██▋       | 12693/48008 [1:49:04<4:56:13,  1.99it/s] 26%|██▋       | 12694/48008 [1:49:04<4:55:50,  1.99it/s] 26%|██▋       | 12695/48008 [1:49:05<4:55:28,  1.99it/s] 26%|██▋       | 12696/48008 [1:49:05<4:52:25,  2.01it/s] 26%|██▋       | 12697/48008 [1:49:05<4:48:33,  2.04it/s] 26%|██▋       | 12698/48008 [1:49:06<4:46:37,  2.05it/s] 26%|██▋       | 12699/48008 [1:49:06<4:52:26,  2.01it/s] 26%|██▋       | 12700/48008 [1:49:07<4:53:31,  2.00it/s]                                                         {'loss': 4.2928, 'grad_norm': 0.13481459021568298, 'learning_rate': 0.00014709631728045326, 'epoch': 0.26}
 26%|██▋       | 12700/48008 [1:49:07<4:53:31,  2.00it/s] 26%|██▋       | 12701/48008 [1:49:07<4:55:13,  1.99it/s] 26%|██▋       | 12702/48008 [1:49:08<4:52:49,  2.01it/s] 26%|██▋       | 12703/48008 [1:49:08<4:49:02,  2.04it/s] 26%|██▋       | 12704/48008 [1:49:09<4:50:58,  2.02it/s] 26%|██▋       | 12705/48008 [1:49:09<4:47:30,  2.05it/s] 26%|██▋       | 12706/48008 [1:49:10<4:28:47,  2.19it/s] 26%|██▋       | 12707/48008 [1:49:10<4:21:47,  2.25it/s] 26%|██▋       | 12708/48008 [1:49:11<4:17:06,  2.29it/s] 26%|██▋       | 12709/48008 [1:49:11<4:25:16,  2.22it/s] 26%|██▋       | 12710/48008 [1:49:12<5:41:17,  1.72it/s] 26%|██▋       | 12711/48008 [1:49:12<5:12:31,  1.88it/s] 26%|██▋       | 12712/48008 [1:49:13<4:52:20,  2.01it/s] 26%|██▋       | 12713/48008 [1:49:14<7:07:13,  1.38it/s] 26%|██▋       | 12714/48008 [1:49:15<6:27:54,  1.52it/s] 26%|██▋       | 12715/48008 [1:49:15<5:55:47,  1.65it/s] 26%|██▋       | 12716/48008 [1:49:16<5:33:04,  1.77it/s] 26%|██▋       | 12717/48008 [1:49:16<5:06:53,  1.92it/s] 26%|██▋       | 12718/48008 [1:49:17<5:33:01,  1.77it/s] 26%|██▋       | 12719/48008 [1:49:17<5:17:47,  1.85it/s] 26%|██▋       | 12720/48008 [1:49:18<5:06:55,  1.92it/s] 26%|██▋       | 12721/48008 [1:49:18<4:59:32,  1.96it/s] 26%|██▋       | 12722/48008 [1:49:19<5:04:56,  1.93it/s] 27%|██▋       | 12723/48008 [1:49:19<4:47:03,  2.05it/s] 27%|██▋       | 12724/48008 [1:49:19<4:34:35,  2.14it/s] 27%|██▋       | 12725/48008 [1:49:20<4:36:51,  2.12it/s] 27%|██▋       | 12726/48008 [1:49:20<4:38:50,  2.11it/s] 27%|██▋       | 12727/48008 [1:49:21<4:46:10,  2.05it/s] 27%|██▋       | 12728/48008 [1:49:22<5:18:41,  1.85it/s] 27%|██▋       | 12729/48008 [1:49:22<5:07:21,  1.91it/s] 27%|██▋       | 12730/48008 [1:49:23<5:03:13,  1.94it/s] 27%|██▋       | 12731/48008 [1:49:23<5:00:59,  1.95it/s] 27%|██▋       | 12732/48008 [1:49:24<4:55:53,  1.99it/s] 27%|██▋       | 12733/48008 [1:49:24<5:01:47,  1.95it/s] 27%|██▋       | 12734/48008 [1:49:25<4:56:19,  1.98it/s] 27%|██▋       | 12735/48008 [1:49:25<4:51:31,  2.02it/s] 27%|██▋       | 12736/48008 [1:49:26<4:55:50,  1.99it/s] 27%|██▋       | 12737/48008 [1:49:26<4:56:12,  1.98it/s] 27%|██▋       | 12738/48008 [1:49:27<5:00:06,  1.96it/s] 27%|██▋       | 12739/48008 [1:49:27<4:58:51,  1.97it/s] 27%|██▋       | 12740/48008 [1:49:28<4:53:31,  2.00it/s] 27%|██▋       | 12741/48008 [1:49:28<4:38:40,  2.11it/s] 27%|██▋       | 12742/48008 [1:49:29<4:40:09,  2.10it/s] 27%|██▋       | 12743/48008 [1:49:29<4:29:45,  2.18it/s] 27%|██▋       | 12744/48008 [1:49:29<4:43:45,  2.07it/s] 27%|██▋       | 12745/48008 [1:49:30<4:42:46,  2.08it/s] 27%|██▋       | 12746/48008 [1:49:30<4:52:58,  2.01it/s] 27%|██▋       | 12747/48008 [1:49:31<4:49:15,  2.03it/s] 27%|██▋       | 12748/48008 [1:49:31<4:35:43,  2.13it/s] 27%|██▋       | 12749/48008 [1:49:32<4:41:05,  2.09it/s] 27%|██▋       | 12750/48008 [1:49:32<4:30:05,  2.18it/s]                                                         {'loss': 4.3163, 'grad_norm': 0.13782384991645813, 'learning_rate': 0.00014688801866355607, 'epoch': 0.27} 27%|██▋       | 12750/48008 [1:49:32<4:30:05,  2.18it/s]
 27%|██▋       | 12751/48008 [1:49:33<4:33:50,  2.15it/s] 27%|██▋       | 12752/48008 [1:49:33<5:11:03,  1.89it/s] 27%|██▋       | 12753/48008 [1:49:34<5:12:17,  1.88it/s] 27%|██▋       | 12754/48008 [1:49:35<5:09:32,  1.90it/s] 27%|██▋       | 12755/48008 [1:49:35<5:08:28,  1.90it/s] 27%|██▋       | 12756/48008 [1:49:35<4:49:05,  2.03it/s] 27%|██▋       | 12757/48008 [1:49:36<4:56:55,  1.98it/s] 27%|██▋       | 12758/48008 [1:49:36<4:52:19,  2.01it/s] 27%|██▋       | 12759/48008 [1:49:37<4:37:38,  2.12it/s] 27%|██▋       | 12760/48008 [1:49:37<4:45:37,  2.06it/s] 27%|██▋       | 12761/48008 [1:49:38<4:32:57,  2.15it/s] 27%|██▋       | 12762/48008 [1:49:38<4:36:06,  2.13it/s] 27%|██▋       | 12763/48008 [1:49:39<4:41:44,  2.08it/s] 27%|██▋       | 12764/48008 [1:49:39<4:41:38,  2.09it/s] 27%|██▋       | 12765/48008 [1:49:40<4:52:04,  2.01it/s] 27%|██▋       | 12766/48008 [1:49:40<4:48:31,  2.04it/s] 27%|██▋       | 12767/48008 [1:49:41<4:53:57,  2.00it/s] 27%|██▋       | 12768/48008 [1:49:41<5:00:47,  1.95it/s] 27%|██▋       | 12769/48008 [1:49:42<4:55:21,  1.99it/s] 27%|██▋       | 12770/48008 [1:49:42<4:51:05,  2.02it/s] 27%|██▋       | 12771/48008 [1:49:43<4:36:44,  2.12it/s] 27%|██▋       | 12772/48008 [1:49:43<4:41:44,  2.08it/s] 27%|██▋       | 12773/48008 [1:49:44<4:45:48,  2.05it/s] 27%|██▋       | 12774/48008 [1:49:45<6:59:37,  1.40it/s] 27%|██▋       | 12775/48008 [1:49:45<6:17:59,  1.55it/s] 27%|██▋       | 12776/48008 [1:49:46<6:23:11,  1.53it/s] 27%|██▋       | 12777/48008 [1:49:47<5:52:12,  1.67it/s] 27%|██▋       | 12778/48008 [1:49:47<5:31:11,  1.77it/s] 27%|██▋       | 12779/48008 [1:49:48<5:16:48,  1.85it/s] 27%|██▋       | 12780/48008 [1:49:48<5:10:53,  1.89it/s] 27%|██▋       | 12781/48008 [1:49:49<5:01:57,  1.94it/s] 27%|██▋       | 12782/48008 [1:49:49<4:55:54,  1.98it/s] 27%|██▋       | 12783/48008 [1:49:49<4:51:17,  2.02it/s] 27%|██▋       | 12784/48008 [1:49:50<4:36:47,  2.12it/s] 27%|██▋       | 12785/48008 [1:49:50<4:37:59,  2.11it/s] 27%|██▋       | 12786/48008 [1:49:51<4:38:54,  2.10it/s] 27%|██▋       | 12787/48008 [1:49:51<4:39:31,  2.10it/s] 27%|██▋       | 12788/48008 [1:49:52<4:47:10,  2.04it/s] 27%|██▋       | 12789/48008 [1:49:52<4:45:21,  2.06it/s] 27%|██▋       | 12790/48008 [1:49:53<5:54:43,  1.65it/s] 27%|██▋       | 12791/48008 [1:49:54<5:40:03,  1.73it/s] 27%|██▋       | 12792/48008 [1:49:54<5:21:47,  1.82it/s] 27%|██▋       | 12793/48008 [1:49:55<4:58:09,  1.97it/s] 27%|██▋       | 12794/48008 [1:49:55<4:57:07,  1.98it/s] 27%|██▋       | 12795/48008 [1:49:56<5:02:14,  1.94it/s] 27%|██▋       | 12796/48008 [1:49:56<5:02:35,  1.94it/s] 27%|██▋       | 12797/48008 [1:49:57<4:56:29,  1.98it/s] 27%|██▋       | 12798/48008 [1:49:57<4:58:53,  1.96it/s] 27%|██▋       | 12799/48008 [1:49:58<4:53:00,  2.00it/s] 27%|██▋       | 12800/48008 [1:49:58<4:49:32,  2.03it/s]                                                         {'loss': 4.2956, 'grad_norm': 0.15430884063243866, 'learning_rate': 0.0001466797200466589, 'epoch': 0.27} 27%|██▋       | 12800/48008 [1:49:58<4:49:32,  2.03it/s]
 27%|██▋       | 12801/48008 [1:49:59<4:47:05,  2.04it/s] 27%|██▋       | 12802/48008 [1:49:59<4:49:29,  2.03it/s] 27%|██▋       | 12803/48008 [1:50:00<4:50:33,  2.02it/s] 27%|██▋       | 12804/48008 [1:50:00<4:47:56,  2.04it/s] 27%|██▋       | 12805/48008 [1:50:01<4:34:48,  2.13it/s] 27%|██▋       | 12806/48008 [1:50:01<4:36:20,  2.12it/s] 27%|██▋       | 12807/48008 [1:50:02<4:42:04,  2.08it/s] 27%|██▋       | 12808/48008 [1:50:02<4:48:48,  2.03it/s] 27%|██▋       | 12809/48008 [1:50:03<4:45:44,  2.05it/s] 27%|██▋       | 12810/48008 [1:50:03<4:43:47,  2.07it/s] 27%|██▋       | 12811/48008 [1:50:03<4:42:55,  2.07it/s] 27%|██▋       | 12812/48008 [1:50:04<4:41:58,  2.08it/s] 27%|██▋       | 12813/48008 [1:50:04<4:30:06,  2.17it/s] 27%|██▋       | 12814/48008 [1:50:05<4:21:51,  2.24it/s] 27%|██▋       | 12815/48008 [1:50:05<4:37:27,  2.11it/s] 27%|██▋       | 12816/48008 [1:50:06<4:49:10,  2.03it/s] 27%|██▋       | 12817/48008 [1:50:06<4:35:21,  2.13it/s] 27%|██▋       | 12818/48008 [1:50:07<4:25:45,  2.21it/s] 27%|██▋       | 12819/48008 [1:50:07<4:18:40,  2.27it/s] 27%|██▋       | 12820/48008 [1:50:08<4:25:07,  2.21it/s] 27%|██▋       | 12821/48008 [1:50:08<4:30:41,  2.17it/s] 27%|██▋       | 12822/48008 [1:50:09<6:48:59,  1.43it/s] 27%|██▋       | 12823/48008 [1:50:10<6:10:18,  1.58it/s] 27%|██▋       | 12824/48008 [1:50:10<5:43:15,  1.71it/s] 27%|██▋       | 12825/48008 [1:50:11<5:31:17,  1.77it/s] 27%|██▋       | 12826/48008 [1:50:11<5:16:06,  1.85it/s] 27%|██▋       | 12827/48008 [1:50:12<5:09:49,  1.89it/s] 27%|██▋       | 12828/48008 [1:50:12<5:11:40,  1.88it/s] 27%|██▋       | 12829/48008 [1:50:13<5:09:00,  1.90it/s] 27%|██▋       | 12830/48008 [1:50:13<5:00:21,  1.95it/s] 27%|██▋       | 12831/48008 [1:50:14<5:01:31,  1.94it/s] 27%|██▋       | 12832/48008 [1:50:14<4:59:54,  1.95it/s] 27%|██▋       | 12833/48008 [1:50:15<4:53:39,  2.00it/s] 27%|██▋       | 12834/48008 [1:50:15<4:53:38,  2.00it/s] 27%|██▋       | 12835/48008 [1:50:16<5:23:52,  1.81it/s] 27%|██▋       | 12836/48008 [1:50:16<5:11:42,  1.88it/s] 27%|██▋       | 12837/48008 [1:50:17<5:12:46,  1.87it/s] 27%|██▋       | 12838/48008 [1:50:17<4:51:59,  2.01it/s] 27%|██▋       | 12839/48008 [1:50:18<4:48:07,  2.03it/s] 27%|██▋       | 12840/48008 [1:50:19<5:20:10,  1.83it/s] 27%|██▋       | 12841/48008 [1:50:19<5:08:09,  1.90it/s] 27%|██▋       | 12842/48008 [1:50:20<5:07:31,  1.91it/s] 27%|██▋       | 12843/48008 [1:50:20<5:03:45,  1.93it/s] 27%|██▋       | 12844/48008 [1:50:21<5:04:18,  1.93it/s] 27%|██▋       | 12845/48008 [1:50:21<4:57:44,  1.97it/s] 27%|██▋       | 12846/48008 [1:50:22<4:51:51,  2.01it/s] 27%|██▋       | 12847/48008 [1:50:22<4:48:27,  2.03it/s] 27%|██▋       | 12848/48008 [1:50:22<4:46:15,  2.05it/s] 27%|██▋       | 12849/48008 [1:50:23<4:48:33,  2.03it/s] 27%|██▋       | 12850/48008 [1:50:23<4:46:21,  2.05it/s]                                                         {'loss': 4.2688, 'grad_norm': 0.14084944128990173, 'learning_rate': 0.0001464714214297617, 'epoch': 0.27}
 27%|██▋       | 12850/48008 [1:50:23<4:46:21,  2.05it/s] 27%|██▋       | 12851/48008 [1:50:24<4:52:06,  2.01it/s] 27%|██▋       | 12852/48008 [1:50:24<4:52:38,  2.00it/s] 27%|██▋       | 12853/48008 [1:50:25<4:49:10,  2.03it/s] 27%|██▋       | 12854/48008 [1:50:25<4:46:45,  2.04it/s] 27%|██▋       | 12855/48008 [1:50:26<4:44:45,  2.06it/s] 27%|██▋       | 12856/48008 [1:50:26<4:48:20,  2.03it/s] 27%|██▋       | 12857/48008 [1:50:27<4:49:41,  2.02it/s] 27%|██▋       | 12858/48008 [1:50:27<4:29:29,  2.17it/s] 27%|██▋       | 12859/48008 [1:50:28<5:43:01,  1.71it/s] 27%|██▋       | 12860/48008 [1:50:29<5:24:15,  1.81it/s] 27%|██▋       | 12861/48008 [1:50:29<5:11:26,  1.88it/s] 27%|██▋       | 12862/48008 [1:50:30<5:02:05,  1.94it/s] 27%|██▋       | 12863/48008 [1:50:30<4:43:55,  2.06it/s] 27%|██▋       | 12864/48008 [1:50:31<4:47:10,  2.04it/s] 27%|██▋       | 12865/48008 [1:50:31<4:49:59,  2.02it/s] 27%|██▋       | 12866/48008 [1:50:32<5:21:18,  1.82it/s] 27%|██▋       | 12867/48008 [1:50:32<5:08:51,  1.90it/s] 27%|██▋       | 12868/48008 [1:50:33<4:48:37,  2.03it/s] 27%|██▋       | 12869/48008 [1:50:33<4:49:47,  2.02it/s] 27%|██▋       | 12870/48008 [1:50:34<4:47:24,  2.04it/s] 27%|██▋       | 12871/48008 [1:50:34<4:45:55,  2.05it/s] 27%|██▋       | 12872/48008 [1:50:35<4:48:52,  2.03it/s] 27%|██▋       | 12873/48008 [1:50:35<4:35:10,  2.13it/s] 27%|██▋       | 12874/48008 [1:50:35<4:36:54,  2.11it/s] 27%|██▋       | 12875/48008 [1:50:36<4:26:16,  2.20it/s] 27%|██▋       | 12876/48008 [1:50:36<4:40:33,  2.09it/s] 27%|██▋       | 12877/48008 [1:50:37<4:46:49,  2.04it/s] 27%|██▋       | 12878/48008 [1:50:37<4:51:27,  2.01it/s] 27%|██▋       | 12879/48008 [1:50:38<4:54:43,  1.99it/s] 27%|██▋       | 12880/48008 [1:50:38<4:50:32,  2.02it/s] 27%|██▋       | 12881/48008 [1:50:39<4:57:33,  1.97it/s] 27%|██▋       | 12882/48008 [1:50:39<4:57:08,  1.97it/s] 27%|██▋       | 12883/48008 [1:50:40<4:52:17,  2.00it/s] 27%|██▋       | 12884/48008 [1:50:40<4:37:41,  2.11it/s] 27%|██▋       | 12885/48008 [1:50:41<5:48:31,  1.68it/s] 27%|██▋       | 12886/48008 [1:50:42<5:34:58,  1.75it/s] 27%|██▋       | 12887/48008 [1:50:42<5:17:51,  1.84it/s] 27%|██▋       | 12888/48008 [1:50:43<5:10:43,  1.88it/s] 27%|██▋       | 12889/48008 [1:50:43<4:49:58,  2.02it/s] 27%|██▋       | 12890/48008 [1:50:44<4:51:27,  2.01it/s] 27%|██▋       | 12891/48008 [1:50:44<4:52:27,  2.00it/s] 27%|██▋       | 12892/48008 [1:50:45<4:37:17,  2.11it/s] 27%|██▋       | 12893/48008 [1:50:45<4:26:53,  2.19it/s] 27%|██▋       | 12894/48008 [1:50:45<4:30:24,  2.16it/s] 27%|██▋       | 12895/48008 [1:50:46<5:43:10,  1.71it/s] 27%|██▋       | 12896/48008 [1:50:47<5:28:57,  1.78it/s] 27%|██▋       | 12897/48008 [1:50:47<5:21:02,  1.82it/s] 27%|██▋       | 12898/48008 [1:50:48<4:57:31,  1.97it/s] 27%|██▋       | 12899/48008 [1:50:48<4:52:27,  2.00it/s] 27%|██▋       | 12900/48008 [1:50:49<4:49:19,  2.02it/s]                                                         {'loss': 4.2457, 'grad_norm': 0.14826124906539917, 'learning_rate': 0.00014626312281286455, 'epoch': 0.27}
 27%|██▋       | 12900/48008 [1:50:49<4:49:19,  2.02it/s] 27%|██▋       | 12901/48008 [1:50:49<4:46:33,  2.04it/s] 27%|██▋       | 12902/48008 [1:50:50<4:45:00,  2.05it/s] 27%|██▋       | 12903/48008 [1:50:50<5:17:00,  1.85it/s] 27%|██▋       | 12904/48008 [1:50:51<4:54:55,  1.98it/s] 27%|██▋       | 12905/48008 [1:50:51<4:39:17,  2.09it/s] 27%|██▋       | 12906/48008 [1:50:52<4:28:03,  2.18it/s] 27%|██▋       | 12907/48008 [1:50:52<4:38:38,  2.10it/s] 27%|██▋       | 12908/48008 [1:50:53<4:39:09,  2.10it/s] 27%|██▋       | 12909/48008 [1:50:53<4:28:17,  2.18it/s] 27%|██▋       | 12910/48008 [1:50:53<4:20:46,  2.24it/s] 27%|██▋       | 12911/48008 [1:50:54<4:31:17,  2.16it/s] 27%|██▋       | 12912/48008 [1:50:55<5:07:50,  1.90it/s] 27%|██▋       | 12913/48008 [1:50:55<4:59:20,  1.95it/s] 27%|██▋       | 12914/48008 [1:50:56<4:53:58,  1.99it/s] 27%|██▋       | 12915/48008 [1:50:56<4:49:13,  2.02it/s] 27%|██▋       | 12916/48008 [1:50:57<4:50:14,  2.02it/s] 27%|██▋       | 12917/48008 [1:50:57<4:47:44,  2.03it/s] 27%|██▋       | 12918/48008 [1:50:58<4:49:00,  2.02it/s] 27%|██▋       | 12919/48008 [1:50:58<4:49:40,  2.02it/s] 27%|██▋       | 12920/48008 [1:50:59<4:46:46,  2.04it/s] 27%|██▋       | 12921/48008 [1:50:59<4:45:19,  2.05it/s] 27%|██▋       | 12922/48008 [1:50:59<4:43:22,  2.06it/s] 27%|██▋       | 12923/48008 [1:51:00<4:42:35,  2.07it/s] 27%|██▋       | 12924/48008 [1:51:00<4:42:26,  2.07it/s] 27%|██▋       | 12925/48008 [1:51:01<4:41:08,  2.08it/s] 27%|██▋       | 12926/48008 [1:51:01<4:40:37,  2.08it/s] 27%|██▋       | 12927/48008 [1:51:02<4:29:21,  2.17it/s] 27%|██▋       | 12928/48008 [1:51:02<4:32:56,  2.14it/s] 27%|██▋       | 12929/48008 [1:51:03<4:35:18,  2.12it/s] 27%|██▋       | 12930/48008 [1:51:03<4:36:29,  2.11it/s] 27%|██▋       | 12931/48008 [1:51:04<4:42:14,  2.07it/s] 27%|██▋       | 12932/48008 [1:51:05<5:50:41,  1.67it/s] 27%|██▋       | 12933/48008 [1:51:06<7:44:58,  1.26it/s] 27%|██▋       | 12934/48008 [1:51:06<6:50:05,  1.43it/s] 27%|██▋       | 12935/48008 [1:51:07<6:15:39,  1.56it/s] 27%|██▋       | 12936/48008 [1:51:08<6:20:55,  1.53it/s] 27%|██▋       | 12937/48008 [1:51:08<5:50:17,  1.67it/s] 27%|██▋       | 12938/48008 [1:51:09<5:34:21,  1.75it/s] 27%|██▋       | 12939/48008 [1:51:09<5:18:28,  1.84it/s] 27%|██▋       | 12940/48008 [1:51:10<5:10:41,  1.88it/s] 27%|██▋       | 12941/48008 [1:51:10<6:10:18,  1.58it/s] 27%|██▋       | 12942/48008 [1:51:11<5:44:30,  1.70it/s] 27%|██▋       | 12943/48008 [1:51:11<5:25:54,  1.79it/s] 27%|██▋       | 12944/48008 [1:51:12<5:16:14,  1.85it/s] 27%|██▋       | 12945/48008 [1:51:12<5:04:48,  1.92it/s] 27%|██▋       | 12946/48008 [1:51:13<4:58:31,  1.96it/s] 27%|██▋       | 12947/48008 [1:51:13<4:59:12,  1.95it/s] 27%|██▋       | 12948/48008 [1:51:14<4:56:56,  1.97it/s] 27%|██▋       | 12949/48008 [1:51:14<4:58:38,  1.96it/s] 27%|██▋       | 12950/48008 [1:51:15<4:52:54,  1.99it/s]                                                         {'loss': 4.3146, 'grad_norm': 0.1321101039648056, 'learning_rate': 0.00014605482419596734, 'epoch': 0.27} 27%|██▋       | 12950/48008 [1:51:15<4:52:54,  1.99it/s]
 27%|██▋       | 12951/48008 [1:51:15<4:48:40,  2.02it/s] 27%|██▋       | 12952/48008 [1:51:16<4:51:12,  2.01it/s] 27%|██▋       | 12953/48008 [1:51:16<4:58:03,  1.96it/s] 27%|██▋       | 12954/48008 [1:51:17<4:52:47,  2.00it/s] 27%|██▋       | 12955/48008 [1:51:17<4:55:32,  1.98it/s] 27%|██▋       | 12956/48008 [1:51:18<4:50:02,  2.01it/s] 27%|██▋       | 12957/48008 [1:51:18<4:36:08,  2.12it/s] 27%|██▋       | 12958/48008 [1:51:19<4:44:47,  2.05it/s] 27%|██▋       | 12959/48008 [1:51:19<4:47:30,  2.03it/s] 27%|██▋       | 12960/48008 [1:51:20<4:35:23,  2.12it/s] 27%|██▋       | 12961/48008 [1:51:20<5:10:47,  1.88it/s] 27%|██▋       | 12962/48008 [1:51:21<5:06:13,  1.91it/s] 27%|██▋       | 12963/48008 [1:51:21<5:04:37,  1.92it/s] 27%|██▋       | 12964/48008 [1:51:22<4:56:58,  1.97it/s] 27%|██▋       | 12965/48008 [1:51:22<4:56:06,  1.97it/s] 27%|██▋       | 12966/48008 [1:51:23<4:55:07,  1.98it/s] 27%|██▋       | 12967/48008 [1:51:23<4:54:10,  1.99it/s] 27%|██▋       | 12968/48008 [1:51:24<4:49:22,  2.02it/s] 27%|██▋       | 12969/48008 [1:51:24<4:34:56,  2.12it/s] 27%|██▋       | 12970/48008 [1:51:25<4:46:51,  2.04it/s] 27%|██▋       | 12971/48008 [1:51:25<4:44:06,  2.06it/s] 27%|██▋       | 12972/48008 [1:51:26<4:47:42,  2.03it/s] 27%|██▋       | 12973/48008 [1:51:26<4:49:24,  2.02it/s] 27%|██▋       | 12974/48008 [1:51:27<4:46:43,  2.04it/s] 27%|██▋       | 12975/48008 [1:51:27<5:18:24,  1.83it/s] 27%|██▋       | 12976/48008 [1:51:28<5:10:55,  1.88it/s] 27%|██▋       | 12977/48008 [1:51:28<5:11:57,  1.87it/s] 27%|██▋       | 12978/48008 [1:51:29<5:02:16,  1.93it/s] 27%|██▋       | 12979/48008 [1:51:29<5:00:19,  1.94it/s] 27%|██▋       | 12980/48008 [1:51:30<4:53:40,  1.99it/s] 27%|██▋       | 12981/48008 [1:51:30<4:53:26,  1.99it/s] 27%|██▋       | 12982/48008 [1:51:31<4:56:31,  1.97it/s] 27%|██▋       | 12983/48008 [1:51:31<4:51:52,  2.00it/s] 27%|██▋       | 12984/48008 [1:51:33<7:02:28,  1.38it/s] 27%|██▋       | 12985/48008 [1:51:33<6:26:52,  1.51it/s] 27%|██▋       | 12986/48008 [1:51:34<5:43:39,  1.70it/s] 27%|██▋       | 12987/48008 [1:51:35<7:39:45,  1.27it/s] 27%|██▋       | 12988/48008 [1:51:35<6:46:16,  1.44it/s] 27%|██▋       | 12989/48008 [1:51:36<6:08:16,  1.58it/s] 27%|██▋       | 12990/48008 [1:51:37<7:57:05,  1.22it/s] 27%|██▋       | 12991/48008 [1:51:38<7:02:41,  1.38it/s] 27%|██▋       | 12992/48008 [1:51:38<7:28:31,  1.30it/s] 27%|██▋       | 12993/48008 [1:51:39<6:37:49,  1.47it/s] 27%|██▋       | 12994/48008 [1:51:39<6:01:42,  1.61it/s] 27%|██▋       | 12995/48008 [1:51:40<5:37:02,  1.73it/s] 27%|██▋       | 12996/48008 [1:51:40<5:20:03,  1.82it/s] 27%|██▋       | 12997/48008 [1:51:41<5:08:10,  1.89it/s] 27%|██▋       | 12998/48008 [1:51:41<4:48:32,  2.02it/s] 27%|██▋       | 12999/48008 [1:51:42<5:55:29,  1.64it/s] 27%|██▋       | 13000/48008 [1:51:43<5:32:26,  1.76it/s]                                                         {'loss': 4.3009, 'grad_norm': 0.12815898656845093, 'learning_rate': 0.00014584652557907016, 'epoch': 0.27} 27%|██▋       | 13000/48008 [1:51:43<5:32:26,  1.76it/s]
 27%|██▋       | 13001/48008 [1:51:43<5:27:17,  1.78it/s] 27%|██▋       | 13002/48008 [1:51:44<5:12:40,  1.87it/s] 27%|██▋       | 13003/48008 [1:51:44<5:02:53,  1.93it/s] 27%|██▋       | 13004/48008 [1:51:45<4:55:29,  1.97it/s] 27%|██▋       | 13005/48008 [1:51:45<4:55:05,  1.98it/s] 27%|██▋       | 13006/48008 [1:51:46<4:50:33,  2.01it/s] 27%|██▋       | 13007/48008 [1:51:46<4:47:15,  2.03it/s] 27%|██▋       | 13008/48008 [1:51:47<4:45:31,  2.04it/s] 27%|██▋       | 13009/48008 [1:51:47<4:47:45,  2.03it/s] 27%|██▋       | 13010/48008 [1:51:47<4:33:48,  2.13it/s] 27%|██▋       | 13011/48008 [1:51:48<4:35:16,  2.12it/s] 27%|██▋       | 13012/48008 [1:51:48<4:36:57,  2.11it/s] 27%|██▋       | 13013/48008 [1:51:49<4:37:53,  2.10it/s] 27%|██▋       | 13014/48008 [1:51:49<4:42:34,  2.06it/s] 27%|██▋       | 13015/48008 [1:51:50<4:41:27,  2.07it/s] 27%|██▋       | 13016/48008 [1:51:50<4:45:32,  2.04it/s] 27%|██▋       | 13017/48008 [1:51:51<4:43:37,  2.06it/s] 27%|██▋       | 13018/48008 [1:51:51<4:45:51,  2.04it/s] 27%|██▋       | 13019/48008 [1:51:52<4:32:21,  2.14it/s] 27%|██▋       | 13020/48008 [1:51:52<4:34:16,  2.13it/s] 27%|██▋       | 13021/48008 [1:51:53<4:36:05,  2.11it/s] 27%|██▋       | 13022/48008 [1:51:53<4:41:08,  2.07it/s] 27%|██▋       | 13023/48008 [1:51:54<4:44:41,  2.05it/s] 27%|██▋       | 13024/48008 [1:51:54<4:46:34,  2.03it/s] 27%|██▋       | 13025/48008 [1:51:55<4:33:16,  2.13it/s] 27%|██▋       | 13026/48008 [1:51:55<4:35:15,  2.12it/s] 27%|██▋       | 13027/48008 [1:51:56<4:40:53,  2.08it/s] 27%|██▋       | 13028/48008 [1:51:56<4:28:49,  2.17it/s] 27%|██▋       | 13029/48008 [1:51:57<4:35:57,  2.11it/s] 27%|██▋       | 13030/48008 [1:51:57<4:36:47,  2.11it/s] 27%|██▋       | 13031/48008 [1:51:58<4:38:00,  2.10it/s] 27%|██▋       | 13032/48008 [1:51:58<4:27:09,  2.18it/s] 27%|██▋       | 13033/48008 [1:51:58<4:41:10,  2.07it/s] 27%|██▋       | 13034/48008 [1:51:59<4:44:48,  2.05it/s] 27%|██▋       | 13035/48008 [1:51:59<4:46:30,  2.03it/s] 27%|██▋       | 13036/48008 [1:52:00<4:44:04,  2.05it/s] 27%|██▋       | 13037/48008 [1:52:00<4:42:45,  2.06it/s] 27%|██▋       | 13038/48008 [1:52:01<4:41:39,  2.07it/s] 27%|██▋       | 13039/48008 [1:52:01<4:44:36,  2.05it/s] 27%|██▋       | 13040/48008 [1:52:02<4:43:00,  2.06it/s] 27%|██▋       | 13041/48008 [1:52:02<4:42:27,  2.06it/s] 27%|██▋       | 13042/48008 [1:52:03<4:46:01,  2.04it/s] 27%|██▋       | 13043/48008 [1:52:04<6:58:24,  1.39it/s] 27%|██▋       | 13044/48008 [1:52:05<6:20:47,  1.53it/s] 27%|██▋       | 13045/48008 [1:52:05<5:57:49,  1.63it/s] 27%|██▋       | 13046/48008 [1:52:06<5:44:48,  1.69it/s] 27%|██▋       | 13047/48008 [1:52:06<5:31:56,  1.76it/s] 27%|██▋       | 13048/48008 [1:52:07<5:23:35,  1.80it/s] 27%|██▋       | 13049/48008 [1:52:07<4:58:55,  1.95it/s] 27%|██▋       | 13050/48008 [1:52:08<4:56:40,  1.96it/s]                                                         {'loss': 4.2961, 'grad_norm': 0.15460945665836334, 'learning_rate': 0.00014563822696217298, 'epoch': 0.27}
 27%|██▋       | 13050/48008 [1:52:08<4:56:40,  1.96it/s] 27%|██▋       | 13051/48008 [1:52:08<4:40:38,  2.08it/s] 27%|██▋       | 13052/48008 [1:52:09<4:40:25,  2.08it/s] 27%|██▋       | 13053/48008 [1:52:09<4:44:12,  2.05it/s] 27%|██▋       | 13054/48008 [1:52:10<4:49:39,  2.01it/s] 27%|██▋       | 13055/48008 [1:52:10<4:52:49,  1.99it/s] 27%|██▋       | 13056/48008 [1:52:11<4:52:58,  1.99it/s] 27%|██▋       | 13057/48008 [1:52:11<4:53:40,  1.98it/s] 27%|██▋       | 13058/48008 [1:52:12<4:49:46,  2.01it/s] 27%|██▋       | 13059/48008 [1:52:12<4:35:40,  2.11it/s] 27%|██▋       | 13060/48008 [1:52:13<4:40:48,  2.07it/s] 27%|██▋       | 13061/48008 [1:52:13<4:44:15,  2.05it/s] 27%|██▋       | 13062/48008 [1:52:13<4:31:30,  2.15it/s] 27%|██▋       | 13063/48008 [1:52:14<4:38:03,  2.09it/s] 27%|██▋       | 13064/48008 [1:52:14<4:26:52,  2.18it/s] 27%|██▋       | 13065/48008 [1:52:15<4:30:58,  2.15it/s] 27%|██▋       | 13066/48008 [1:52:15<4:33:22,  2.13it/s] 27%|██▋       | 13067/48008 [1:52:16<4:34:45,  2.12it/s] 27%|██▋       | 13068/48008 [1:52:16<4:36:27,  2.11it/s] 27%|██▋       | 13069/48008 [1:52:17<4:36:53,  2.10it/s] 27%|██▋       | 13070/48008 [1:52:17<4:44:21,  2.05it/s] 27%|██▋       | 13071/48008 [1:52:18<4:52:15,  1.99it/s] 27%|██▋       | 13072/48008 [1:52:18<4:48:11,  2.02it/s] 27%|██▋       | 13073/48008 [1:52:19<4:34:23,  2.12it/s] 27%|██▋       | 13074/48008 [1:52:19<4:24:17,  2.20it/s] 27%|██▋       | 13075/48008 [1:52:20<4:29:22,  2.16it/s] 27%|██▋       | 13076/48008 [1:52:20<4:32:56,  2.13it/s] 27%|██▋       | 13077/48008 [1:52:21<4:41:41,  2.07it/s] 27%|██▋       | 13078/48008 [1:52:22<6:56:14,  1.40it/s] 27%|██▋       | 13079/48008 [1:52:22<5:57:47,  1.63it/s] 27%|██▋       | 13080/48008 [1:52:23<5:38:40,  1.72it/s] 27%|██▋       | 13081/48008 [1:52:23<5:20:31,  1.82it/s] 27%|██▋       | 13082/48008 [1:52:24<5:12:31,  1.86it/s] 27%|██▋       | 13083/48008 [1:52:24<5:02:38,  1.92it/s] 27%|██▋       | 13084/48008 [1:52:25<4:59:08,  1.95it/s] 27%|██▋       | 13085/48008 [1:52:25<4:57:05,  1.96it/s] 27%|██▋       | 13086/48008 [1:52:26<4:56:28,  1.96it/s] 27%|██▋       | 13087/48008 [1:52:26<4:51:48,  1.99it/s] 27%|██▋       | 13088/48008 [1:52:27<4:48:39,  2.02it/s] 27%|██▋       | 13089/48008 [1:52:27<4:52:46,  1.99it/s] 27%|██▋       | 13090/48008 [1:52:28<4:49:19,  2.01it/s] 27%|██▋       | 13091/48008 [1:52:28<4:46:07,  2.03it/s] 27%|██▋       | 13092/48008 [1:52:29<4:50:18,  2.00it/s] 27%|██▋       | 13093/48008 [1:52:29<4:46:10,  2.03it/s] 27%|██▋       | 13094/48008 [1:52:30<4:32:42,  2.13it/s] 27%|██▋       | 13095/48008 [1:52:30<4:34:25,  2.12it/s] 27%|██▋       | 13096/48008 [1:52:31<6:49:27,  1.42it/s] 27%|██▋       | 13097/48008 [1:52:32<6:10:12,  1.57it/s] 27%|██▋       | 13098/48008 [1:52:32<5:46:45,  1.68it/s] 27%|██▋       | 13099/48008 [1:52:33<5:26:26,  1.78it/s] 27%|██▋       | 13100/48008 [1:52:33<5:15:46,  1.84it/s]                                                         {'loss': 4.2453, 'grad_norm': 0.12653426826000214, 'learning_rate': 0.0001454299283452758, 'epoch': 0.27} 27%|██▋       | 13100/48008 [1:52:33<5:15:46,  1.84it/s]
 27%|██▋       | 13101/48008 [1:52:34<5:39:05,  1.72it/s] 27%|██▋       | 13102/48008 [1:52:34<5:20:38,  1.81it/s] 27%|██▋       | 13103/48008 [1:52:35<4:56:38,  1.96it/s] 27%|██▋       | 13104/48008 [1:52:35<5:01:37,  1.93it/s] 27%|██▋       | 13105/48008 [1:52:36<4:54:35,  1.97it/s] 27%|██▋       | 13106/48008 [1:52:36<4:53:57,  1.98it/s] 27%|██▋       | 13107/48008 [1:52:37<4:56:50,  1.96it/s] 27%|██▋       | 13108/48008 [1:52:37<4:54:52,  1.97it/s] 27%|██▋       | 13109/48008 [1:52:38<4:50:09,  2.00it/s] 27%|██▋       | 13110/48008 [1:52:38<5:20:02,  1.82it/s] 27%|██▋       | 13111/48008 [1:52:39<5:11:13,  1.87it/s] 27%|██▋       | 13112/48008 [1:52:39<5:01:51,  1.93it/s] 27%|██▋       | 13113/48008 [1:52:40<4:54:49,  1.97it/s] 27%|██▋       | 13114/48008 [1:52:40<4:49:31,  2.01it/s] 27%|██▋       | 13115/48008 [1:52:41<4:46:19,  2.03it/s] 27%|██▋       | 13116/48008 [1:52:41<4:43:58,  2.05it/s] 27%|██▋       | 13117/48008 [1:52:42<4:48:42,  2.01it/s] 27%|██▋       | 13118/48008 [1:52:42<4:45:26,  2.04it/s] 27%|██▋       | 13119/48008 [1:52:43<4:53:49,  1.98it/s] 27%|██▋       | 13120/48008 [1:52:43<4:49:12,  2.01it/s] 27%|██▋       | 13121/48008 [1:52:44<5:19:21,  1.82it/s] 27%|██▋       | 13122/48008 [1:52:44<4:55:55,  1.96it/s] 27%|██▋       | 13123/48008 [1:52:45<4:51:05,  2.00it/s] 27%|██▋       | 13124/48008 [1:52:45<4:46:59,  2.03it/s] 27%|██▋       | 13125/48008 [1:52:46<4:49:06,  2.01it/s] 27%|██▋       | 13126/48008 [1:52:46<4:50:34,  2.00it/s] 27%|██▋       | 13127/48008 [1:52:47<4:46:34,  2.03it/s] 27%|██▋       | 13128/48008 [1:52:47<4:44:04,  2.05it/s] 27%|██▋       | 13129/48008 [1:52:48<4:49:29,  2.01it/s] 27%|██▋       | 13130/48008 [1:52:48<4:46:05,  2.03it/s] 27%|██▋       | 13131/48008 [1:52:49<4:47:58,  2.02it/s] 27%|██▋       | 13132/48008 [1:52:49<4:44:58,  2.04it/s] 27%|██▋       | 13133/48008 [1:52:50<4:42:59,  2.05it/s] 27%|██▋       | 13134/48008 [1:52:50<4:45:04,  2.04it/s] 27%|██▋       | 13135/48008 [1:52:51<4:43:09,  2.05it/s] 27%|██▋       | 13136/48008 [1:52:51<4:41:05,  2.07it/s] 27%|██▋       | 13137/48008 [1:52:52<4:44:53,  2.04it/s] 27%|██▋       | 13138/48008 [1:52:52<4:42:48,  2.06it/s] 27%|██▋       | 13139/48008 [1:52:53<4:45:44,  2.03it/s] 27%|██▋       | 13140/48008 [1:52:54<6:59:21,  1.39it/s] 27%|██▋       | 13141/48008 [1:52:55<6:20:27,  1.53it/s] 27%|██▋       | 13142/48008 [1:52:55<5:39:09,  1.71it/s] 27%|██▋       | 13143/48008 [1:52:55<5:25:21,  1.79it/s] 27%|██▋       | 13144/48008 [1:52:56<5:11:07,  1.87it/s] 27%|██▋       | 13145/48008 [1:52:56<4:50:01,  2.00it/s] 27%|██▋       | 13146/48008 [1:52:57<4:54:04,  1.98it/s] 27%|██▋       | 13147/48008 [1:52:57<4:50:02,  2.00it/s] 27%|██▋       | 13148/48008 [1:52:58<4:46:56,  2.02it/s] 27%|██▋       | 13149/48008 [1:52:58<4:48:56,  2.01it/s] 27%|██▋       | 13150/48008 [1:52:59<4:50:34,  2.00it/s]                                                         {'loss': 4.2711, 'grad_norm': 0.23324622213840485, 'learning_rate': 0.0001452216297283786, 'epoch': 0.27}
 27%|██▋       | 13150/48008 [1:52:59<4:50:34,  2.00it/s] 27%|██▋       | 13151/48008 [1:52:59<4:51:05,  2.00it/s] 27%|██▋       | 13152/48008 [1:53:00<4:54:14,  1.97it/s] 27%|██▋       | 13153/48008 [1:53:00<4:56:12,  1.96it/s] 27%|██▋       | 13154/48008 [1:53:01<4:57:42,  1.95it/s] 27%|██▋       | 13155/48008 [1:53:01<4:52:09,  1.99it/s] 27%|██▋       | 13156/48008 [1:53:02<4:51:30,  1.99it/s] 27%|██▋       | 13157/48008 [1:53:02<4:47:35,  2.02it/s] 27%|██▋       | 13158/48008 [1:53:03<4:51:20,  1.99it/s] 27%|██▋       | 13159/48008 [1:53:03<4:54:06,  1.97it/s] 27%|██▋       | 13160/48008 [1:53:04<4:53:24,  1.98it/s] 27%|██▋       | 13161/48008 [1:53:04<4:52:13,  1.99it/s] 27%|██▋       | 13162/48008 [1:53:05<4:52:19,  1.99it/s] 27%|██▋       | 13163/48008 [1:53:05<4:37:38,  2.09it/s] 27%|██▋       | 13164/48008 [1:53:06<4:38:09,  2.09it/s] 27%|██▋       | 13165/48008 [1:53:06<4:41:30,  2.06it/s] 27%|██▋       | 13166/48008 [1:53:07<4:40:17,  2.07it/s] 27%|██▋       | 13167/48008 [1:53:07<4:39:04,  2.08it/s] 27%|██▋       | 13168/48008 [1:53:08<4:27:29,  2.17it/s] 27%|██▋       | 13169/48008 [1:53:08<4:40:52,  2.07it/s] 27%|██▋       | 13170/48008 [1:53:09<4:43:57,  2.04it/s] 27%|██▋       | 13171/48008 [1:53:09<4:41:48,  2.06it/s] 27%|██▋       | 13172/48008 [1:53:10<4:44:46,  2.04it/s] 27%|██▋       | 13173/48008 [1:53:10<4:50:14,  2.00it/s] 27%|██▋       | 13174/48008 [1:53:11<5:56:06,  1.63it/s] 27%|██▋       | 13175/48008 [1:53:12<5:36:25,  1.73it/s] 27%|██▋       | 13176/48008 [1:53:12<6:28:48,  1.49it/s] 27%|██▋       | 13177/48008 [1:53:14<8:35:38,  1.13it/s] 27%|██▋       | 13178/48008 [1:53:14<7:23:56,  1.31it/s] 27%|██▋       | 13179/48008 [1:53:15<6:22:48,  1.52it/s] 27%|██▋       | 13180/48008 [1:53:15<5:51:44,  1.65it/s] 27%|██▋       | 13181/48008 [1:53:16<5:17:58,  1.83it/s] 27%|██▋       | 13182/48008 [1:53:16<5:07:26,  1.89it/s] 27%|██▋       | 13183/48008 [1:53:18<7:40:34,  1.26it/s] 27%|██▋       | 13184/48008 [1:53:18<6:56:00,  1.40it/s] 27%|██▋       | 13185/48008 [1:53:19<6:15:18,  1.55it/s] 27%|██▋       | 13186/48008 [1:53:19<5:53:41,  1.64it/s] 27%|██▋       | 13187/48008 [1:53:20<5:31:49,  1.75it/s] 27%|██▋       | 13188/48008 [1:53:20<5:16:11,  1.84it/s] 27%|██▋       | 13189/48008 [1:53:21<6:40:46,  1.45it/s] 27%|██▋       | 13190/48008 [1:53:22<6:04:57,  1.59it/s] 27%|██▋       | 13191/48008 [1:53:23<7:55:09,  1.22it/s] 27%|██▋       | 13192/48008 [1:53:23<7:01:19,  1.38it/s] 27%|██▋       | 13193/48008 [1:53:24<6:01:42,  1.60it/s] 27%|██▋       | 13194/48008 [1:53:24<6:09:55,  1.57it/s] 27%|██▋       | 13195/48008 [1:53:25<5:31:38,  1.75it/s] 27%|██▋       | 13196/48008 [1:53:25<5:15:23,  1.84it/s] 27%|██▋       | 13197/48008 [1:53:26<5:05:05,  1.90it/s] 27%|██▋       | 13198/48008 [1:53:26<4:57:03,  1.95it/s] 27%|██▋       | 13199/48008 [1:53:27<4:52:17,  1.98it/s] 27%|██▋       | 13200/48008 [1:53:27<4:48:02,  2.01it/s]                                                         {'loss': 4.3082, 'grad_norm': 0.13569292426109314, 'learning_rate': 0.00014501333111148143, 'epoch': 0.27}
 27%|██▋       | 13200/48008 [1:53:27<4:48:02,  2.01it/s] 27%|██▋       | 13201/48008 [1:53:28<4:50:06,  2.00it/s] 27%|██▋       | 13202/48008 [1:53:28<4:46:07,  2.03it/s] 28%|██▊       | 13203/48008 [1:53:29<4:51:12,  1.99it/s] 28%|██▊       | 13204/48008 [1:53:29<4:46:47,  2.02it/s] 28%|██▊       | 13205/48008 [1:53:30<4:51:04,  1.99it/s] 28%|██▊       | 13206/48008 [1:53:30<4:51:59,  1.99it/s] 28%|██▊       | 13207/48008 [1:53:31<4:58:14,  1.94it/s] 28%|██▊       | 13208/48008 [1:53:31<5:26:31,  1.78it/s] 28%|██▊       | 13209/48008 [1:53:32<5:12:59,  1.85it/s] 28%|██▊       | 13210/48008 [1:53:32<5:03:39,  1.91it/s] 28%|██▊       | 13211/48008 [1:53:33<4:45:34,  2.03it/s] 28%|██▊       | 13212/48008 [1:53:33<4:44:34,  2.04it/s] 28%|██▊       | 13213/48008 [1:53:34<5:16:30,  1.83it/s] 28%|██▊       | 13214/48008 [1:53:35<5:06:08,  1.89it/s] 28%|██▊       | 13215/48008 [1:53:35<4:57:40,  1.95it/s] 28%|██▊       | 13216/48008 [1:53:35<4:51:58,  1.99it/s] 28%|██▊       | 13217/48008 [1:53:36<4:48:26,  2.01it/s] 28%|██▊       | 13218/48008 [1:53:36<4:50:39,  1.99it/s] 28%|██▊       | 13219/48008 [1:53:37<4:54:51,  1.97it/s] 28%|██▊       | 13220/48008 [1:53:37<4:38:38,  2.08it/s] 28%|██▊       | 13221/48008 [1:53:38<4:38:39,  2.08it/s] 28%|██▊       | 13222/48008 [1:53:38<4:45:55,  2.03it/s] 28%|██▊       | 13223/48008 [1:53:39<4:53:42,  1.97it/s] 28%|██▊       | 13224/48008 [1:53:39<4:54:04,  1.97it/s] 28%|██▊       | 13225/48008 [1:53:40<4:53:09,  1.98it/s] 28%|██▊       | 13226/48008 [1:53:40<4:48:28,  2.01it/s] 28%|██▊       | 13227/48008 [1:53:41<4:45:04,  2.03it/s] 28%|██▊       | 13228/48008 [1:53:41<4:42:28,  2.05it/s] 28%|██▊       | 13229/48008 [1:53:42<4:52:06,  1.98it/s] 28%|██▊       | 13230/48008 [1:53:42<4:54:42,  1.97it/s] 28%|██▊       | 13231/48008 [1:53:43<4:49:53,  2.00it/s] 28%|██▊       | 13232/48008 [1:53:43<4:35:20,  2.10it/s] 28%|██▊       | 13233/48008 [1:53:44<4:36:47,  2.09it/s] 28%|██▊       | 13234/48008 [1:53:44<4:37:46,  2.09it/s] 28%|██▊       | 13235/48008 [1:53:45<4:26:31,  2.17it/s] 28%|██▊       | 13236/48008 [1:53:45<4:34:32,  2.11it/s] 28%|██▊       | 13237/48008 [1:53:46<4:42:02,  2.05it/s] 28%|██▊       | 13238/48008 [1:53:46<4:41:19,  2.06it/s] 28%|██▊       | 13239/48008 [1:53:47<4:44:36,  2.04it/s] 28%|██▊       | 13240/48008 [1:53:47<4:31:55,  2.13it/s] 28%|██▊       | 13241/48008 [1:53:48<4:22:35,  2.21it/s] 28%|██▊       | 13242/48008 [1:53:48<4:16:12,  2.26it/s] 28%|██▊       | 13243/48008 [1:53:48<4:21:52,  2.21it/s] 28%|██▊       | 13244/48008 [1:53:49<4:30:28,  2.14it/s] 28%|██▊       | 13245/48008 [1:53:49<4:22:16,  2.21it/s] 28%|██▊       | 13246/48008 [1:53:50<4:26:25,  2.17it/s] 28%|██▊       | 13247/48008 [1:53:50<4:34:14,  2.11it/s] 28%|██▊       | 13248/48008 [1:53:51<4:36:38,  2.09it/s] 28%|██▊       | 13249/48008 [1:53:51<4:26:14,  2.18it/s] 28%|██▊       | 13250/48008 [1:53:52<4:30:47,  2.14it/s]                                                         {'loss': 4.2579, 'grad_norm': 0.1235252320766449, 'learning_rate': 0.00014480503249458425, 'epoch': 0.28}
 28%|██▊       | 13250/48008 [1:53:52<4:30:47,  2.14it/s] 28%|██▊       | 13251/48008 [1:53:52<4:34:15,  2.11it/s] 28%|██▊       | 13252/48008 [1:53:53<4:42:24,  2.05it/s] 28%|██▊       | 13253/48008 [1:53:53<4:41:40,  2.06it/s] 28%|██▊       | 13254/48008 [1:53:54<4:50:33,  1.99it/s] 28%|██▊       | 13255/48008 [1:53:54<4:47:12,  2.02it/s] 28%|██▊       | 13256/48008 [1:53:55<5:54:03,  1.64it/s] 28%|██▊       | 13257/48008 [1:53:56<5:32:40,  1.74it/s] 28%|██▊       | 13258/48008 [1:53:56<5:05:44,  1.89it/s] 28%|██▊       | 13259/48008 [1:53:57<6:06:45,  1.58it/s] 28%|██▊       | 13260/48008 [1:53:57<5:48:42,  1.66it/s] 28%|██▊       | 13261/48008 [1:53:58<6:01:33,  1.60it/s] 28%|██▊       | 13262/48008 [1:53:59<5:38:13,  1.71it/s] 28%|██▊       | 13263/48008 [1:53:59<5:19:57,  1.81it/s] 28%|██▊       | 13264/48008 [1:54:00<5:07:37,  1.88it/s] 28%|██▊       | 13265/48008 [1:54:00<5:03:06,  1.91it/s] 28%|██▊       | 13266/48008 [1:54:01<4:54:44,  1.96it/s] 28%|██▊       | 13267/48008 [1:54:01<4:49:39,  2.00it/s] 28%|██▊       | 13268/48008 [1:54:02<4:58:51,  1.94it/s] 28%|██▊       | 13269/48008 [1:54:02<4:58:34,  1.94it/s] 28%|██▊       | 13270/48008 [1:54:03<4:42:27,  2.05it/s] 28%|██▊       | 13271/48008 [1:54:03<4:30:59,  2.14it/s] 28%|██▊       | 13272/48008 [1:54:03<4:33:39,  2.12it/s] 28%|██▊       | 13273/48008 [1:54:04<4:39:34,  2.07it/s] 28%|██▊       | 13274/48008 [1:54:04<4:38:28,  2.08it/s] 28%|██▊       | 13275/48008 [1:54:05<4:43:29,  2.04it/s] 28%|██▊       | 13276/48008 [1:54:05<4:45:01,  2.03it/s] 28%|██▊       | 13277/48008 [1:54:06<4:47:34,  2.01it/s] 28%|██▊       | 13278/48008 [1:54:06<4:51:42,  1.98it/s] 28%|██▊       | 13279/48008 [1:54:07<4:46:51,  2.02it/s] 28%|██▊       | 13280/48008 [1:54:07<4:44:04,  2.04it/s] 28%|██▊       | 13281/48008 [1:54:08<4:52:51,  1.98it/s] 28%|██▊       | 13282/48008 [1:54:09<5:21:50,  1.80it/s] 28%|██▊       | 13283/48008 [1:54:09<5:15:35,  1.83it/s] 28%|██▊       | 13284/48008 [1:54:10<5:15:20,  1.84it/s] 28%|██▊       | 13285/48008 [1:54:10<5:03:56,  1.90it/s] 28%|██▊       | 13286/48008 [1:54:11<4:55:55,  1.96it/s] 28%|██▊       | 13287/48008 [1:54:11<4:55:09,  1.96it/s] 28%|██▊       | 13288/48008 [1:54:12<4:54:55,  1.96it/s] 28%|██▊       | 13289/48008 [1:54:12<4:56:36,  1.95it/s] 28%|██▊       | 13290/48008 [1:54:13<4:54:59,  1.96it/s] 28%|██▊       | 13291/48008 [1:54:13<4:53:50,  1.97it/s] 28%|██▊       | 13292/48008 [1:54:14<4:38:18,  2.08it/s] 28%|██▊       | 13293/48008 [1:54:14<4:45:21,  2.03it/s] 28%|██▊       | 13294/48008 [1:54:15<4:33:39,  2.11it/s] 28%|██▊       | 13295/48008 [1:54:15<5:09:05,  1.87it/s] 28%|██▊       | 13296/48008 [1:54:16<4:48:01,  2.01it/s] 28%|██▊       | 13297/48008 [1:54:16<5:19:48,  1.81it/s] 28%|██▊       | 13298/48008 [1:54:17<5:10:56,  1.86it/s] 28%|██▊       | 13299/48008 [1:54:17<5:00:49,  1.92it/s] 28%|██▊       | 13300/48008 [1:54:18<5:03:49,  1.90it/s]                                                         {'loss': 4.2607, 'grad_norm': 0.10768129676580429, 'learning_rate': 0.00014459673387768706, 'epoch': 0.28}
 28%|██▊       | 13300/48008 [1:54:18<5:03:49,  1.90it/s] 28%|██▊       | 13301/48008 [1:54:18<4:56:41,  1.95it/s] 28%|██▊       | 13302/48008 [1:54:19<4:59:51,  1.93it/s] 28%|██▊       | 13303/48008 [1:54:19<4:58:06,  1.94it/s] 28%|██▊       | 13304/48008 [1:54:20<4:56:29,  1.95it/s] 28%|██▊       | 13305/48008 [1:54:20<4:50:38,  1.99it/s] 28%|██▊       | 13306/48008 [1:54:21<4:53:37,  1.97it/s] 28%|██▊       | 13307/48008 [1:54:21<4:37:50,  2.08it/s] 28%|██▊       | 13308/48008 [1:54:22<4:38:00,  2.08it/s] 28%|██▊       | 13309/48008 [1:54:22<4:39:14,  2.07it/s] 28%|██▊       | 13310/48008 [1:54:23<4:29:13,  2.15it/s] 28%|██▊       | 13311/48008 [1:54:24<6:46:00,  1.42it/s] 28%|██▊       | 13312/48008 [1:54:24<5:57:21,  1.62it/s] 28%|██▊       | 13313/48008 [1:54:25<5:23:03,  1.79it/s] 28%|██▊       | 13314/48008 [1:54:25<5:10:06,  1.86it/s] 28%|██▊       | 13315/48008 [1:54:26<5:06:02,  1.89it/s] 28%|██▊       | 13316/48008 [1:54:26<4:46:47,  2.02it/s] 28%|██▊       | 13317/48008 [1:54:27<4:47:12,  2.01it/s] 28%|██▊       | 13318/48008 [1:54:27<4:44:14,  2.03it/s] 28%|██▊       | 13319/48008 [1:54:28<4:43:02,  2.04it/s] 28%|██▊       | 13320/48008 [1:54:28<4:41:57,  2.05it/s] 28%|██▊       | 13321/48008 [1:54:29<4:41:50,  2.05it/s] 28%|██▊       | 13322/48008 [1:54:29<4:29:19,  2.15it/s] 28%|██▊       | 13323/48008 [1:54:30<4:32:25,  2.12it/s] 28%|██▊       | 13324/48008 [1:54:30<4:40:21,  2.06it/s] 28%|██▊       | 13325/48008 [1:54:30<4:28:25,  2.15it/s] 28%|██▊       | 13326/48008 [1:54:31<4:34:57,  2.10it/s] 28%|██▊       | 13327/48008 [1:54:31<4:35:30,  2.10it/s] 28%|██▊       | 13328/48008 [1:54:32<4:36:23,  2.09it/s] 28%|██▊       | 13329/48008 [1:54:32<4:26:02,  2.17it/s] 28%|██▊       | 13330/48008 [1:54:33<4:33:30,  2.11it/s] 28%|██▊       | 13331/48008 [1:54:33<4:23:44,  2.19it/s] 28%|██▊       | 13332/48008 [1:54:34<4:16:42,  2.25it/s] 28%|██▊       | 13333/48008 [1:54:34<4:23:12,  2.20it/s] 28%|██▊       | 13334/48008 [1:54:35<4:30:46,  2.13it/s] 28%|██▊       | 13335/48008 [1:54:35<4:37:32,  2.08it/s] 28%|██▊       | 13336/48008 [1:54:36<4:41:22,  2.05it/s] 28%|██▊       | 13337/48008 [1:54:36<4:22:36,  2.20it/s] 28%|██▊       | 13338/48008 [1:54:37<6:39:46,  1.45it/s] 28%|██▊       | 13339/48008 [1:54:38<6:06:56,  1.57it/s] 28%|██▊       | 13340/48008 [1:54:38<5:40:15,  1.70it/s] 28%|██▊       | 13341/48008 [1:54:39<5:21:32,  1.80it/s] 28%|██▊       | 13342/48008 [1:54:39<5:13:15,  1.84it/s] 28%|██▊       | 13343/48008 [1:54:40<5:06:44,  1.88it/s] 28%|██▊       | 13344/48008 [1:54:40<5:01:53,  1.91it/s] 28%|██▊       | 13345/48008 [1:54:41<4:54:27,  1.96it/s] 28%|██▊       | 13346/48008 [1:54:41<4:49:31,  2.00it/s] 28%|██▊       | 13347/48008 [1:54:42<4:46:41,  2.01it/s] 28%|██▊       | 13348/48008 [1:54:42<4:33:23,  2.11it/s] 28%|██▊       | 13349/48008 [1:54:43<4:23:51,  2.19it/s] 28%|██▊       | 13350/48008 [1:54:43<4:28:47,  2.15it/s]                                                         {'loss': 4.23, 'grad_norm': 0.13388405740261078, 'learning_rate': 0.00014438843526078985, 'epoch': 0.28}
 28%|██▊       | 13350/48008 [1:54:43<4:28:47,  2.15it/s] 28%|██▊       | 13351/48008 [1:54:44<4:35:42,  2.10it/s] 28%|██▊       | 13352/48008 [1:54:44<4:36:35,  2.09it/s] 28%|██▊       | 13353/48008 [1:54:45<4:47:58,  2.01it/s] 28%|██▊       | 13354/48008 [1:54:45<4:34:41,  2.10it/s] 28%|██▊       | 13355/48008 [1:54:45<4:35:07,  2.10it/s] 28%|██▊       | 13356/48008 [1:54:46<4:36:58,  2.09it/s] 28%|██▊       | 13357/48008 [1:54:47<5:44:54,  1.67it/s] 28%|██▊       | 13358/48008 [1:54:47<5:25:16,  1.78it/s] 28%|██▊       | 13359/48008 [1:54:48<5:14:30,  1.84it/s] 28%|██▊       | 13360/48008 [1:54:48<4:52:25,  1.97it/s] 28%|██▊       | 13361/48008 [1:54:49<4:36:31,  2.09it/s] 28%|██▊       | 13362/48008 [1:54:49<4:44:12,  2.03it/s] 28%|██▊       | 13363/48008 [1:54:50<4:50:43,  1.99it/s] 28%|██▊       | 13364/48008 [1:54:50<4:46:09,  2.02it/s] 28%|██▊       | 13365/48008 [1:54:51<5:17:16,  1.82it/s] 28%|██▊       | 13366/48008 [1:54:51<5:09:35,  1.86it/s] 28%|██▊       | 13367/48008 [1:54:52<5:04:34,  1.90it/s] 28%|██▊       | 13368/48008 [1:54:52<5:00:55,  1.92it/s] 28%|██▊       | 13369/48008 [1:54:53<4:54:19,  1.96it/s] 28%|██▊       | 13370/48008 [1:54:53<4:49:38,  1.99it/s] 28%|██▊       | 13371/48008 [1:54:54<4:51:04,  1.98it/s] 28%|██▊       | 13372/48008 [1:54:54<4:52:21,  1.97it/s] 28%|██▊       | 13373/48008 [1:54:55<4:36:55,  2.08it/s] 28%|██▊       | 13374/48008 [1:54:55<4:42:30,  2.04it/s] 28%|██▊       | 13375/48008 [1:54:56<4:45:40,  2.02it/s] 28%|██▊       | 13376/48008 [1:54:56<4:44:17,  2.03it/s] 28%|██▊       | 13377/48008 [1:54:57<4:50:28,  1.99it/s] 28%|██▊       | 13378/48008 [1:54:58<6:59:54,  1.37it/s] 28%|██▊       | 13379/48008 [1:54:59<6:51:15,  1.40it/s] 28%|██▊       | 13380/48008 [1:54:59<6:11:32,  1.55it/s] 28%|██▊       | 13381/48008 [1:55:00<5:43:01,  1.68it/s] 28%|██▊       | 13382/48008 [1:55:00<5:23:50,  1.78it/s] 28%|██▊       | 13383/48008 [1:55:01<5:10:50,  1.86it/s] 28%|██▊       | 13384/48008 [1:55:02<6:08:47,  1.56it/s] 28%|██▊       | 13385/48008 [1:55:02<5:49:38,  1.65it/s] 28%|██▊       | 13386/48008 [1:55:03<5:28:30,  1.76it/s] 28%|██▊       | 13387/48008 [1:55:03<5:18:26,  1.81it/s] 28%|██▊       | 13388/48008 [1:55:04<5:09:12,  1.87it/s] 28%|██▊       | 13389/48008 [1:55:04<5:04:23,  1.90it/s] 28%|██▊       | 13390/48008 [1:55:05<5:03:39,  1.90it/s] 28%|██▊       | 13391/48008 [1:55:05<5:00:48,  1.92it/s] 28%|██▊       | 13392/48008 [1:55:06<4:58:13,  1.93it/s] 28%|██▊       | 13393/48008 [1:55:06<4:39:54,  2.06it/s] 28%|██▊       | 13394/48008 [1:55:07<4:43:44,  2.03it/s] 28%|██▊       | 13395/48008 [1:55:07<4:30:10,  2.14it/s] 28%|██▊       | 13396/48008 [1:55:08<5:06:07,  1.88it/s] 28%|██▊       | 13397/48008 [1:55:08<4:58:05,  1.94it/s] 28%|██▊       | 13398/48008 [1:55:09<4:51:55,  1.98it/s] 28%|██▊       | 13399/48008 [1:55:09<4:52:56,  1.97it/s] 28%|██▊       | 13400/48008 [1:55:10<4:48:37,  2.00it/s]                                                         {'loss': 4.2782, 'grad_norm': 0.18502721190452576, 'learning_rate': 0.0001441801366438927, 'epoch': 0.28}
 28%|██▊       | 13400/48008 [1:55:10<4:48:37,  2.00it/s] 28%|██▊       | 13401/48008 [1:55:10<4:49:59,  1.99it/s] 28%|██▊       | 13402/48008 [1:55:11<4:49:14,  1.99it/s] 28%|██▊       | 13403/48008 [1:55:11<5:18:32,  1.81it/s] 28%|██▊       | 13404/48008 [1:55:12<5:12:05,  1.85it/s] 28%|██▊       | 13405/48008 [1:55:12<5:02:07,  1.91it/s] 28%|██▊       | 13406/48008 [1:55:13<4:55:49,  1.95it/s] 28%|██▊       | 13407/48008 [1:55:13<4:40:06,  2.06it/s] 28%|██▊       | 13408/48008 [1:55:14<4:39:04,  2.07it/s] 28%|██▊       | 13409/48008 [1:55:14<4:43:03,  2.04it/s] 28%|██▊       | 13410/48008 [1:55:15<4:45:40,  2.02it/s] 28%|██▊       | 13411/48008 [1:55:15<4:54:04,  1.96it/s] 28%|██▊       | 13412/48008 [1:55:16<4:52:48,  1.97it/s] 28%|██▊       | 13413/48008 [1:55:16<4:53:05,  1.97it/s] 28%|██▊       | 13414/48008 [1:55:17<4:47:45,  2.00it/s] 28%|██▊       | 13415/48008 [1:55:17<4:44:54,  2.02it/s] 28%|██▊       | 13416/48008 [1:55:18<4:49:55,  1.99it/s] 28%|██▊       | 13417/48008 [1:55:18<4:34:16,  2.10it/s] 28%|██▊       | 13418/48008 [1:55:19<4:38:19,  2.07it/s] 28%|██▊       | 13419/48008 [1:55:19<4:42:58,  2.04it/s] 28%|██▊       | 13420/48008 [1:55:20<4:30:44,  2.13it/s] 28%|██▊       | 13421/48008 [1:55:20<4:40:51,  2.05it/s] 28%|██▊       | 13422/48008 [1:55:21<4:40:07,  2.06it/s] 28%|██▊       | 13423/48008 [1:55:21<4:43:01,  2.04it/s] 28%|██▊       | 13424/48008 [1:55:22<4:41:25,  2.05it/s] 28%|██▊       | 13425/48008 [1:55:22<4:44:32,  2.03it/s] 28%|██▊       | 13426/48008 [1:55:23<5:15:39,  1.83it/s] 28%|██▊       | 13427/48008 [1:55:23<5:04:28,  1.89it/s] 28%|██▊       | 13428/48008 [1:55:24<5:06:21,  1.88it/s] 28%|██▊       | 13429/48008 [1:55:24<5:04:01,  1.90it/s] 28%|██▊       | 13430/48008 [1:55:25<4:45:29,  2.02it/s] 28%|██▊       | 13431/48008 [1:55:25<4:31:58,  2.12it/s] 28%|██▊       | 13432/48008 [1:55:26<4:33:42,  2.11it/s] 28%|██▊       | 13433/48008 [1:55:26<4:40:59,  2.05it/s] 28%|██▊       | 13434/48008 [1:55:27<4:40:01,  2.06it/s] 28%|██▊       | 13435/48008 [1:55:27<5:12:55,  1.84it/s] 28%|██▊       | 13436/48008 [1:55:28<5:02:32,  1.90it/s] 28%|██▊       | 13437/48008 [1:55:28<5:00:12,  1.92it/s] 28%|██▊       | 13438/48008 [1:55:29<4:52:46,  1.97it/s] 28%|██▊       | 13439/48008 [1:55:29<4:47:53,  2.00it/s] 28%|██▊       | 13440/48008 [1:55:30<4:50:37,  1.98it/s] 28%|██▊       | 13441/48008 [1:55:30<4:47:19,  2.01it/s] 28%|██▊       | 13442/48008 [1:55:31<5:18:11,  1.81it/s] 28%|██▊       | 13443/48008 [1:55:31<5:13:04,  1.84it/s] 28%|██▊       | 13444/48008 [1:55:32<4:51:21,  1.98it/s] 28%|██▊       | 13445/48008 [1:55:32<4:50:58,  1.98it/s] 28%|██▊       | 13446/48008 [1:55:33<5:19:25,  1.80it/s] 28%|██▊       | 13447/48008 [1:55:34<5:06:50,  1.88it/s] 28%|██▊       | 13448/48008 [1:55:34<4:57:43,  1.93it/s] 28%|██▊       | 13449/48008 [1:55:34<4:40:30,  2.05it/s] 28%|██▊       | 13450/48008 [1:55:35<4:39:44,  2.06it/s]                                                         {'loss': 4.2935, 'grad_norm': 0.14382798969745636, 'learning_rate': 0.0001439718380269955, 'epoch': 0.28}
 28%|██▊       | 13450/48008 [1:55:35<4:39:44,  2.06it/s] 28%|██▊       | 13451/48008 [1:55:35<4:39:03,  2.06it/s] 28%|██▊       | 13452/48008 [1:55:36<4:44:38,  2.02it/s] 28%|██▊       | 13453/48008 [1:55:37<6:54:57,  1.39it/s] 28%|██▊       | 13454/48008 [1:55:38<6:23:30,  1.50it/s] 28%|██▊       | 13455/48008 [1:55:38<5:40:03,  1.69it/s] 28%|██▊       | 13456/48008 [1:55:39<5:21:32,  1.79it/s] 28%|██▊       | 13457/48008 [1:55:39<5:07:43,  1.87it/s] 28%|██▊       | 13458/48008 [1:55:39<4:47:43,  2.00it/s] 28%|██▊       | 13459/48008 [1:55:40<4:45:00,  2.02it/s] 28%|██▊       | 13460/48008 [1:55:40<4:42:52,  2.04it/s] 28%|██▊       | 13461/48008 [1:55:41<4:41:28,  2.05it/s] 28%|██▊       | 13462/48008 [1:55:41<4:38:59,  2.06it/s] 28%|██▊       | 13463/48008 [1:55:42<4:45:15,  2.02it/s] 28%|██▊       | 13464/48008 [1:55:42<4:43:41,  2.03it/s] 28%|██▊       | 13465/48008 [1:55:43<4:49:49,  1.99it/s] 28%|██▊       | 13466/48008 [1:55:43<4:29:54,  2.13it/s] 28%|██▊       | 13467/48008 [1:55:44<4:43:49,  2.03it/s] 28%|██▊       | 13468/48008 [1:55:44<4:41:26,  2.05it/s] 28%|██▊       | 13469/48008 [1:55:45<4:39:49,  2.06it/s] 28%|██▊       | 13470/48008 [1:55:45<5:12:01,  1.84it/s] 28%|██▊       | 13471/48008 [1:55:46<5:05:43,  1.88it/s] 28%|██▊       | 13472/48008 [1:55:46<4:45:23,  2.02it/s] 28%|██▊       | 13473/48008 [1:55:47<4:43:03,  2.03it/s] 28%|██▊       | 13474/48008 [1:55:47<4:42:10,  2.04it/s] 28%|██▊       | 13475/48008 [1:55:48<4:41:48,  2.04it/s] 28%|██▊       | 13476/48008 [1:55:48<4:29:31,  2.14it/s] 28%|██▊       | 13477/48008 [1:55:49<4:32:57,  2.11it/s] 28%|██▊       | 13478/48008 [1:55:49<4:35:41,  2.09it/s] 28%|██▊       | 13479/48008 [1:55:50<4:25:19,  2.17it/s] 28%|██▊       | 13480/48008 [1:55:51<5:36:54,  1.71it/s] 28%|██▊       | 13481/48008 [1:55:51<5:18:40,  1.81it/s] 28%|██▊       | 13482/48008 [1:55:52<5:06:26,  1.88it/s] 28%|██▊       | 13483/48008 [1:55:52<4:46:20,  2.01it/s] 28%|██▊       | 13484/48008 [1:55:52<4:44:48,  2.02it/s] 28%|██▊       | 13485/48008 [1:55:54<6:55:36,  1.38it/s] 28%|██▊       | 13486/48008 [1:55:54<6:15:27,  1.53it/s] 28%|██▊       | 13487/48008 [1:55:55<5:50:05,  1.64it/s] 28%|██▊       | 13488/48008 [1:55:55<5:28:06,  1.75it/s] 28%|██▊       | 13489/48008 [1:55:56<5:16:42,  1.82it/s] 28%|██▊       | 13490/48008 [1:55:56<5:11:43,  1.85it/s] 28%|██▊       | 13491/48008 [1:55:57<5:08:49,  1.86it/s] 28%|██▊       | 13492/48008 [1:55:57<4:58:22,  1.93it/s] 28%|██▊       | 13493/48008 [1:55:58<7:04:17,  1.36it/s] 28%|██▊       | 13494/48008 [1:55:59<6:20:20,  1.51it/s] 28%|██▊       | 13495/48008 [1:55:59<5:49:32,  1.65it/s] 28%|██▊       | 13496/48008 [1:56:00<5:28:42,  1.75it/s] 28%|██▊       | 13497/48008 [1:56:00<5:23:25,  1.78it/s] 28%|██▊       | 13498/48008 [1:56:01<5:10:38,  1.85it/s] 28%|██▊       | 13499/48008 [1:56:01<5:01:07,  1.91it/s] 28%|██▊       | 13500/48008 [1:56:02<5:27:33,  1.76it/s]                                                         {'loss': 4.2977, 'grad_norm': 0.10912588983774185, 'learning_rate': 0.00014376353941009833, 'epoch': 0.28}
 28%|██▊       | 13500/48008 [1:56:02<5:27:33,  1.76it/s] 28%|██▊       | 13501/48008 [1:56:03<5:13:01,  1.84it/s] 28%|██▊       | 13502/48008 [1:56:03<5:37:01,  1.71it/s] 28%|██▊       | 13503/48008 [1:56:04<6:29:04,  1.48it/s] 28%|██▊       | 13504/48008 [1:56:05<7:04:53,  1.35it/s] 28%|██▊       | 13505/48008 [1:56:06<6:23:54,  1.50it/s] 28%|██▊       | 13506/48008 [1:56:06<5:56:57,  1.61it/s] 28%|██▊       | 13507/48008 [1:56:07<5:36:28,  1.71it/s] 28%|██▊       | 13508/48008 [1:56:07<5:23:09,  1.78it/s] 28%|██▊       | 13509/48008 [1:56:08<5:09:42,  1.86it/s] 28%|██▊       | 13510/48008 [1:56:08<5:00:01,  1.92it/s] 28%|██▊       | 13511/48008 [1:56:08<4:53:10,  1.96it/s] 28%|██▊       | 13512/48008 [1:56:09<4:58:43,  1.92it/s] 28%|██▊       | 13513/48008 [1:56:10<4:53:35,  1.96it/s] 28%|██▊       | 13514/48008 [1:56:10<4:47:51,  2.00it/s] 28%|██▊       | 13515/48008 [1:56:10<4:45:47,  2.01it/s] 28%|██▊       | 13516/48008 [1:56:11<4:53:21,  1.96it/s] 28%|██▊       | 13517/48008 [1:56:12<4:51:30,  1.97it/s] 28%|██▊       | 13518/48008 [1:56:12<4:47:13,  2.00it/s] 28%|██▊       | 13519/48008 [1:56:13<4:45:16,  2.01it/s] 28%|██▊       | 13520/48008 [1:56:13<4:55:16,  1.95it/s] 28%|██▊       | 13521/48008 [1:56:13<4:32:31,  2.11it/s] 28%|██▊       | 13522/48008 [1:56:14<4:34:37,  2.09it/s] 28%|██▊       | 13523/48008 [1:56:14<4:35:37,  2.09it/s] 28%|██▊       | 13524/48008 [1:56:15<4:35:48,  2.08it/s] 28%|██▊       | 13525/48008 [1:56:15<4:42:22,  2.04it/s] 28%|██▊       | 13526/48008 [1:56:16<4:29:22,  2.13it/s] 28%|██▊       | 13527/48008 [1:56:16<4:42:00,  2.04it/s] 28%|██▊       | 13528/48008 [1:56:17<5:14:15,  1.83it/s] 28%|██▊       | 13529/48008 [1:56:18<5:04:00,  1.89it/s] 28%|██▊       | 13530/48008 [1:56:18<4:55:12,  1.95it/s] 28%|██▊       | 13531/48008 [1:56:19<4:57:26,  1.93it/s] 28%|██▊       | 13532/48008 [1:56:19<4:57:16,  1.93it/s] 28%|██▊       | 13533/48008 [1:56:20<4:51:15,  1.97it/s] 28%|██▊       | 13534/48008 [1:56:20<4:47:00,  2.00it/s] 28%|██▊       | 13535/48008 [1:56:20<4:32:43,  2.11it/s] 28%|██▊       | 13536/48008 [1:56:21<4:33:52,  2.10it/s] 28%|██▊       | 13537/48008 [1:56:21<4:35:08,  2.09it/s] 28%|██▊       | 13538/48008 [1:56:22<4:39:10,  2.06it/s] 28%|██▊       | 13539/48008 [1:56:22<4:37:26,  2.07it/s] 28%|██▊       | 13540/48008 [1:56:23<4:44:52,  2.02it/s] 28%|██▊       | 13541/48008 [1:56:23<4:43:13,  2.03it/s] 28%|██▊       | 13542/48008 [1:56:24<4:30:06,  2.13it/s] 28%|██▊       | 13543/48008 [1:56:24<4:19:58,  2.21it/s] 28%|██▊       | 13544/48008 [1:56:25<4:26:18,  2.16it/s] 28%|██▊       | 13545/48008 [1:56:25<4:28:48,  2.14it/s] 28%|██▊       | 13546/48008 [1:56:26<4:32:09,  2.11it/s] 28%|██▊       | 13547/48008 [1:56:26<4:36:26,  2.08it/s] 28%|██▊       | 13548/48008 [1:56:27<4:25:04,  2.17it/s] 28%|██▊       | 13549/48008 [1:56:27<4:34:41,  2.09it/s] 28%|██▊       | 13550/48008 [1:56:28<4:24:24,  2.17it/s]                                                         {'loss': 4.2755, 'grad_norm': 0.13465666770935059, 'learning_rate': 0.00014355524079320112, 'epoch': 0.28}
 28%|██▊       | 13550/48008 [1:56:28<4:24:24,  2.17it/s] 28%|██▊       | 13551/48008 [1:56:28<4:27:39,  2.15it/s] 28%|██▊       | 13552/48008 [1:56:28<4:19:52,  2.21it/s] 28%|██▊       | 13553/48008 [1:56:29<4:25:25,  2.16it/s] 28%|██▊       | 13554/48008 [1:56:29<4:32:24,  2.11it/s] 28%|██▊       | 13555/48008 [1:56:30<4:22:21,  2.19it/s] 28%|██▊       | 13556/48008 [1:56:30<4:27:19,  2.15it/s] 28%|██▊       | 13557/48008 [1:56:31<4:34:13,  2.09it/s] 28%|██▊       | 13558/48008 [1:56:31<4:37:48,  2.07it/s] 28%|██▊       | 13559/48008 [1:56:32<4:37:47,  2.07it/s] 28%|██▊       | 13560/48008 [1:56:32<4:48:02,  1.99it/s] 28%|██▊       | 13561/48008 [1:56:33<4:43:26,  2.03it/s] 28%|██▊       | 13562/48008 [1:56:33<4:41:37,  2.04it/s] 28%|██▊       | 13563/48008 [1:56:34<4:43:54,  2.02it/s] 28%|██▊       | 13564/48008 [1:56:34<4:41:57,  2.04it/s] 28%|██▊       | 13565/48008 [1:56:35<4:39:15,  2.06it/s] 28%|██▊       | 13566/48008 [1:56:35<4:41:58,  2.04it/s] 28%|██▊       | 13567/48008 [1:56:36<5:12:55,  1.83it/s] 28%|██▊       | 13568/48008 [1:56:36<5:01:20,  1.90it/s] 28%|██▊       | 13569/48008 [1:56:37<4:57:33,  1.93it/s] 28%|██▊       | 13570/48008 [1:56:38<7:03:18,  1.36it/s] 28%|██▊       | 13571/48008 [1:56:39<6:18:52,  1.51it/s] 28%|██▊       | 13572/48008 [1:56:39<5:47:32,  1.65it/s] 28%|██▊       | 13573/48008 [1:56:40<5:13:56,  1.83it/s] 28%|██▊       | 13574/48008 [1:56:40<5:06:35,  1.87it/s] 28%|██▊       | 13575/48008 [1:56:41<5:00:59,  1.91it/s] 28%|██▊       | 13576/48008 [1:56:41<4:57:05,  1.93it/s] 28%|██▊       | 13577/48008 [1:56:42<5:58:20,  1.60it/s] 28%|██▊       | 13578/48008 [1:56:42<5:36:44,  1.70it/s] 28%|██▊       | 13579/48008 [1:56:43<5:17:39,  1.81it/s] 28%|██▊       | 13580/48008 [1:56:43<5:04:59,  1.88it/s] 28%|██▊       | 13581/48008 [1:56:44<4:59:55,  1.91it/s] 28%|██▊       | 13582/48008 [1:56:44<4:41:58,  2.03it/s] 28%|██▊       | 13583/48008 [1:56:45<4:40:44,  2.04it/s] 28%|██▊       | 13584/48008 [1:56:45<4:38:55,  2.06it/s] 28%|██▊       | 13585/48008 [1:56:46<4:27:14,  2.15it/s] 28%|██▊       | 13586/48008 [1:56:46<4:33:09,  2.10it/s] 28%|██▊       | 13587/48008 [1:56:47<4:38:30,  2.06it/s] 28%|██▊       | 13588/48008 [1:56:48<6:19:04,  1.51it/s] 28%|██▊       | 13589/48008 [1:56:48<5:52:26,  1.63it/s] 28%|██▊       | 13590/48008 [1:56:49<5:33:40,  1.72it/s] 28%|██▊       | 13591/48008 [1:56:49<5:16:01,  1.82it/s] 28%|██▊       | 13592/48008 [1:56:50<5:08:15,  1.86it/s] 28%|██▊       | 13593/48008 [1:56:50<4:58:23,  1.92it/s] 28%|██▊       | 13594/48008 [1:56:51<4:50:52,  1.97it/s] 28%|██▊       | 13595/48008 [1:56:51<4:46:35,  2.00it/s] 28%|██▊       | 13596/48008 [1:56:52<4:49:19,  1.98it/s] 28%|██▊       | 13597/48008 [1:56:52<4:49:31,  1.98it/s] 28%|██▊       | 13598/48008 [1:56:53<4:45:39,  2.01it/s] 28%|██▊       | 13599/48008 [1:56:53<4:42:42,  2.03it/s] 28%|██▊       | 13600/48008 [1:56:54<4:46:37,  2.00it/s]                                                         {'loss': 4.3012, 'grad_norm': 0.12459425628185272, 'learning_rate': 0.00014334694217630397, 'epoch': 0.28}
 28%|██▊       | 13600/48008 [1:56:54<4:46:37,  2.00it/s] 28%|██▊       | 13601/48008 [1:56:54<4:43:07,  2.03it/s] 28%|██▊       | 13602/48008 [1:56:55<4:44:56,  2.01it/s] 28%|██▊       | 13603/48008 [1:56:55<4:31:05,  2.12it/s] 28%|██▊       | 13604/48008 [1:56:56<4:32:46,  2.10it/s] 28%|██▊       | 13605/48008 [1:56:56<4:37:15,  2.07it/s] 28%|██▊       | 13606/48008 [1:56:56<4:24:41,  2.17it/s] 28%|██▊       | 13607/48008 [1:56:57<4:28:15,  2.14it/s] 28%|██▊       | 13608/48008 [1:56:57<4:31:25,  2.11it/s] 28%|██▊       | 13609/48008 [1:56:58<4:32:45,  2.10it/s] 28%|██▊       | 13610/48008 [1:56:58<4:32:32,  2.10it/s] 28%|██▊       | 13611/48008 [1:56:59<4:34:33,  2.09it/s] 28%|██▊       | 13612/48008 [1:56:59<4:35:24,  2.08it/s] 28%|██▊       | 13613/48008 [1:57:00<4:42:43,  2.03it/s] 28%|██▊       | 13614/48008 [1:57:00<4:48:03,  1.99it/s] 28%|██▊       | 13615/48008 [1:57:01<4:50:04,  1.98it/s] 28%|██▊       | 13616/48008 [1:57:01<4:50:20,  1.97it/s] 28%|██▊       | 13617/48008 [1:57:02<4:53:52,  1.95it/s] 28%|██▊       | 13618/48008 [1:57:02<4:51:26,  1.97it/s] 28%|██▊       | 13619/48008 [1:57:03<4:51:01,  1.97it/s] 28%|██▊       | 13620/48008 [1:57:03<4:47:47,  1.99it/s] 28%|██▊       | 13621/48008 [1:57:04<4:44:19,  2.02it/s] 28%|██▊       | 13622/48008 [1:57:05<4:53:11,  1.95it/s] 28%|██▊       | 13623/48008 [1:57:05<4:48:25,  1.99it/s] 28%|██▊       | 13624/48008 [1:57:06<5:51:58,  1.63it/s] 28%|██▊       | 13625/48008 [1:57:06<5:31:54,  1.73it/s] 28%|██▊       | 13626/48008 [1:57:07<5:14:29,  1.82it/s] 28%|██▊       | 13627/48008 [1:57:07<5:02:57,  1.89it/s] 28%|██▊       | 13628/48008 [1:57:08<4:55:23,  1.94it/s] 28%|██▊       | 13629/48008 [1:57:08<4:59:17,  1.91it/s] 28%|██▊       | 13630/48008 [1:57:09<4:55:24,  1.94it/s] 28%|██▊       | 13631/48008 [1:57:09<4:53:10,  1.95it/s] 28%|██▊       | 13632/48008 [1:57:10<4:36:50,  2.07it/s] 28%|██▊       | 13633/48008 [1:57:10<4:26:00,  2.15it/s] 28%|██▊       | 13634/48008 [1:57:11<4:30:44,  2.12it/s] 28%|██▊       | 13635/48008 [1:57:11<4:32:38,  2.10it/s] 28%|██▊       | 13636/48008 [1:57:12<4:37:46,  2.06it/s] 28%|██▊       | 13637/48008 [1:57:13<5:46:06,  1.66it/s] 28%|██▊       | 13638/48008 [1:57:13<5:28:15,  1.75it/s] 28%|██▊       | 13639/48008 [1:57:14<5:13:19,  1.83it/s] 28%|██▊       | 13640/48008 [1:57:14<5:05:19,  1.88it/s] 28%|██▊       | 13641/48008 [1:57:14<4:45:48,  2.00it/s] 28%|██▊       | 13642/48008 [1:57:15<4:46:23,  2.00it/s] 28%|██▊       | 13643/48008 [1:57:15<4:42:07,  2.03it/s] 28%|██▊       | 13644/48008 [1:57:16<4:39:12,  2.05it/s] 28%|██▊       | 13645/48008 [1:57:17<5:13:01,  1.83it/s] 28%|██▊       | 13646/48008 [1:57:17<5:08:44,  1.85it/s] 28%|██▊       | 13647/48008 [1:57:18<4:58:54,  1.92it/s] 28%|██▊       | 13648/48008 [1:57:18<4:51:49,  1.96it/s] 28%|██▊       | 13649/48008 [1:57:19<4:48:22,  1.99it/s] 28%|██▊       | 13650/48008 [1:57:19<4:33:01,  2.10it/s]                                                         {'loss': 4.2437, 'grad_norm': 0.1109272837638855, 'learning_rate': 0.00014313864355940679, 'epoch': 0.28}
 28%|██▊       | 13650/48008 [1:57:19<4:33:01,  2.10it/s] 28%|██▊       | 13651/48008 [1:57:19<4:33:27,  2.09it/s] 28%|██▊       | 13652/48008 [1:57:20<4:38:07,  2.06it/s] 28%|██▊       | 13653/48008 [1:57:20<4:38:41,  2.05it/s] 28%|██▊       | 13654/48008 [1:57:21<4:43:36,  2.02it/s] 28%|██▊       | 13655/48008 [1:57:21<4:45:26,  2.01it/s] 28%|██▊       | 13656/48008 [1:57:22<4:32:01,  2.10it/s] 28%|██▊       | 13657/48008 [1:57:23<5:05:28,  1.87it/s] 28%|██▊       | 13658/48008 [1:57:23<4:59:37,  1.91it/s] 28%|██▊       | 13659/48008 [1:57:24<4:51:46,  1.96it/s] 28%|██▊       | 13660/48008 [1:57:24<4:56:07,  1.93it/s] 28%|██▊       | 13661/48008 [1:57:25<4:53:00,  1.95it/s] 28%|██▊       | 13662/48008 [1:57:25<4:53:40,  1.95it/s] 28%|██▊       | 13663/48008 [1:57:26<5:21:09,  1.78it/s] 28%|██▊       | 13664/48008 [1:57:26<5:10:56,  1.84it/s] 28%|██▊       | 13665/48008 [1:57:27<5:04:30,  1.88it/s] 28%|██▊       | 13666/48008 [1:57:27<4:39:11,  2.05it/s] 28%|██▊       | 13667/48008 [1:57:28<4:38:11,  2.06it/s] 28%|██▊       | 13668/48008 [1:57:28<4:48:02,  1.99it/s] 28%|██▊       | 13669/48008 [1:57:29<4:32:51,  2.10it/s] 28%|██▊       | 13670/48008 [1:57:29<4:33:52,  2.09it/s] 28%|██▊       | 13671/48008 [1:57:30<5:07:39,  1.86it/s] 28%|██▊       | 13672/48008 [1:57:30<5:08:25,  1.86it/s] 28%|██▊       | 13673/48008 [1:57:31<4:47:55,  1.99it/s] 28%|██▊       | 13674/48008 [1:57:31<4:33:05,  2.10it/s] 28%|██▊       | 13675/48008 [1:57:32<4:33:46,  2.09it/s] 28%|██▊       | 13676/48008 [1:57:32<4:34:42,  2.08it/s] 28%|██▊       | 13677/48008 [1:57:33<4:34:46,  2.08it/s] 28%|██▊       | 13678/48008 [1:57:33<5:07:50,  1.86it/s] 28%|██▊       | 13679/48008 [1:57:34<4:58:30,  1.92it/s] 28%|██▊       | 13680/48008 [1:57:34<4:54:24,  1.94it/s] 28%|██▊       | 13681/48008 [1:57:35<4:38:43,  2.05it/s] 28%|██▊       | 13682/48008 [1:57:36<6:50:32,  1.39it/s] 29%|██▊       | 13683/48008 [1:57:36<6:09:09,  1.55it/s] 29%|██▊       | 13684/48008 [1:57:37<5:42:32,  1.67it/s] 29%|██▊       | 13685/48008 [1:57:37<5:11:50,  1.83it/s] 29%|██▊       | 13686/48008 [1:57:38<5:00:28,  1.90it/s] 29%|██▊       | 13687/48008 [1:57:38<4:56:23,  1.93it/s] 29%|██▊       | 13688/48008 [1:57:39<4:59:05,  1.91it/s] 29%|██▊       | 13689/48008 [1:57:39<4:54:03,  1.95it/s] 29%|██▊       | 13690/48008 [1:57:40<4:50:12,  1.97it/s] 29%|██▊       | 13691/48008 [1:57:40<4:45:16,  2.00it/s] 29%|██▊       | 13692/48008 [1:57:41<5:50:18,  1.63it/s] 29%|██▊       | 13693/48008 [1:57:42<5:27:37,  1.75it/s] 29%|██▊       | 13694/48008 [1:57:42<5:21:26,  1.78it/s] 29%|██▊       | 13695/48008 [1:57:43<5:09:52,  1.85it/s] 29%|██▊       | 13696/48008 [1:57:44<7:12:16,  1.32it/s] 29%|██▊       | 13697/48008 [1:57:44<6:26:04,  1.48it/s] 29%|██▊       | 13698/48008 [1:57:45<5:42:01,  1.67it/s] 29%|██▊       | 13699/48008 [1:57:45<5:27:17,  1.75it/s] 29%|██▊       | 13700/48008 [1:57:46<5:12:31,  1.83it/s]                                                         {'loss': 4.2863, 'grad_norm': 0.12649290263652802, 'learning_rate': 0.00014293034494250958, 'epoch': 0.29}
 29%|██▊       | 13700/48008 [1:57:46<5:12:31,  1.83it/s] 29%|██▊       | 13701/48008 [1:57:46<5:01:04,  1.90it/s] 29%|██▊       | 13702/48008 [1:57:48<7:05:53,  1.34it/s] 29%|██▊       | 13703/48008 [1:57:48<6:53:45,  1.38it/s] 29%|██▊       | 13704/48008 [1:57:49<6:13:10,  1.53it/s] 29%|██▊       | 13705/48008 [1:57:49<5:49:45,  1.63it/s] 29%|██▊       | 13706/48008 [1:57:50<5:27:31,  1.75it/s] 29%|██▊       | 13707/48008 [1:57:50<5:11:37,  1.83it/s] 29%|██▊       | 13708/48008 [1:57:51<4:59:58,  1.91it/s] 29%|██▊       | 13709/48008 [1:57:51<4:56:55,  1.93it/s] 29%|██▊       | 13710/48008 [1:57:52<4:57:23,  1.92it/s] 29%|██▊       | 13711/48008 [1:57:52<4:50:54,  1.96it/s] 29%|██▊       | 13712/48008 [1:57:53<4:52:50,  1.95it/s] 29%|██▊       | 13713/48008 [1:57:53<4:47:00,  1.99it/s] 29%|██▊       | 13714/48008 [1:57:54<4:32:51,  2.09it/s] 29%|██▊       | 13715/48008 [1:57:54<4:39:57,  2.04it/s] 29%|██▊       | 13716/48008 [1:57:55<4:39:23,  2.05it/s] 29%|██▊       | 13717/48008 [1:57:55<4:38:37,  2.05it/s] 29%|██▊       | 13718/48008 [1:57:56<4:40:59,  2.03it/s] 29%|██▊       | 13719/48008 [1:57:56<4:38:49,  2.05it/s] 29%|██▊       | 13720/48008 [1:57:57<4:47:21,  1.99it/s] 29%|██▊       | 13721/48008 [1:57:57<5:16:49,  1.80it/s] 29%|██▊       | 13722/48008 [1:57:58<5:11:49,  1.83it/s] 29%|██▊       | 13723/48008 [1:57:58<5:07:27,  1.86it/s] 29%|██▊       | 13724/48008 [1:57:59<4:57:53,  1.92it/s] 29%|██▊       | 13725/48008 [1:57:59<4:40:42,  2.04it/s] 29%|██▊       | 13726/48008 [1:58:00<4:39:50,  2.04it/s] 29%|██▊       | 13727/48008 [1:58:00<4:42:15,  2.02it/s] 29%|██▊       | 13728/48008 [1:58:01<4:45:58,  2.00it/s] 29%|██▊       | 13729/48008 [1:58:01<5:16:14,  1.81it/s] 29%|██▊       | 13730/48008 [1:58:02<5:07:24,  1.86it/s] 29%|██▊       | 13731/48008 [1:58:02<5:01:06,  1.90it/s] 29%|██▊       | 13732/48008 [1:58:03<5:02:34,  1.89it/s] 29%|██▊       | 13733/48008 [1:58:03<4:54:11,  1.94it/s] 29%|██▊       | 13734/48008 [1:58:04<4:48:16,  1.98it/s] 29%|██▊       | 13735/48008 [1:58:04<4:44:11,  2.01it/s] 29%|██▊       | 13736/48008 [1:58:05<4:40:47,  2.03it/s] 29%|██▊       | 13737/48008 [1:58:05<4:22:23,  2.18it/s] 29%|██▊       | 13738/48008 [1:58:06<4:25:49,  2.15it/s] 29%|██▊       | 13739/48008 [1:58:06<4:28:30,  2.13it/s] 29%|██▊       | 13740/48008 [1:58:07<4:31:02,  2.11it/s] 29%|██▊       | 13741/48008 [1:58:07<4:36:03,  2.07it/s] 29%|██▊       | 13742/48008 [1:58:08<5:43:19,  1.66it/s] 29%|██▊       | 13743/48008 [1:58:09<5:11:39,  1.83it/s] 29%|██▊       | 13744/48008 [1:58:09<5:00:11,  1.90it/s] 29%|██▊       | 13745/48008 [1:58:09<4:53:28,  1.95it/s] 29%|██▊       | 13746/48008 [1:58:10<4:53:15,  1.95it/s] 29%|██▊       | 13747/48008 [1:58:11<5:21:10,  1.78it/s] 29%|██▊       | 13748/48008 [1:58:11<5:08:04,  1.85it/s] 29%|██▊       | 13749/48008 [1:58:12<4:56:56,  1.92it/s] 29%|██▊       | 13750/48008 [1:58:12<4:41:45,  2.03it/s]{'loss': 4.2839, 'grad_norm': 0.12135813385248184, 'learning_rate': 0.00014272204632561242, 'epoch': 0.29}                                                          29%|██▊       | 13750/48008 [1:58:12<4:41:45,  2.03it/s]
 29%|██▊       | 13751/48008 [1:58:13<4:46:01,  2.00it/s] 29%|██▊       | 13752/48008 [1:58:13<4:48:24,  1.98it/s] 29%|██▊       | 13753/48008 [1:58:13<4:32:48,  2.09it/s] 29%|██▊       | 13754/48008 [1:58:14<4:33:13,  2.09it/s] 29%|██▊       | 13755/48008 [1:58:14<4:35:12,  2.07it/s] 29%|██▊       | 13756/48008 [1:58:15<4:24:34,  2.16it/s] 29%|██▊       | 13757/48008 [1:58:15<4:31:13,  2.10it/s] 29%|██▊       | 13758/48008 [1:58:17<6:45:39,  1.41it/s] 29%|██▊       | 13759/48008 [1:58:17<5:55:38,  1.61it/s] 29%|██▊       | 13760/48008 [1:58:18<5:35:51,  1.70it/s] 29%|██▊       | 13761/48008 [1:58:18<5:20:59,  1.78it/s] 29%|██▊       | 13762/48008 [1:58:19<4:56:37,  1.92it/s] 29%|██▊       | 13763/48008 [1:58:19<4:54:38,  1.94it/s] 29%|██▊       | 13764/48008 [1:58:19<4:49:14,  1.97it/s] 29%|██▊       | 13765/48008 [1:58:20<4:51:40,  1.96it/s] 29%|██▊       | 13766/48008 [1:58:20<4:36:43,  2.06it/s] 29%|██▊       | 13767/48008 [1:58:21<4:35:08,  2.07it/s] 29%|██▊       | 13768/48008 [1:58:21<4:34:17,  2.08it/s] 29%|██▊       | 13769/48008 [1:58:22<4:34:10,  2.08it/s] 29%|██▊       | 13770/48008 [1:58:22<4:34:33,  2.08it/s] 29%|██▊       | 13771/48008 [1:58:23<4:35:12,  2.07it/s] 29%|██▊       | 13772/48008 [1:58:23<4:38:26,  2.05it/s] 29%|██▊       | 13773/48008 [1:58:24<4:26:45,  2.14it/s] 29%|██▊       | 13774/48008 [1:58:24<4:33:41,  2.08it/s] 29%|██▊       | 13775/48008 [1:58:25<4:45:47,  2.00it/s] 29%|██▊       | 13776/48008 [1:58:25<4:46:38,  1.99it/s] 29%|██▊       | 13777/48008 [1:58:26<4:44:22,  2.01it/s] 29%|██▊       | 13778/48008 [1:58:26<4:47:26,  1.98it/s] 29%|██▊       | 13779/48008 [1:58:27<4:42:51,  2.02it/s] 29%|██▊       | 13780/48008 [1:58:27<4:39:47,  2.04it/s] 29%|██▊       | 13781/48008 [1:58:28<5:11:51,  1.83it/s] 29%|██▊       | 13782/48008 [1:58:29<5:33:15,  1.71it/s] 29%|██▊       | 13783/48008 [1:58:29<5:22:05,  1.77it/s] 29%|██▊       | 13784/48008 [1:58:30<4:56:49,  1.92it/s] 29%|██▊       | 13785/48008 [1:58:30<4:56:37,  1.92it/s] 29%|██▊       | 13786/48008 [1:58:31<4:53:48,  1.94it/s] 29%|██▊       | 13787/48008 [1:58:31<5:56:41,  1.60it/s] 29%|██▊       | 13788/48008 [1:58:32<5:37:17,  1.69it/s] 29%|██▊       | 13789/48008 [1:58:32<5:18:12,  1.79it/s] 29%|██▊       | 13790/48008 [1:58:33<5:09:10,  1.84it/s] 29%|██▊       | 13791/48008 [1:58:34<7:14:46,  1.31it/s] 29%|██▊       | 13792/48008 [1:58:35<6:28:17,  1.47it/s] 29%|██▊       | 13793/48008 [1:58:35<5:43:47,  1.66it/s] 29%|██▊       | 13794/48008 [1:58:36<5:26:19,  1.75it/s] 29%|██▊       | 13795/48008 [1:58:36<5:10:45,  1.83it/s] 29%|██▊       | 13796/48008 [1:58:37<5:00:03,  1.90it/s] 29%|██▊       | 13797/48008 [1:58:37<4:53:19,  1.94it/s] 29%|██▊       | 13798/48008 [1:58:38<4:36:34,  2.06it/s] 29%|██▊       | 13799/48008 [1:58:38<4:26:20,  2.14it/s] 29%|██▊       | 13800/48008 [1:58:38<4:29:33,  2.12it/s]                                                         {'loss': 4.2899, 'grad_norm': 0.13294899463653564, 'learning_rate': 0.0001425137477087152, 'epoch': 0.29} 29%|██▊       | 13800/48008 [1:58:38<4:29:33,  2.12it/s]
 29%|██▊       | 13801/48008 [1:58:39<4:33:34,  2.08it/s] 29%|██▊       | 13802/48008 [1:58:39<4:33:11,  2.09it/s] 29%|██▉       | 13803/48008 [1:58:40<4:41:09,  2.03it/s] 29%|██▉       | 13804/48008 [1:58:40<4:43:56,  2.01it/s] 29%|██▉       | 13805/48008 [1:58:41<4:30:18,  2.11it/s] 29%|██▉       | 13806/48008 [1:58:42<6:42:55,  1.41it/s] 29%|██▉       | 13807/48008 [1:58:43<6:05:07,  1.56it/s] 29%|██▉       | 13808/48008 [1:58:43<5:27:20,  1.74it/s] 29%|██▉       | 13809/48008 [1:58:44<5:11:48,  1.83it/s] 29%|██▉       | 13810/48008 [1:58:44<5:05:05,  1.87it/s] 29%|██▉       | 13811/48008 [1:58:44<4:45:40,  2.00it/s] 29%|██▉       | 13812/48008 [1:58:45<4:47:29,  1.98it/s] 29%|██▉       | 13813/48008 [1:58:45<4:50:05,  1.96it/s] 29%|██▉       | 13814/48008 [1:58:46<4:46:18,  1.99it/s] 29%|██▉       | 13815/48008 [1:58:46<4:25:53,  2.14it/s] 29%|██▉       | 13816/48008 [1:58:47<4:32:29,  2.09it/s] 29%|██▉       | 13817/48008 [1:58:47<4:22:13,  2.17it/s] 29%|██▉       | 13818/48008 [1:58:48<4:25:53,  2.14it/s] 29%|██▉       | 13819/48008 [1:58:48<4:17:24,  2.21it/s] 29%|██▉       | 13820/48008 [1:58:49<4:22:01,  2.17it/s] 29%|██▉       | 13821/48008 [1:58:49<4:15:27,  2.23it/s] 29%|██▉       | 13822/48008 [1:58:50<4:21:05,  2.18it/s] 29%|██▉       | 13823/48008 [1:58:50<4:24:56,  2.15it/s] 29%|██▉       | 13824/48008 [1:58:51<4:26:57,  2.13it/s] 29%|██▉       | 13825/48008 [1:58:51<4:28:11,  2.12it/s] 29%|██▉       | 13826/48008 [1:58:51<4:31:42,  2.10it/s] 29%|██▉       | 13827/48008 [1:58:52<4:22:31,  2.17it/s] 29%|██▉       | 13828/48008 [1:58:52<4:32:19,  2.09it/s] 29%|██▉       | 13829/48008 [1:58:53<4:34:34,  2.07it/s] 29%|██▉       | 13830/48008 [1:58:53<4:41:09,  2.03it/s] 29%|██▉       | 13831/48008 [1:58:54<4:43:13,  2.01it/s] 29%|██▉       | 13832/48008 [1:58:54<4:47:43,  1.98it/s] 29%|██▉       | 13833/48008 [1:58:55<5:52:38,  1.62it/s] 29%|██▉       | 13834/48008 [1:58:56<5:28:55,  1.73it/s] 29%|██▉       | 13835/48008 [1:58:56<5:23:57,  1.76it/s] 29%|██▉       | 13836/48008 [1:58:58<7:20:31,  1.29it/s] 29%|██▉       | 13837/48008 [1:58:58<6:32:16,  1.45it/s] 29%|██▉       | 13838/48008 [1:58:59<5:59:24,  1.58it/s] 29%|██▉       | 13839/48008 [1:58:59<5:35:17,  1.70it/s] 29%|██▉       | 13840/48008 [1:59:00<5:25:58,  1.75it/s] 29%|██▉       | 13841/48008 [1:59:00<5:22:31,  1.77it/s] 29%|██▉       | 13842/48008 [1:59:01<5:43:33,  1.66it/s] 29%|██▉       | 13843/48008 [1:59:01<5:23:21,  1.76it/s] 29%|██▉       | 13844/48008 [1:59:02<5:14:46,  1.81it/s] 29%|██▉       | 13845/48008 [1:59:02<5:05:34,  1.86it/s] 29%|██▉       | 13846/48008 [1:59:03<5:02:37,  1.88it/s] 29%|██▉       | 13847/48008 [1:59:03<5:03:56,  1.87it/s] 29%|██▉       | 13848/48008 [1:59:04<5:01:03,  1.89it/s] 29%|██▉       | 13849/48008 [1:59:04<4:57:09,  1.92it/s] 29%|██▉       | 13850/48008 [1:59:05<5:01:22,  1.89it/s]                                                         {'loss': 4.288, 'grad_norm': 0.19817008078098297, 'learning_rate': 0.00014230544909181805, 'epoch': 0.29}
 29%|██▉       | 13850/48008 [1:59:05<5:01:22,  1.89it/s] 29%|██▉       | 13851/48008 [1:59:05<4:42:12,  2.02it/s] 29%|██▉       | 13852/48008 [1:59:07<6:51:09,  1.38it/s] 29%|██▉       | 13853/48008 [1:59:07<6:45:22,  1.40it/s] 29%|██▉       | 13854/48008 [1:59:08<6:07:01,  1.55it/s] 29%|██▉       | 13855/48008 [1:59:08<5:27:08,  1.74it/s] 29%|██▉       | 13856/48008 [1:59:09<5:00:23,  1.89it/s] 29%|██▉       | 13857/48008 [1:59:09<4:52:41,  1.94it/s] 29%|██▉       | 13858/48008 [1:59:10<4:46:56,  1.98it/s] 29%|██▉       | 13859/48008 [1:59:10<4:31:36,  2.10it/s] 29%|██▉       | 13860/48008 [1:59:11<6:47:27,  1.40it/s] 29%|██▉       | 13861/48008 [1:59:12<6:11:56,  1.53it/s] 29%|██▉       | 13862/48008 [1:59:12<5:42:29,  1.66it/s] 29%|██▉       | 13863/48008 [1:59:13<5:22:10,  1.77it/s] 29%|██▉       | 13864/48008 [1:59:13<5:12:40,  1.82it/s] 29%|██▉       | 13865/48008 [1:59:14<5:12:04,  1.82it/s] 29%|██▉       | 13866/48008 [1:59:14<4:51:09,  1.95it/s] 29%|██▉       | 13867/48008 [1:59:15<4:53:33,  1.94it/s] 29%|██▉       | 13868/48008 [1:59:15<4:48:43,  1.97it/s] 29%|██▉       | 13869/48008 [1:59:16<4:44:00,  2.00it/s] 29%|██▉       | 13870/48008 [1:59:16<4:40:55,  2.03it/s] 29%|██▉       | 13871/48008 [1:59:17<4:39:53,  2.03it/s] 29%|██▉       | 13872/48008 [1:59:17<4:37:55,  2.05it/s] 29%|██▉       | 13873/48008 [1:59:18<4:36:49,  2.06it/s] 29%|██▉       | 13874/48008 [1:59:18<4:36:38,  2.06it/s] 29%|██▉       | 13875/48008 [1:59:19<4:38:16,  2.04it/s] 29%|██▉       | 13876/48008 [1:59:19<4:40:53,  2.03it/s] 29%|██▉       | 13877/48008 [1:59:20<4:43:07,  2.01it/s] 29%|██▉       | 13878/48008 [1:59:20<4:40:15,  2.03it/s] 29%|██▉       | 13879/48008 [1:59:21<4:45:41,  1.99it/s] 29%|██▉       | 13880/48008 [1:59:21<4:49:49,  1.96it/s] 29%|██▉       | 13881/48008 [1:59:22<4:52:40,  1.94it/s] 29%|██▉       | 13882/48008 [1:59:22<4:51:54,  1.95it/s] 29%|██▉       | 13883/48008 [1:59:23<4:52:47,  1.94it/s] 29%|██▉       | 13884/48008 [1:59:23<4:51:45,  1.95it/s] 29%|██▉       | 13885/48008 [1:59:24<4:48:25,  1.97it/s] 29%|██▉       | 13886/48008 [1:59:24<4:44:04,  2.00it/s] 29%|██▉       | 13887/48008 [1:59:25<4:44:57,  2.00it/s] 29%|██▉       | 13888/48008 [1:59:25<4:41:12,  2.02it/s] 29%|██▉       | 13889/48008 [1:59:26<4:39:31,  2.03it/s] 29%|██▉       | 13890/48008 [1:59:26<4:37:48,  2.05it/s] 29%|██▉       | 13891/48008 [1:59:27<4:35:41,  2.06it/s] 29%|██▉       | 13892/48008 [1:59:28<6:45:57,  1.40it/s] 29%|██▉       | 13893/48008 [1:59:28<6:05:58,  1.55it/s] 29%|██▉       | 13894/48008 [1:59:29<5:41:00,  1.67it/s] 29%|██▉       | 13895/48008 [1:59:29<5:10:11,  1.83it/s] 29%|██▉       | 13896/48008 [1:59:30<5:00:06,  1.89it/s] 29%|██▉       | 13897/48008 [1:59:30<4:53:02,  1.94it/s] 29%|██▉       | 13898/48008 [1:59:31<4:47:38,  1.98it/s] 29%|██▉       | 13899/48008 [1:59:31<4:46:49,  1.98it/s] 29%|██▉       | 13900/48008 [1:59:32<4:52:34,  1.94it/s]                                                         {'loss': 4.2672, 'grad_norm': 0.19461657106876373, 'learning_rate': 0.00014209715047492085, 'epoch': 0.29}
 29%|██▉       | 13900/48008 [1:59:32<4:52:34,  1.94it/s] 29%|██▉       | 13901/48008 [1:59:32<4:46:39,  1.98it/s] 29%|██▉       | 13902/48008 [1:59:33<4:27:17,  2.13it/s] 29%|██▉       | 13903/48008 [1:59:33<4:19:08,  2.19it/s] 29%|██▉       | 13904/48008 [1:59:34<4:13:18,  2.24it/s] 29%|██▉       | 13905/48008 [1:59:34<4:08:15,  2.29it/s] 29%|██▉       | 13906/48008 [1:59:34<4:21:26,  2.17it/s] 29%|██▉       | 13907/48008 [1:59:35<4:26:49,  2.13it/s] 29%|██▉       | 13908/48008 [1:59:35<4:30:24,  2.10it/s] 29%|██▉       | 13909/48008 [1:59:36<5:37:54,  1.68it/s] 29%|██▉       | 13910/48008 [1:59:37<5:24:56,  1.75it/s] 29%|██▉       | 13911/48008 [1:59:37<5:10:32,  1.83it/s] 29%|██▉       | 13912/48008 [1:59:38<5:03:39,  1.87it/s] 29%|██▉       | 13913/48008 [1:59:38<4:53:50,  1.93it/s] 29%|██▉       | 13914/48008 [1:59:39<4:48:29,  1.97it/s] 29%|██▉       | 13915/48008 [1:59:39<4:49:17,  1.96it/s] 29%|██▉       | 13916/48008 [1:59:40<4:50:15,  1.96it/s] 29%|██▉       | 13917/48008 [1:59:40<4:49:04,  1.97it/s] 29%|██▉       | 13918/48008 [1:59:41<4:55:06,  1.93it/s] 29%|██▉       | 13919/48008 [1:59:41<4:54:08,  1.93it/s] 29%|██▉       | 13920/48008 [1:59:42<4:47:22,  1.98it/s] 29%|██▉       | 13921/48008 [1:59:42<4:45:29,  1.99it/s] 29%|██▉       | 13922/48008 [1:59:43<4:46:47,  1.98it/s] 29%|██▉       | 13923/48008 [1:59:44<5:16:18,  1.80it/s] 29%|██▉       | 13924/48008 [1:59:44<4:48:33,  1.97it/s] 29%|██▉       | 13925/48008 [1:59:44<4:44:03,  2.00it/s] 29%|██▉       | 13926/48008 [1:59:45<5:16:17,  1.80it/s] 29%|██▉       | 13927/48008 [1:59:46<5:02:44,  1.88it/s] 29%|██▉       | 13928/48008 [1:59:46<4:54:43,  1.93it/s] 29%|██▉       | 13929/48008 [1:59:47<4:37:58,  2.04it/s] 29%|██▉       | 13930/48008 [1:59:47<4:37:14,  2.05it/s] 29%|██▉       | 13931/48008 [1:59:48<4:40:58,  2.02it/s] 29%|██▉       | 13932/48008 [1:59:48<4:28:15,  2.12it/s] 29%|██▉       | 13933/48008 [1:59:48<4:33:24,  2.08it/s] 29%|██▉       | 13934/48008 [1:59:49<5:07:21,  1.85it/s] 29%|██▉       | 13935/48008 [1:59:50<4:46:09,  1.98it/s] 29%|██▉       | 13936/48008 [1:59:50<4:42:54,  2.01it/s] 29%|██▉       | 13937/48008 [1:59:51<4:50:38,  1.95it/s] 29%|██▉       | 13938/48008 [1:59:51<4:46:06,  1.98it/s] 29%|██▉       | 13939/48008 [1:59:52<4:42:54,  2.01it/s] 29%|██▉       | 13940/48008 [1:59:52<4:39:32,  2.03it/s] 29%|██▉       | 13941/48008 [1:59:52<4:26:02,  2.13it/s] 29%|██▉       | 13942/48008 [1:59:53<4:36:43,  2.05it/s] 29%|██▉       | 13943/48008 [1:59:53<4:35:05,  2.06it/s] 29%|██▉       | 13944/48008 [1:59:54<4:39:07,  2.03it/s] 29%|██▉       | 13945/48008 [1:59:54<4:26:54,  2.13it/s] 29%|██▉       | 13946/48008 [1:59:55<4:29:30,  2.11it/s] 29%|██▉       | 13947/48008 [1:59:55<4:31:57,  2.09it/s] 29%|██▉       | 13948/48008 [1:59:56<4:34:39,  2.07it/s] 29%|██▉       | 13949/48008 [1:59:56<4:41:16,  2.02it/s] 29%|██▉       | 13950/48008 [1:59:57<4:27:56,  2.12it/s]                                                         {'loss': 4.2503, 'grad_norm': 0.34991535544395447, 'learning_rate': 0.00014188885185802366, 'epoch': 0.29}
 29%|██▉       | 13950/48008 [1:59:57<4:27:56,  2.12it/s] 29%|██▉       | 13951/48008 [1:59:57<4:18:48,  2.19it/s] 29%|██▉       | 13952/48008 [1:59:58<4:28:59,  2.11it/s] 29%|██▉       | 13953/48008 [1:59:58<4:19:52,  2.18it/s] 29%|██▉       | 13954/48008 [1:59:59<4:13:05,  2.24it/s] 29%|██▉       | 13955/48008 [1:59:59<4:23:32,  2.15it/s] 29%|██▉       | 13956/48008 [2:00:00<4:25:54,  2.13it/s] 29%|██▉       | 13957/48008 [2:00:00<4:28:24,  2.11it/s] 29%|██▉       | 13958/48008 [2:00:00<4:28:47,  2.11it/s] 29%|██▉       | 13959/48008 [2:00:01<4:31:11,  2.09it/s] 29%|██▉       | 13960/48008 [2:00:02<5:05:58,  1.85it/s] 29%|██▉       | 13961/48008 [2:00:02<5:03:44,  1.87it/s] 29%|██▉       | 13962/48008 [2:00:03<4:55:10,  1.92it/s] 29%|██▉       | 13963/48008 [2:00:03<4:49:03,  1.96it/s] 29%|██▉       | 13964/48008 [2:00:04<4:45:14,  1.99it/s] 29%|██▉       | 13965/48008 [2:00:04<4:46:30,  1.98it/s] 29%|██▉       | 13966/48008 [2:00:05<4:42:34,  2.01it/s] 29%|██▉       | 13967/48008 [2:00:05<4:43:36,  2.00it/s] 29%|██▉       | 13968/48008 [2:00:06<4:29:52,  2.10it/s] 29%|██▉       | 13969/48008 [2:00:06<4:35:02,  2.06it/s] 29%|██▉       | 13970/48008 [2:00:07<4:38:08,  2.04it/s] 29%|██▉       | 13971/48008 [2:00:07<4:43:57,  2.00it/s] 29%|██▉       | 13972/48008 [2:00:08<4:42:22,  2.01it/s] 29%|██▉       | 13973/48008 [2:00:08<4:46:00,  1.98it/s] 29%|██▉       | 13974/48008 [2:00:09<4:44:32,  1.99it/s] 29%|██▉       | 13975/48008 [2:00:09<4:30:34,  2.10it/s] 29%|██▉       | 13976/48008 [2:00:10<4:41:46,  2.01it/s] 29%|██▉       | 13977/48008 [2:00:10<4:39:01,  2.03it/s] 29%|██▉       | 13978/48008 [2:00:11<4:38:21,  2.04it/s] 29%|██▉       | 13979/48008 [2:00:11<4:27:30,  2.12it/s] 29%|██▉       | 13980/48008 [2:00:11<4:37:09,  2.05it/s] 29%|██▉       | 13981/48008 [2:00:12<4:26:33,  2.13it/s] 29%|██▉       | 13982/48008 [2:00:12<4:30:43,  2.09it/s] 29%|██▉       | 13983/48008 [2:00:13<4:33:37,  2.07it/s] 29%|██▉       | 13984/48008 [2:00:13<4:33:07,  2.08it/s] 29%|██▉       | 13985/48008 [2:00:14<5:06:58,  1.85it/s] 29%|██▉       | 13986/48008 [2:00:15<4:58:51,  1.90it/s] 29%|██▉       | 13987/48008 [2:00:15<4:50:47,  1.95it/s] 29%|██▉       | 13988/48008 [2:00:16<5:18:15,  1.78it/s] 29%|██▉       | 13989/48008 [2:00:16<5:11:17,  1.82it/s] 29%|██▉       | 13990/48008 [2:00:17<4:59:10,  1.90it/s] 29%|██▉       | 13991/48008 [2:00:17<4:59:03,  1.90it/s] 29%|██▉       | 13992/48008 [2:00:18<4:53:18,  1.93it/s] 29%|██▉       | 13993/48008 [2:00:18<4:37:57,  2.04it/s] 29%|██▉       | 13994/48008 [2:00:19<4:40:41,  2.02it/s] 29%|██▉       | 13995/48008 [2:00:19<4:39:21,  2.03it/s] 29%|██▉       | 13996/48008 [2:00:20<4:27:04,  2.12it/s] 29%|██▉       | 13997/48008 [2:00:20<4:19:31,  2.18it/s] 29%|██▉       | 13998/48008 [2:00:21<4:29:46,  2.10it/s] 29%|██▉       | 13999/48008 [2:00:21<4:20:31,  2.18it/s] 29%|██▉       | 14000/48008 [2:00:21<4:34:46,  2.06it/s]                                                         {'loss': 4.2845, 'grad_norm': 0.5962380170822144, 'learning_rate': 0.00014168055324112648, 'epoch': 0.29}
 29%|██▉       | 14000/48008 [2:00:21<4:34:46,  2.06it/s] 29%|██▉       | 14001/48008 [2:00:22<4:35:05,  2.06it/s] 29%|██▉       | 14002/48008 [2:00:23<4:46:42,  1.98it/s] 29%|██▉       | 14003/48008 [2:00:23<5:14:36,  1.80it/s] 29%|██▉       | 14004/48008 [2:00:24<4:50:18,  1.95it/s] 29%|██▉       | 14005/48008 [2:00:24<4:49:26,  1.96it/s] 29%|██▉       | 14006/48008 [2:00:25<5:52:38,  1.61it/s] 29%|██▉       | 14007/48008 [2:00:25<5:30:25,  1.72it/s] 29%|██▉       | 14008/48008 [2:00:27<7:26:59,  1.27it/s] 29%|██▉       | 14009/48008 [2:00:27<6:23:17,  1.48it/s] 29%|██▉       | 14010/48008 [2:00:28<5:54:35,  1.60it/s] 29%|██▉       | 14011/48008 [2:00:28<5:20:06,  1.77it/s] 29%|██▉       | 14012/48008 [2:00:29<5:05:11,  1.86it/s] 29%|██▉       | 14013/48008 [2:00:29<5:00:13,  1.89it/s] 29%|██▉       | 14014/48008 [2:00:30<4:55:30,  1.92it/s] 29%|██▉       | 14015/48008 [2:00:30<4:54:48,  1.92it/s] 29%|██▉       | 14016/48008 [2:00:31<4:51:28,  1.94it/s] 29%|██▉       | 14017/48008 [2:00:31<4:46:04,  1.98it/s] 29%|██▉       | 14018/48008 [2:00:32<4:51:12,  1.95it/s] 29%|██▉       | 14019/48008 [2:00:32<4:49:08,  1.96it/s] 29%|██▉       | 14020/48008 [2:00:33<4:34:32,  2.06it/s] 29%|██▉       | 14021/48008 [2:00:33<4:44:02,  1.99it/s] 29%|██▉       | 14022/48008 [2:00:34<4:40:39,  2.02it/s] 29%|██▉       | 14023/48008 [2:00:34<4:42:37,  2.00it/s] 29%|██▉       | 14024/48008 [2:00:35<4:39:20,  2.03it/s] 29%|██▉       | 14025/48008 [2:00:35<4:36:35,  2.05it/s] 29%|██▉       | 14026/48008 [2:00:36<4:35:46,  2.05it/s] 29%|██▉       | 14027/48008 [2:00:36<4:34:33,  2.06it/s] 29%|██▉       | 14028/48008 [2:00:36<4:34:42,  2.06it/s] 29%|██▉       | 14029/48008 [2:00:37<4:37:09,  2.04it/s] 29%|██▉       | 14030/48008 [2:00:37<4:35:54,  2.05it/s] 29%|██▉       | 14031/48008 [2:00:38<4:41:39,  2.01it/s] 29%|██▉       | 14032/48008 [2:00:38<4:39:07,  2.03it/s] 29%|██▉       | 14033/48008 [2:00:39<5:09:12,  1.83it/s] 29%|██▉       | 14034/48008 [2:00:40<4:47:01,  1.97it/s] 29%|██▉       | 14035/48008 [2:00:40<4:47:18,  1.97it/s] 29%|██▉       | 14036/48008 [2:00:41<5:50:03,  1.62it/s] 29%|██▉       | 14037/48008 [2:00:41<5:26:09,  1.74it/s] 29%|██▉       | 14038/48008 [2:00:42<6:17:49,  1.50it/s] 29%|██▉       | 14039/48008 [2:00:43<5:46:12,  1.64it/s] 29%|██▉       | 14040/48008 [2:00:43<5:24:18,  1.75it/s] 29%|██▉       | 14041/48008 [2:00:44<5:16:04,  1.79it/s] 29%|██▉       | 14042/48008 [2:00:45<6:11:13,  1.52it/s] 29%|██▉       | 14043/48008 [2:00:45<5:41:31,  1.66it/s] 29%|██▉       | 14044/48008 [2:00:46<5:31:06,  1.71it/s] 29%|██▉       | 14045/48008 [2:00:46<5:14:16,  1.80it/s] 29%|██▉       | 14046/48008 [2:00:47<4:50:49,  1.95it/s] 29%|██▉       | 14047/48008 [2:00:47<4:45:53,  1.98it/s] 29%|██▉       | 14048/48008 [2:00:48<4:42:13,  2.01it/s] 29%|██▉       | 14049/48008 [2:00:48<4:39:06,  2.03it/s] 29%|██▉       | 14050/48008 [2:00:49<4:37:46,  2.04it/s]                                                         {'loss': 4.3103, 'grad_norm': 0.9416942596435547, 'learning_rate': 0.0001414722546242293, 'epoch': 0.29} 29%|██▉       | 14050/48008 [2:00:49<4:37:46,  2.04it/s]
 29%|██▉       | 14051/48008 [2:00:49<4:25:21,  2.13it/s] 29%|██▉       | 14052/48008 [2:00:49<4:27:33,  2.12it/s] 29%|██▉       | 14053/48008 [2:00:50<4:28:57,  2.10it/s] 29%|██▉       | 14054/48008 [2:00:50<4:39:18,  2.03it/s] 29%|██▉       | 14055/48008 [2:00:51<5:43:56,  1.65it/s] 29%|██▉       | 14056/48008 [2:00:52<5:23:20,  1.75it/s] 29%|██▉       | 14057/48008 [2:00:52<4:57:27,  1.90it/s] 29%|██▉       | 14058/48008 [2:00:53<4:50:31,  1.95it/s] 29%|██▉       | 14059/48008 [2:00:53<4:49:42,  1.95it/s] 29%|██▉       | 14060/48008 [2:00:54<4:45:06,  1.98it/s] 29%|██▉       | 14061/48008 [2:00:54<4:42:36,  2.00it/s] 29%|██▉       | 14062/48008 [2:00:55<4:40:07,  2.02it/s] 29%|██▉       | 14063/48008 [2:00:55<4:37:36,  2.04it/s] 29%|██▉       | 14064/48008 [2:00:56<4:37:21,  2.04it/s] 29%|██▉       | 14065/48008 [2:00:56<4:25:33,  2.13it/s] 29%|██▉       | 14066/48008 [2:00:57<4:31:35,  2.08it/s] 29%|██▉       | 14067/48008 [2:00:57<4:36:54,  2.04it/s] 29%|██▉       | 14068/48008 [2:00:57<4:25:13,  2.13it/s] 29%|██▉       | 14069/48008 [2:00:58<4:37:40,  2.04it/s] 29%|██▉       | 14070/48008 [2:00:59<4:45:52,  1.98it/s] 29%|██▉       | 14071/48008 [2:00:59<4:41:40,  2.01it/s] 29%|██▉       | 14072/48008 [2:01:00<4:43:37,  1.99it/s] 29%|██▉       | 14073/48008 [2:01:00<4:39:33,  2.02it/s] 29%|██▉       | 14074/48008 [2:01:00<4:26:53,  2.12it/s] 29%|██▉       | 14075/48008 [2:01:01<4:29:10,  2.10it/s] 29%|██▉       | 14076/48008 [2:01:01<4:33:52,  2.06it/s] 29%|██▉       | 14077/48008 [2:01:02<4:22:34,  2.15it/s] 29%|██▉       | 14078/48008 [2:01:03<6:36:44,  1.43it/s] 29%|██▉       | 14079/48008 [2:01:04<5:58:56,  1.58it/s] 29%|██▉       | 14080/48008 [2:01:04<5:42:27,  1.65it/s] 29%|██▉       | 14081/48008 [2:01:05<5:21:55,  1.76it/s] 29%|██▉       | 14082/48008 [2:01:05<5:41:07,  1.66it/s] 29%|██▉       | 14083/48008 [2:01:06<5:09:44,  1.83it/s] 29%|██▉       | 14084/48008 [2:01:06<5:03:58,  1.86it/s] 29%|██▉       | 14085/48008 [2:01:07<4:58:43,  1.89it/s] 29%|██▉       | 14086/48008 [2:01:07<4:57:09,  1.90it/s] 29%|██▉       | 14087/48008 [2:01:08<4:49:03,  1.96it/s] 29%|██▉       | 14088/48008 [2:01:08<4:47:45,  1.96it/s] 29%|██▉       | 14089/48008 [2:01:09<4:32:15,  2.08it/s] 29%|██▉       | 14090/48008 [2:01:09<4:32:30,  2.07it/s] 29%|██▉       | 14091/48008 [2:01:10<4:35:40,  2.05it/s] 29%|██▉       | 14092/48008 [2:01:10<4:37:51,  2.03it/s] 29%|██▉       | 14093/48008 [2:01:11<5:08:20,  1.83it/s] 29%|██▉       | 14094/48008 [2:01:11<4:57:48,  1.90it/s] 29%|██▉       | 14095/48008 [2:01:12<4:49:45,  1.95it/s] 29%|██▉       | 14096/48008 [2:01:12<4:44:28,  1.99it/s] 29%|██▉       | 14097/48008 [2:01:13<4:29:15,  2.10it/s] 29%|██▉       | 14098/48008 [2:01:13<4:34:36,  2.06it/s] 29%|██▉       | 14099/48008 [2:01:14<4:34:24,  2.06it/s] 29%|██▉       | 14100/48008 [2:01:14<4:32:57,  2.07it/s]                                                         {'loss': 4.312, 'grad_norm': 0.7340875267982483, 'learning_rate': 0.00014126395600733211, 'epoch': 0.29} 29%|██▉       | 14100/48008 [2:01:14<4:32:57,  2.07it/s]
 29%|██▉       | 14101/48008 [2:01:15<4:42:14,  2.00it/s] 29%|██▉       | 14102/48008 [2:01:15<4:39:26,  2.02it/s] 29%|██▉       | 14103/48008 [2:01:16<4:37:03,  2.04it/s] 29%|██▉       | 14104/48008 [2:01:16<4:35:24,  2.05it/s] 29%|██▉       | 14105/48008 [2:01:17<4:34:24,  2.06it/s] 29%|██▉       | 14106/48008 [2:01:17<4:34:25,  2.06it/s] 29%|██▉       | 14107/48008 [2:01:18<4:33:57,  2.06it/s] 29%|██▉       | 14108/48008 [2:01:18<4:40:13,  2.02it/s] 29%|██▉       | 14109/48008 [2:01:19<4:26:40,  2.12it/s] 29%|██▉       | 14110/48008 [2:01:19<4:17:36,  2.19it/s] 29%|██▉       | 14111/48008 [2:01:19<4:11:22,  2.25it/s] 29%|██▉       | 14112/48008 [2:01:20<4:21:22,  2.16it/s] 29%|██▉       | 14113/48008 [2:01:20<4:25:22,  2.13it/s] 29%|██▉       | 14114/48008 [2:01:21<5:34:32,  1.69it/s] 29%|██▉       | 14115/48008 [2:01:22<5:04:26,  1.86it/s] 29%|██▉       | 14116/48008 [2:01:22<5:01:24,  1.87it/s] 29%|██▉       | 14117/48008 [2:01:23<5:00:01,  1.88it/s] 29%|██▉       | 14118/48008 [2:01:23<4:52:03,  1.93it/s] 29%|██▉       | 14119/48008 [2:01:24<4:34:47,  2.06it/s] 29%|██▉       | 14120/48008 [2:01:24<4:37:41,  2.03it/s] 29%|██▉       | 14121/48008 [2:01:25<5:09:40,  1.82it/s] 29%|██▉       | 14122/48008 [2:01:25<4:57:48,  1.90it/s] 29%|██▉       | 14123/48008 [2:01:26<4:55:48,  1.91it/s] 29%|██▉       | 14124/48008 [2:01:26<4:47:59,  1.96it/s] 29%|██▉       | 14125/48008 [2:01:27<4:43:37,  1.99it/s] 29%|██▉       | 14126/48008 [2:01:27<4:44:51,  1.98it/s] 29%|██▉       | 14127/48008 [2:01:28<4:47:29,  1.96it/s] 29%|██▉       | 14128/48008 [2:01:28<4:47:09,  1.97it/s] 29%|██▉       | 14129/48008 [2:01:29<4:41:32,  2.01it/s] 29%|██▉       | 14130/48008 [2:01:29<4:39:12,  2.02it/s] 29%|██▉       | 14131/48008 [2:01:30<4:43:36,  1.99it/s] 29%|██▉       | 14132/48008 [2:01:30<4:49:59,  1.95it/s] 29%|██▉       | 14133/48008 [2:01:31<4:43:39,  1.99it/s] 29%|██▉       | 14134/48008 [2:01:31<4:39:42,  2.02it/s] 29%|██▉       | 14135/48008 [2:01:32<5:10:51,  1.82it/s] 29%|██▉       | 14136/48008 [2:01:32<5:02:35,  1.87it/s] 29%|██▉       | 14137/48008 [2:01:33<4:42:15,  2.00it/s] 29%|██▉       | 14138/48008 [2:01:33<4:48:55,  1.95it/s] 29%|██▉       | 14139/48008 [2:01:34<4:43:51,  1.99it/s] 29%|██▉       | 14140/48008 [2:01:34<4:46:50,  1.97it/s] 29%|██▉       | 14141/48008 [2:01:35<4:42:21,  2.00it/s] 29%|██▉       | 14142/48008 [2:01:36<5:45:37,  1.63it/s] 29%|██▉       | 14143/48008 [2:01:36<5:29:58,  1.71it/s] 29%|██▉       | 14144/48008 [2:01:37<5:01:30,  1.87it/s] 29%|██▉       | 14145/48008 [2:01:37<5:02:19,  1.87it/s] 29%|██▉       | 14146/48008 [2:01:38<4:53:13,  1.92it/s] 29%|██▉       | 14147/48008 [2:01:39<6:58:05,  1.35it/s] 29%|██▉       | 14148/48008 [2:01:39<6:18:15,  1.49it/s] 29%|██▉       | 14149/48008 [2:01:40<5:50:28,  1.61it/s] 29%|██▉       | 14150/48008 [2:01:40<5:33:24,  1.69it/s]                                                         {'loss': 4.3136, 'grad_norm': 0.45007753372192383, 'learning_rate': 0.00014105565739043493, 'epoch': 0.29}
 29%|██▉       | 14150/48008 [2:01:40<5:33:24,  1.69it/s] 29%|██▉       | 14151/48008 [2:01:41<5:15:24,  1.79it/s] 29%|██▉       | 14152/48008 [2:01:41<4:50:18,  1.94it/s] 29%|██▉       | 14153/48008 [2:01:42<4:44:55,  1.98it/s] 29%|██▉       | 14154/48008 [2:01:42<4:44:51,  1.98it/s] 29%|██▉       | 14155/48008 [2:01:43<4:30:16,  2.09it/s] 29%|██▉       | 14156/48008 [2:01:43<4:30:55,  2.08it/s] 29%|██▉       | 14157/48008 [2:01:44<4:31:55,  2.07it/s] 29%|██▉       | 14158/48008 [2:01:44<4:31:20,  2.08it/s] 29%|██▉       | 14159/48008 [2:01:45<4:38:08,  2.03it/s] 29%|██▉       | 14160/48008 [2:01:45<4:25:06,  2.13it/s] 29%|██▉       | 14161/48008 [2:01:46<4:26:36,  2.12it/s] 29%|██▉       | 14162/48008 [2:01:46<4:27:54,  2.11it/s] 30%|██▉       | 14163/48008 [2:01:47<4:32:47,  2.07it/s] 30%|██▉       | 14164/48008 [2:01:47<4:21:10,  2.16it/s] 30%|██▉       | 14165/48008 [2:01:48<4:24:44,  2.13it/s] 30%|██▉       | 14166/48008 [2:01:48<4:26:35,  2.12it/s] 30%|██▉       | 14167/48008 [2:01:48<4:28:03,  2.10it/s] 30%|██▉       | 14168/48008 [2:01:50<6:39:45,  1.41it/s] 30%|██▉       | 14169/48008 [2:01:50<5:50:31,  1.61it/s] 30%|██▉       | 14170/48008 [2:01:51<5:27:13,  1.72it/s] 30%|██▉       | 14171/48008 [2:01:51<5:11:53,  1.81it/s] 30%|██▉       | 14172/48008 [2:01:52<4:59:19,  1.88it/s] 30%|██▉       | 14173/48008 [2:01:52<4:54:53,  1.91it/s] 30%|██▉       | 14174/48008 [2:01:53<4:52:18,  1.93it/s] 30%|██▉       | 14175/48008 [2:01:53<4:49:38,  1.95it/s] 30%|██▉       | 14176/48008 [2:01:54<4:33:57,  2.06it/s] 30%|██▉       | 14177/48008 [2:01:54<4:34:12,  2.06it/s] 30%|██▉       | 14178/48008 [2:01:55<4:33:01,  2.07it/s] 30%|██▉       | 14179/48008 [2:01:55<4:42:11,  2.00it/s] 30%|██▉       | 14180/48008 [2:01:55<4:27:55,  2.10it/s] 30%|██▉       | 14181/48008 [2:01:56<4:28:16,  2.10it/s] 30%|██▉       | 14182/48008 [2:01:56<4:32:35,  2.07it/s] 30%|██▉       | 14183/48008 [2:01:57<4:32:05,  2.07it/s] 30%|██▉       | 14184/48008 [2:01:57<4:31:09,  2.08it/s] 30%|██▉       | 14185/48008 [2:01:58<4:31:26,  2.08it/s] 30%|██▉       | 14186/48008 [2:01:58<4:19:32,  2.17it/s] 30%|██▉       | 14187/48008 [2:02:00<6:32:50,  1.43it/s] 30%|██▉       | 14188/48008 [2:02:00<6:02:41,  1.55it/s] 30%|██▉       | 14189/48008 [2:02:00<5:24:08,  1.74it/s] 30%|██▉       | 14190/48008 [2:02:01<5:14:52,  1.79it/s] 30%|██▉       | 14191/48008 [2:02:02<5:06:17,  1.84it/s] 30%|██▉       | 14192/48008 [2:02:02<4:55:29,  1.91it/s] 30%|██▉       | 14193/48008 [2:02:02<4:48:02,  1.96it/s] 30%|██▉       | 14194/48008 [2:02:03<4:42:41,  1.99it/s] 30%|██▉       | 14195/48008 [2:02:03<4:46:13,  1.97it/s] 30%|██▉       | 14196/48008 [2:02:04<4:46:06,  1.97it/s] 30%|██▉       | 14197/48008 [2:02:04<4:45:22,  1.97it/s] 30%|██▉       | 14198/48008 [2:02:06<6:50:41,  1.37it/s] 30%|██▉       | 14199/48008 [2:02:06<6:07:58,  1.53it/s] 30%|██▉       | 14200/48008 [2:02:07<5:28:37,  1.71it/s]                                                         {'loss': 4.2527, 'grad_norm': 0.43450427055358887, 'learning_rate': 0.00014084735877353775, 'epoch': 0.3}
 30%|██▉       | 14200/48008 [2:02:07<5:28:37,  1.71it/s] 30%|██▉       | 14201/48008 [2:02:07<5:10:36,  1.81it/s] 30%|██▉       | 14202/48008 [2:02:08<4:58:50,  1.89it/s] 30%|██▉       | 14203/48008 [2:02:08<4:50:31,  1.94it/s] 30%|██▉       | 14204/48008 [2:02:09<4:49:17,  1.95it/s] 30%|██▉       | 14205/48008 [2:02:09<4:43:37,  1.99it/s] 30%|██▉       | 14206/48008 [2:02:10<4:39:57,  2.01it/s] 30%|██▉       | 14207/48008 [2:02:10<4:40:43,  2.01it/s] 30%|██▉       | 14208/48008 [2:02:11<6:48:29,  1.38it/s] 30%|██▉       | 14209/48008 [2:02:12<6:08:15,  1.53it/s] 30%|██▉       | 14210/48008 [2:02:12<5:42:44,  1.64it/s] 30%|██▉       | 14211/48008 [2:02:13<5:20:55,  1.76it/s] 30%|██▉       | 14212/48008 [2:02:13<5:07:54,  1.83it/s] 30%|██▉       | 14213/48008 [2:02:14<5:03:32,  1.86it/s] 30%|██▉       | 14214/48008 [2:02:14<4:53:48,  1.92it/s] 30%|██▉       | 14215/48008 [2:02:15<4:46:36,  1.97it/s] 30%|██▉       | 14216/48008 [2:02:15<4:42:46,  1.99it/s] 30%|██▉       | 14217/48008 [2:02:16<4:28:32,  2.10it/s] 30%|██▉       | 14218/48008 [2:02:17<6:39:59,  1.41it/s] 30%|██▉       | 14219/48008 [2:02:17<6:01:04,  1.56it/s] 30%|██▉       | 14220/48008 [2:02:18<5:34:48,  1.68it/s] 30%|██▉       | 14221/48008 [2:02:18<5:15:05,  1.79it/s] 30%|██▉       | 14222/48008 [2:02:19<5:05:15,  1.84it/s] 30%|██▉       | 14223/48008 [2:02:19<5:00:52,  1.87it/s] 30%|██▉       | 14224/48008 [2:02:20<4:51:44,  1.93it/s] 30%|██▉       | 14225/48008 [2:02:20<4:34:03,  2.05it/s] 30%|██▉       | 14226/48008 [2:02:21<5:06:48,  1.84it/s] 30%|██▉       | 14227/48008 [2:02:21<4:45:05,  1.97it/s] 30%|██▉       | 14228/48008 [2:02:22<4:30:05,  2.08it/s] 30%|██▉       | 14229/48008 [2:02:22<4:30:11,  2.08it/s] 30%|██▉       | 14230/48008 [2:02:23<4:33:51,  2.06it/s] 30%|██▉       | 14231/48008 [2:02:23<4:36:29,  2.04it/s] 30%|██▉       | 14232/48008 [2:02:24<4:34:29,  2.05it/s] 30%|██▉       | 14233/48008 [2:02:24<4:39:41,  2.01it/s] 30%|██▉       | 14234/48008 [2:02:25<4:40:26,  2.01it/s] 30%|██▉       | 14235/48008 [2:02:25<4:25:57,  2.12it/s] 30%|██▉       | 14236/48008 [2:02:26<4:30:56,  2.08it/s] 30%|██▉       | 14237/48008 [2:02:27<6:27:24,  1.45it/s] 30%|██▉       | 14238/48008 [2:02:27<5:41:38,  1.65it/s] 30%|██▉       | 14239/48008 [2:02:28<5:24:07,  1.74it/s] 30%|██▉       | 14240/48008 [2:02:28<5:08:03,  1.83it/s] 30%|██▉       | 14241/48008 [2:02:29<5:03:56,  1.85it/s] 30%|██▉       | 14242/48008 [2:02:29<4:53:53,  1.91it/s] 30%|██▉       | 14243/48008 [2:02:30<4:47:09,  1.96it/s] 30%|██▉       | 14244/48008 [2:02:30<4:46:01,  1.97it/s] 30%|██▉       | 14245/48008 [2:02:31<4:41:27,  2.00it/s] 30%|██▉       | 14246/48008 [2:02:31<4:37:37,  2.03it/s] 30%|██▉       | 14247/48008 [2:02:32<6:44:29,  1.39it/s] 30%|██▉       | 14248/48008 [2:02:33<6:03:21,  1.55it/s] 30%|██▉       | 14249/48008 [2:02:33<5:38:49,  1.66it/s] 30%|██▉       | 14250/48008 [2:02:34<5:18:30,  1.77it/s]                                                         {'loss': 4.2994, 'grad_norm': 0.3956257104873657, 'learning_rate': 0.00014063906015664057, 'epoch': 0.3}
 30%|██▉       | 14250/48008 [2:02:34<5:18:30,  1.77it/s] 30%|██▉       | 14251/48008 [2:02:34<5:10:37,  1.81it/s] 30%|██▉       | 14252/48008 [2:02:35<4:58:46,  1.88it/s] 30%|██▉       | 14253/48008 [2:02:35<4:54:52,  1.91it/s] 30%|██▉       | 14254/48008 [2:02:36<4:48:10,  1.95it/s] 30%|██▉       | 14255/48008 [2:02:36<4:43:59,  1.98it/s] 30%|██▉       | 14256/48008 [2:02:37<4:39:56,  2.01it/s] 30%|██▉       | 14257/48008 [2:02:37<4:41:09,  2.00it/s] 30%|██▉       | 14258/48008 [2:02:38<4:37:47,  2.02it/s] 30%|██▉       | 14259/48008 [2:02:38<4:34:37,  2.05it/s] 30%|██▉       | 14260/48008 [2:02:39<4:23:08,  2.14it/s] 30%|██▉       | 14261/48008 [2:02:39<4:25:37,  2.12it/s] 30%|██▉       | 14262/48008 [2:02:40<4:27:08,  2.11it/s] 30%|██▉       | 14263/48008 [2:02:40<4:28:26,  2.10it/s] 30%|██▉       | 14264/48008 [2:02:41<4:28:45,  2.09it/s] 30%|██▉       | 14265/48008 [2:02:41<4:18:46,  2.17it/s] 30%|██▉       | 14266/48008 [2:02:42<4:25:38,  2.12it/s] 30%|██▉       | 14267/48008 [2:02:42<4:31:00,  2.08it/s] 30%|██▉       | 14268/48008 [2:02:43<4:37:03,  2.03it/s] 30%|██▉       | 14269/48008 [2:02:43<4:34:51,  2.05it/s] 30%|██▉       | 14270/48008 [2:02:44<4:37:30,  2.03it/s] 30%|██▉       | 14271/48008 [2:02:44<4:38:12,  2.02it/s] 30%|██▉       | 14272/48008 [2:02:45<4:35:24,  2.04it/s] 30%|██▉       | 14273/48008 [2:02:45<5:07:10,  1.83it/s] 30%|██▉       | 14274/48008 [2:02:46<4:59:56,  1.87it/s] 30%|██▉       | 14275/48008 [2:02:46<4:55:16,  1.90it/s] 30%|██▉       | 14276/48008 [2:02:48<6:58:36,  1.34it/s] 30%|██▉       | 14277/48008 [2:02:48<6:14:29,  1.50it/s] 30%|██▉       | 14278/48008 [2:02:48<5:32:41,  1.69it/s] 30%|██▉       | 14279/48008 [2:02:50<7:23:21,  1.27it/s] 30%|██▉       | 14280/48008 [2:02:50<6:32:04,  1.43it/s] 30%|██▉       | 14281/48008 [2:02:51<5:44:23,  1.63it/s] 30%|██▉       | 14282/48008 [2:02:51<5:31:53,  1.69it/s] 30%|██▉       | 14283/48008 [2:02:52<5:03:05,  1.85it/s] 30%|██▉       | 14284/48008 [2:02:52<4:59:44,  1.88it/s] 30%|██▉       | 14285/48008 [2:02:53<4:54:44,  1.91it/s] 30%|██▉       | 14286/48008 [2:02:53<4:47:37,  1.95it/s] 30%|██▉       | 14287/48008 [2:02:54<6:52:38,  1.36it/s] 30%|██▉       | 14288/48008 [2:02:55<6:13:47,  1.50it/s] 30%|██▉       | 14289/48008 [2:02:55<5:49:33,  1.61it/s] 30%|██▉       | 14290/48008 [2:02:56<5:26:06,  1.72it/s] 30%|██▉       | 14291/48008 [2:02:56<5:09:20,  1.82it/s] 30%|██▉       | 14292/48008 [2:02:57<5:04:39,  1.84it/s] 30%|██▉       | 14293/48008 [2:02:57<4:54:41,  1.91it/s] 30%|██▉       | 14294/48008 [2:02:59<6:57:24,  1.35it/s] 30%|██▉       | 14295/48008 [2:02:59<6:02:15,  1.55it/s] 30%|██▉       | 14296/48008 [2:02:59<5:38:43,  1.66it/s] 30%|██▉       | 14297/48008 [2:03:00<5:27:31,  1.72it/s] 30%|██▉       | 14298/48008 [2:03:00<5:13:19,  1.79it/s] 30%|██▉       | 14299/48008 [2:03:01<5:00:39,  1.87it/s] 30%|██▉       | 14300/48008 [2:03:01<4:58:47,  1.88it/s]                                                         {'loss': 4.3066, 'grad_norm': 0.3014637529850006, 'learning_rate': 0.00014043076153974338, 'epoch': 0.3}
 30%|██▉       | 14300/48008 [2:03:01<4:58:47,  1.88it/s] 30%|██▉       | 14301/48008 [2:03:02<4:54:21,  1.91it/s] 30%|██▉       | 14302/48008 [2:03:02<4:51:02,  1.93it/s] 30%|██▉       | 14303/48008 [2:03:03<4:49:15,  1.94it/s] 30%|██▉       | 14304/48008 [2:03:03<4:43:38,  1.98it/s] 30%|██▉       | 14305/48008 [2:03:04<4:39:31,  2.01it/s] 30%|██▉       | 14306/48008 [2:03:04<4:40:52,  2.00it/s] 30%|██▉       | 14307/48008 [2:03:05<4:44:19,  1.98it/s] 30%|██▉       | 14308/48008 [2:03:05<4:42:59,  1.98it/s] 30%|██▉       | 14309/48008 [2:03:06<4:38:55,  2.01it/s] 30%|██▉       | 14310/48008 [2:03:06<4:42:27,  1.99it/s] 30%|██▉       | 14311/48008 [2:03:07<4:41:55,  1.99it/s] 30%|██▉       | 14312/48008 [2:03:07<4:38:17,  2.02it/s] 30%|██▉       | 14313/48008 [2:03:08<4:35:58,  2.03it/s] 30%|██▉       | 14314/48008 [2:03:08<4:17:11,  2.18it/s] 30%|██▉       | 14315/48008 [2:03:09<4:21:34,  2.15it/s] 30%|██▉       | 14316/48008 [2:03:09<4:23:24,  2.13it/s] 30%|██▉       | 14317/48008 [2:03:10<4:25:15,  2.12it/s] 30%|██▉       | 14318/48008 [2:03:10<4:16:25,  2.19it/s] 30%|██▉       | 14319/48008 [2:03:11<4:24:04,  2.13it/s] 30%|██▉       | 14320/48008 [2:03:11<4:25:43,  2.11it/s] 30%|██▉       | 14321/48008 [2:03:12<4:30:42,  2.07it/s] 30%|██▉       | 14322/48008 [2:03:13<6:39:33,  1.41it/s] 30%|██▉       | 14323/48008 [2:03:14<8:40:37,  1.08it/s] 30%|██▉       | 14324/48008 [2:03:15<7:13:55,  1.29it/s] 30%|██▉       | 14325/48008 [2:03:15<6:24:53,  1.46it/s] 30%|██▉       | 14326/48008 [2:03:16<5:56:32,  1.57it/s] 30%|██▉       | 14327/48008 [2:03:16<5:34:55,  1.68it/s] 30%|██▉       | 14328/48008 [2:03:17<5:15:57,  1.78it/s] 30%|██▉       | 14329/48008 [2:03:18<7:30:52,  1.24it/s] 30%|██▉       | 14330/48008 [2:03:19<6:36:49,  1.41it/s] 30%|██▉       | 14331/48008 [2:03:19<6:03:35,  1.54it/s] 30%|██▉       | 14332/48008 [2:03:20<5:35:07,  1.67it/s] 30%|██▉       | 14333/48008 [2:03:20<5:15:35,  1.78it/s] 30%|██▉       | 14334/48008 [2:03:21<5:08:33,  1.82it/s] 30%|██▉       | 14335/48008 [2:03:22<6:48:34,  1.37it/s] 30%|██▉       | 14336/48008 [2:03:22<6:11:21,  1.51it/s] 30%|██▉       | 14337/48008 [2:03:23<6:46:37,  1.38it/s] 30%|██▉       | 14338/48008 [2:03:24<5:55:12,  1.58it/s] 30%|██▉       | 14339/48008 [2:03:24<5:19:12,  1.76it/s] 30%|██▉       | 14340/48008 [2:03:25<7:13:09,  1.30it/s] 30%|██▉       | 14341/48008 [2:03:26<6:13:16,  1.50it/s] 30%|██▉       | 14342/48008 [2:03:26<5:30:53,  1.70it/s] 30%|██▉       | 14343/48008 [2:03:26<5:02:11,  1.86it/s] 30%|██▉       | 14344/48008 [2:03:27<4:56:39,  1.89it/s] 30%|██▉       | 14345/48008 [2:03:27<4:53:52,  1.91it/s] 30%|██▉       | 14346/48008 [2:03:28<4:46:53,  1.96it/s] 30%|██▉       | 14347/48008 [2:03:28<4:42:27,  1.99it/s] 30%|██▉       | 14348/48008 [2:03:29<4:39:08,  2.01it/s] 30%|██▉       | 14349/48008 [2:03:29<4:43:36,  1.98it/s] 30%|██▉       | 14350/48008 [2:03:30<4:38:36,  2.01it/s]                                                         {'loss': 4.2221, 'grad_norm': 0.25240013003349304, 'learning_rate': 0.0001402224629228462, 'epoch': 0.3} 30%|██▉       | 14350/48008 [2:03:30<4:38:36,  2.01it/s]
 30%|██▉       | 14351/48008 [2:03:30<4:39:55,  2.00it/s] 30%|██▉       | 14352/48008 [2:03:31<4:37:12,  2.02it/s] 30%|██▉       | 14353/48008 [2:03:31<4:42:25,  1.99it/s] 30%|██▉       | 14354/48008 [2:03:32<4:28:04,  2.09it/s] 30%|██▉       | 14355/48008 [2:03:32<4:35:24,  2.04it/s] 30%|██▉       | 14356/48008 [2:03:33<4:33:40,  2.05it/s] 30%|██▉       | 14357/48008 [2:03:33<4:22:17,  2.14it/s] 30%|██▉       | 14358/48008 [2:03:34<4:24:17,  2.12it/s] 30%|██▉       | 14359/48008 [2:03:34<4:26:20,  2.11it/s] 30%|██▉       | 14360/48008 [2:03:35<4:31:51,  2.06it/s] 30%|██▉       | 14361/48008 [2:03:35<4:31:18,  2.07it/s] 30%|██▉       | 14362/48008 [2:03:36<4:31:15,  2.07it/s] 30%|██▉       | 14363/48008 [2:03:36<4:31:28,  2.07it/s] 30%|██▉       | 14364/48008 [2:03:37<4:38:09,  2.02it/s] 30%|██▉       | 14365/48008 [2:03:37<4:25:14,  2.11it/s] 30%|██▉       | 14366/48008 [2:03:38<4:26:39,  2.10it/s] 30%|██▉       | 14367/48008 [2:03:38<4:27:37,  2.10it/s] 30%|██▉       | 14368/48008 [2:03:39<4:35:26,  2.04it/s] 30%|██▉       | 14369/48008 [2:03:39<4:34:41,  2.04it/s] 30%|██▉       | 14370/48008 [2:03:40<4:22:24,  2.14it/s] 30%|██▉       | 14371/48008 [2:03:40<4:13:09,  2.21it/s] 30%|██▉       | 14372/48008 [2:03:40<4:07:16,  2.27it/s] 30%|██▉       | 14373/48008 [2:03:41<4:18:10,  2.17it/s] 30%|██▉       | 14374/48008 [2:03:41<4:21:20,  2.14it/s] 30%|██▉       | 14375/48008 [2:03:42<4:24:33,  2.12it/s] 30%|██▉       | 14376/48008 [2:03:42<4:36:24,  2.03it/s] 30%|██▉       | 14377/48008 [2:03:43<4:22:59,  2.13it/s] 30%|██▉       | 14378/48008 [2:03:43<4:24:49,  2.12it/s] 30%|██▉       | 14379/48008 [2:03:44<4:26:11,  2.11it/s] 30%|██▉       | 14380/48008 [2:03:44<4:32:05,  2.06it/s] 30%|██▉       | 14381/48008 [2:03:45<4:32:35,  2.06it/s] 30%|██▉       | 14382/48008 [2:03:45<4:35:29,  2.03it/s] 30%|██▉       | 14383/48008 [2:03:46<4:38:52,  2.01it/s] 30%|██▉       | 14384/48008 [2:03:46<4:39:31,  2.00it/s] 30%|██▉       | 14385/48008 [2:03:47<4:45:54,  1.96it/s] 30%|██▉       | 14386/48008 [2:03:47<4:40:25,  2.00it/s] 30%|██▉       | 14387/48008 [2:03:48<4:44:22,  1.97it/s] 30%|██▉       | 14388/48008 [2:03:48<4:46:07,  1.96it/s] 30%|██▉       | 14389/48008 [2:03:49<4:46:16,  1.96it/s] 30%|██▉       | 14390/48008 [2:03:49<4:45:43,  1.96it/s] 30%|██▉       | 14391/48008 [2:03:50<4:40:58,  1.99it/s] 30%|██▉       | 14392/48008 [2:03:50<4:41:47,  1.99it/s] 30%|██▉       | 14393/48008 [2:03:51<4:42:39,  1.98it/s] 30%|██▉       | 14394/48008 [2:03:51<4:39:50,  2.00it/s] 30%|██▉       | 14395/48008 [2:03:52<4:40:05,  2.00it/s] 30%|██▉       | 14396/48008 [2:03:52<4:37:10,  2.02it/s] 30%|██▉       | 14397/48008 [2:03:53<4:23:58,  2.12it/s] 30%|██▉       | 14398/48008 [2:03:53<4:25:41,  2.11it/s] 30%|██▉       | 14399/48008 [2:03:54<4:15:36,  2.19it/s] 30%|██▉       | 14400/48008 [2:03:54<4:20:11,  2.15it/s]                                                         {'loss': 4.2359, 'grad_norm': 0.1699572652578354, 'learning_rate': 0.00014001416430594902, 'epoch': 0.3} 30%|██▉       | 14400/48008 [2:03:54<4:20:11,  2.15it/s]
 30%|██▉       | 14401/48008 [2:03:55<4:12:55,  2.21it/s] 30%|██▉       | 14402/48008 [2:03:55<4:07:18,  2.26it/s] 30%|███       | 14403/48008 [2:03:55<4:17:44,  2.17it/s] 30%|███       | 14404/48008 [2:03:56<4:24:49,  2.11it/s] 30%|███       | 14405/48008 [2:03:56<4:26:12,  2.10it/s] 30%|███       | 14406/48008 [2:03:57<4:16:47,  2.18it/s] 30%|███       | 14407/48008 [2:03:57<4:24:11,  2.12it/s] 30%|███       | 14408/48008 [2:03:58<4:26:39,  2.10it/s] 30%|███       | 14409/48008 [2:03:58<4:28:47,  2.08it/s] 30%|███       | 14410/48008 [2:03:59<4:35:29,  2.03it/s] 30%|███       | 14411/48008 [2:03:59<4:34:07,  2.04it/s] 30%|███       | 14412/48008 [2:04:00<4:40:00,  2.00it/s] 30%|███       | 14413/48008 [2:04:00<4:37:38,  2.02it/s] 30%|███       | 14414/48008 [2:04:01<4:34:15,  2.04it/s] 30%|███       | 14415/48008 [2:04:01<4:32:22,  2.06it/s] 30%|███       | 14416/48008 [2:04:02<4:30:57,  2.07it/s] 30%|███       | 14417/48008 [2:04:02<4:19:04,  2.16it/s] 30%|███       | 14418/48008 [2:04:03<4:11:50,  2.22it/s] 30%|███       | 14419/48008 [2:04:03<4:17:12,  2.18it/s] 30%|███       | 14420/48008 [2:04:04<4:21:08,  2.14it/s] 30%|███       | 14421/48008 [2:04:05<6:32:12,  1.43it/s] 30%|███       | 14422/48008 [2:04:05<5:55:08,  1.58it/s] 30%|███       | 14423/48008 [2:04:06<5:18:24,  1.76it/s] 30%|███       | 14424/48008 [2:04:06<5:03:26,  1.84it/s] 30%|███       | 14425/48008 [2:04:07<4:56:21,  1.89it/s] 30%|███       | 14426/48008 [2:04:07<4:36:54,  2.02it/s] 30%|███       | 14427/48008 [2:04:08<5:08:03,  1.82it/s] 30%|███       | 14428/48008 [2:04:08<5:00:06,  1.86it/s] 30%|███       | 14429/48008 [2:04:09<5:00:11,  1.86it/s] 30%|███       | 14430/48008 [2:04:10<7:00:42,  1.33it/s] 30%|███       | 14431/48008 [2:04:11<6:20:15,  1.47it/s] 30%|███       | 14432/48008 [2:04:11<5:37:34,  1.66it/s] 30%|███       | 14433/48008 [2:04:12<5:24:58,  1.72it/s] 30%|███       | 14434/48008 [2:04:12<5:09:55,  1.81it/s] 30%|███       | 14435/48008 [2:04:12<4:47:12,  1.95it/s] 30%|███       | 14436/48008 [2:04:13<4:41:02,  1.99it/s] 30%|███       | 14437/48008 [2:04:13<4:28:14,  2.09it/s] 30%|███       | 14438/48008 [2:04:14<4:29:17,  2.08it/s] 30%|███       | 14439/48008 [2:04:14<4:33:39,  2.04it/s] 30%|███       | 14440/48008 [2:04:15<4:35:52,  2.03it/s] 30%|███       | 14441/48008 [2:04:15<4:34:33,  2.04it/s] 30%|███       | 14442/48008 [2:04:16<4:37:43,  2.01it/s] 30%|███       | 14443/48008 [2:04:17<5:42:28,  1.63it/s] 30%|███       | 14444/48008 [2:04:17<5:25:38,  1.72it/s] 30%|███       | 14445/48008 [2:04:18<4:58:12,  1.88it/s] 30%|███       | 14446/48008 [2:04:18<4:49:53,  1.93it/s] 30%|███       | 14447/48008 [2:04:19<4:32:59,  2.05it/s] 30%|███       | 14448/48008 [2:04:19<4:20:49,  2.14it/s] 30%|███       | 14449/48008 [2:04:19<4:23:53,  2.12it/s] 30%|███       | 14450/48008 [2:04:20<4:30:41,  2.07it/s]                                                         {'loss': 4.2417, 'grad_norm': 0.1517503708600998, 'learning_rate': 0.00013980586568905184, 'epoch': 0.3} 30%|███       | 14450/48008 [2:04:20<4:30:41,  2.07it/s]
 30%|███       | 14451/48008 [2:04:20<4:34:28,  2.04it/s] 30%|███       | 14452/48008 [2:04:21<4:32:40,  2.05it/s] 30%|███       | 14453/48008 [2:04:21<4:32:41,  2.05it/s] 30%|███       | 14454/48008 [2:04:22<4:20:43,  2.14it/s] 30%|███       | 14455/48008 [2:04:22<4:11:49,  2.22it/s] 30%|███       | 14456/48008 [2:04:23<4:16:13,  2.18it/s] 30%|███       | 14457/48008 [2:04:23<4:26:25,  2.10it/s] 30%|███       | 14458/48008 [2:04:24<4:30:34,  2.07it/s] 30%|███       | 14459/48008 [2:04:24<5:01:51,  1.85it/s] 30%|███       | 14460/48008 [2:04:25<5:57:30,  1.56it/s] 30%|███       | 14461/48008 [2:04:26<5:35:05,  1.67it/s] 30%|███       | 14462/48008 [2:04:26<5:05:25,  1.83it/s] 30%|███       | 14463/48008 [2:04:27<4:59:24,  1.87it/s] 30%|███       | 14464/48008 [2:04:27<5:23:18,  1.73it/s] 30%|███       | 14465/48008 [2:04:28<5:10:15,  1.80it/s] 30%|███       | 14466/48008 [2:04:28<4:58:17,  1.87it/s] 30%|███       | 14467/48008 [2:04:29<4:53:03,  1.91it/s] 30%|███       | 14468/48008 [2:04:29<4:52:47,  1.91it/s] 30%|███       | 14469/48008 [2:04:30<4:44:47,  1.96it/s] 30%|███       | 14470/48008 [2:04:30<4:49:59,  1.93it/s] 30%|███       | 14471/48008 [2:04:31<4:43:07,  1.97it/s] 30%|███       | 14472/48008 [2:04:31<4:27:40,  2.09it/s] 30%|███       | 14473/48008 [2:04:32<4:29:29,  2.07it/s] 30%|███       | 14474/48008 [2:04:32<4:39:29,  2.00it/s] 30%|███       | 14475/48008 [2:04:33<4:39:24,  2.00it/s] 30%|███       | 14476/48008 [2:04:33<4:36:26,  2.02it/s] 30%|███       | 14477/48008 [2:04:34<4:40:40,  1.99it/s] 30%|███       | 14478/48008 [2:04:34<4:27:07,  2.09it/s] 30%|███       | 14479/48008 [2:04:35<4:16:57,  2.17it/s] 30%|███       | 14480/48008 [2:04:35<4:09:00,  2.24it/s] 30%|███       | 14481/48008 [2:04:36<4:49:16,  1.93it/s] 30%|███       | 14482/48008 [2:04:36<5:14:59,  1.77it/s] 30%|███       | 14483/48008 [2:04:37<4:50:15,  1.93it/s] 30%|███       | 14484/48008 [2:04:37<4:43:19,  1.97it/s] 30%|███       | 14485/48008 [2:04:38<4:28:27,  2.08it/s] 30%|███       | 14486/48008 [2:04:38<4:30:12,  2.07it/s] 30%|███       | 14487/48008 [2:04:39<5:36:33,  1.66it/s] 30%|███       | 14488/48008 [2:04:40<5:23:32,  1.73it/s] 30%|███       | 14489/48008 [2:04:40<5:41:22,  1.64it/s] 30%|███       | 14490/48008 [2:04:41<6:28:17,  1.44it/s] 30%|███       | 14491/48008 [2:04:42<5:55:15,  1.57it/s] 30%|███       | 14492/48008 [2:04:42<5:18:36,  1.75it/s] 30%|███       | 14493/48008 [2:04:43<5:04:39,  1.83it/s] 30%|███       | 14494/48008 [2:04:43<4:55:01,  1.89it/s] 30%|███       | 14495/48008 [2:04:44<5:18:50,  1.75it/s] 30%|███       | 14496/48008 [2:04:44<5:03:59,  1.84it/s] 30%|███       | 14497/48008 [2:04:45<4:53:34,  1.90it/s] 30%|███       | 14498/48008 [2:04:45<4:52:05,  1.91it/s] 30%|███       | 14499/48008 [2:04:46<4:44:22,  1.96it/s] 30%|███       | 14500/48008 [2:04:46<4:39:29,  2.00it/s]                                                         {'loss': 4.2957, 'grad_norm': 0.12431450933218002, 'learning_rate': 0.00013959756707215465, 'epoch': 0.3} 30%|███       | 14500/48008 [2:04:46<4:39:29,  2.00it/s]
 30%|███       | 14501/48008 [2:04:47<4:37:13,  2.01it/s] 30%|███       | 14502/48008 [2:04:47<4:45:14,  1.96it/s] 30%|███       | 14503/48008 [2:04:48<4:40:08,  1.99it/s] 30%|███       | 14504/48008 [2:04:48<4:36:29,  2.02it/s] 30%|███       | 14505/48008 [2:04:49<4:40:51,  1.99it/s] 30%|███       | 14506/48008 [2:04:49<4:46:41,  1.95it/s] 30%|███       | 14507/48008 [2:04:50<4:31:05,  2.06it/s] 30%|███       | 14508/48008 [2:04:50<4:30:20,  2.07it/s] 30%|███       | 14509/48008 [2:04:51<4:18:50,  2.16it/s] 30%|███       | 14510/48008 [2:04:51<4:10:31,  2.23it/s] 30%|███       | 14511/48008 [2:04:52<4:21:40,  2.13it/s] 30%|███       | 14512/48008 [2:04:52<4:22:55,  2.12it/s] 30%|███       | 14513/48008 [2:04:53<4:28:29,  2.08it/s] 30%|███       | 14514/48008 [2:04:54<6:36:34,  1.41it/s] 30%|███       | 14515/48008 [2:04:54<6:01:41,  1.54it/s] 30%|███       | 14516/48008 [2:04:55<5:34:20,  1.67it/s] 30%|███       | 14517/48008 [2:04:55<5:04:05,  1.84it/s] 30%|███       | 14518/48008 [2:04:56<5:26:39,  1.71it/s] 30%|███       | 14519/48008 [2:04:56<5:12:57,  1.78it/s] 30%|███       | 14520/48008 [2:04:57<5:05:51,  1.82it/s] 30%|███       | 14521/48008 [2:04:57<4:58:24,  1.87it/s] 30%|███       | 14522/48008 [2:04:58<4:49:42,  1.93it/s] 30%|███       | 14523/48008 [2:04:58<4:32:37,  2.05it/s] 30%|███       | 14524/48008 [2:04:59<4:31:26,  2.06it/s] 30%|███       | 14525/48008 [2:04:59<4:30:39,  2.06it/s] 30%|███       | 14526/48008 [2:05:00<4:30:36,  2.06it/s] 30%|███       | 14527/48008 [2:05:00<4:30:14,  2.06it/s] 30%|███       | 14528/48008 [2:05:01<4:28:53,  2.08it/s] 30%|███       | 14529/48008 [2:05:01<5:01:11,  1.85it/s] 30%|███       | 14530/48008 [2:05:02<4:55:03,  1.89it/s] 30%|███       | 14531/48008 [2:05:02<4:46:15,  1.95it/s] 30%|███       | 14532/48008 [2:05:04<6:50:32,  1.36it/s] 30%|███       | 14533/48008 [2:05:04<6:08:13,  1.52it/s] 30%|███       | 14534/48008 [2:05:05<5:41:36,  1.63it/s] 30%|███       | 14535/48008 [2:05:05<5:25:32,  1.71it/s] 30%|███       | 14536/48008 [2:05:06<5:08:31,  1.81it/s] 30%|███       | 14537/48008 [2:05:06<4:56:32,  1.88it/s] 30%|███       | 14538/48008 [2:05:07<4:57:42,  1.87it/s] 30%|███       | 14539/48008 [2:05:07<4:49:41,  1.93it/s] 30%|███       | 14540/48008 [2:05:08<4:49:23,  1.93it/s] 30%|███       | 14541/48008 [2:05:08<4:43:15,  1.97it/s] 30%|███       | 14542/48008 [2:05:09<4:38:01,  2.01it/s] 30%|███       | 14543/48008 [2:05:09<4:34:45,  2.03it/s] 30%|███       | 14544/48008 [2:05:10<4:32:24,  2.05it/s] 30%|███       | 14545/48008 [2:05:10<4:38:35,  2.00it/s] 30%|███       | 14546/48008 [2:05:11<4:39:16,  2.00it/s] 30%|███       | 14547/48008 [2:05:11<4:36:12,  2.02it/s] 30%|███       | 14548/48008 [2:05:11<4:23:33,  2.12it/s] 30%|███       | 14549/48008 [2:05:12<4:15:02,  2.19it/s] 30%|███       | 14550/48008 [2:05:12<4:08:00,  2.25it/s]                                                         {'loss': 4.2936, 'grad_norm': 0.1402355432510376, 'learning_rate': 0.00013938926845525747, 'epoch': 0.3}
 30%|███       | 14550/48008 [2:05:12<4:08:00,  2.25it/s] 30%|███       | 14551/48008 [2:05:13<4:22:09,  2.13it/s] 30%|███       | 14552/48008 [2:05:13<4:27:14,  2.09it/s] 30%|███       | 14553/48008 [2:05:14<4:27:10,  2.09it/s] 30%|███       | 14554/48008 [2:05:14<4:32:08,  2.05it/s] 30%|███       | 14555/48008 [2:05:15<4:31:09,  2.06it/s] 30%|███       | 14556/48008 [2:05:15<4:30:34,  2.06it/s] 30%|███       | 14557/48008 [2:05:16<4:30:01,  2.06it/s] 30%|███       | 14558/48008 [2:05:16<4:30:10,  2.06it/s] 30%|███       | 14559/48008 [2:05:17<4:35:32,  2.02it/s] 30%|███       | 14560/48008 [2:05:17<4:32:58,  2.04it/s] 30%|███       | 14561/48008 [2:05:18<4:20:40,  2.14it/s] 30%|███       | 14562/48008 [2:05:18<4:30:01,  2.06it/s] 30%|███       | 14563/48008 [2:05:19<4:40:13,  1.99it/s] 30%|███       | 14564/48008 [2:05:20<5:42:23,  1.63it/s] 30%|███       | 14565/48008 [2:05:20<5:09:08,  1.80it/s] 30%|███       | 14566/48008 [2:05:21<5:01:05,  1.85it/s] 30%|███       | 14567/48008 [2:05:21<4:40:30,  1.99it/s] 30%|███       | 14568/48008 [2:05:22<5:44:05,  1.62it/s] 30%|███       | 14569/48008 [2:05:22<5:21:43,  1.73it/s] 30%|███       | 14570/48008 [2:05:23<5:06:27,  1.82it/s] 30%|███       | 14571/48008 [2:05:23<4:55:00,  1.89it/s] 30%|███       | 14572/48008 [2:05:25<6:56:11,  1.34it/s] 30%|███       | 14573/48008 [2:05:25<6:10:52,  1.50it/s] 30%|███       | 14574/48008 [2:05:25<5:39:27,  1.64it/s] 30%|███       | 14575/48008 [2:05:26<5:24:43,  1.72it/s] 30%|███       | 14576/48008 [2:05:27<5:13:24,  1.78it/s] 30%|███       | 14577/48008 [2:05:27<5:04:12,  1.83it/s] 30%|███       | 14578/48008 [2:05:28<4:58:07,  1.87it/s] 30%|███       | 14579/48008 [2:05:28<4:49:28,  1.92it/s] 30%|███       | 14580/48008 [2:05:28<4:32:17,  2.05it/s] 30%|███       | 14581/48008 [2:05:29<4:32:28,  2.04it/s] 30%|███       | 14582/48008 [2:05:29<4:31:25,  2.05it/s] 30%|███       | 14583/48008 [2:05:30<4:30:57,  2.06it/s] 30%|███       | 14584/48008 [2:05:30<4:30:19,  2.06it/s] 30%|███       | 14585/48008 [2:05:31<4:19:25,  2.15it/s] 30%|███       | 14586/48008 [2:05:31<4:23:02,  2.12it/s] 30%|███       | 14587/48008 [2:05:32<4:30:40,  2.06it/s] 30%|███       | 14588/48008 [2:05:32<4:19:07,  2.15it/s] 30%|███       | 14589/48008 [2:05:33<4:21:28,  2.13it/s] 30%|███       | 14590/48008 [2:05:33<4:24:44,  2.10it/s] 30%|███       | 14591/48008 [2:05:34<6:36:04,  1.41it/s] 30%|███       | 14592/48008 [2:05:35<6:05:11,  1.53it/s] 30%|███       | 14593/48008 [2:05:35<5:40:30,  1.64it/s] 30%|███       | 14594/48008 [2:05:36<5:24:42,  1.72it/s] 30%|███       | 14595/48008 [2:05:37<5:18:36,  1.75it/s] 30%|███       | 14596/48008 [2:05:37<4:53:44,  1.90it/s] 30%|███       | 14597/48008 [2:05:38<4:52:48,  1.90it/s] 30%|███       | 14598/48008 [2:05:38<4:45:07,  1.95it/s] 30%|███       | 14599/48008 [2:05:38<4:29:16,  2.07it/s] 30%|███       | 14600/48008 [2:05:39<4:28:20,  2.07it/s]                                                         {'loss': 4.2936, 'grad_norm': 0.12525145709514618, 'learning_rate': 0.0001391809698383603, 'epoch': 0.3}
 30%|███       | 14600/48008 [2:05:39<4:28:20,  2.07it/s] 30%|███       | 14601/48008 [2:05:40<5:34:11,  1.67it/s] 30%|███       | 14602/48008 [2:05:40<5:03:21,  1.84it/s] 30%|███       | 14603/48008 [2:05:41<4:52:31,  1.90it/s] 30%|███       | 14604/48008 [2:05:41<4:46:29,  1.94it/s] 30%|███       | 14605/48008 [2:05:42<4:48:19,  1.93it/s] 30%|███       | 14606/48008 [2:05:42<4:41:25,  1.98it/s] 30%|███       | 14607/48008 [2:05:43<4:37:39,  2.00it/s] 30%|███       | 14608/48008 [2:05:43<4:39:22,  1.99it/s] 30%|███       | 14609/48008 [2:05:44<4:36:43,  2.01it/s] 30%|███       | 14610/48008 [2:05:44<4:34:44,  2.03it/s] 30%|███       | 14611/48008 [2:05:45<4:39:31,  1.99it/s] 30%|███       | 14612/48008 [2:05:45<4:40:53,  1.98it/s] 30%|███       | 14613/48008 [2:05:46<4:40:18,  1.99it/s] 30%|███       | 14614/48008 [2:05:46<4:40:57,  1.98it/s] 30%|███       | 14615/48008 [2:05:47<6:45:53,  1.37it/s] 30%|███       | 14616/48008 [2:05:48<6:10:38,  1.50it/s] 30%|███       | 14617/48008 [2:05:48<5:28:43,  1.69it/s] 30%|███       | 14618/48008 [2:05:49<4:59:44,  1.86it/s] 30%|███       | 14619/48008 [2:05:49<4:49:40,  1.92it/s] 30%|███       | 14620/48008 [2:05:50<4:48:31,  1.93it/s] 30%|███       | 14621/48008 [2:05:50<4:32:20,  2.04it/s] 30%|███       | 14622/48008 [2:05:51<4:34:48,  2.02it/s] 30%|███       | 14623/48008 [2:05:51<4:40:57,  1.98it/s] 30%|███       | 14624/48008 [2:05:52<4:44:08,  1.96it/s] 30%|███       | 14625/48008 [2:05:52<4:43:33,  1.96it/s] 30%|███       | 14626/48008 [2:05:53<4:38:33,  2.00it/s] 30%|███       | 14627/48008 [2:05:53<4:36:05,  2.02it/s] 30%|███       | 14628/48008 [2:05:54<4:37:17,  2.01it/s] 30%|███       | 14629/48008 [2:05:54<4:39:01,  1.99it/s] 30%|███       | 14630/48008 [2:05:55<4:24:33,  2.10it/s] 30%|███       | 14631/48008 [2:05:55<4:35:38,  2.02it/s] 30%|███       | 14632/48008 [2:05:56<4:23:29,  2.11it/s] 30%|███       | 14633/48008 [2:05:56<4:33:35,  2.03it/s] 30%|███       | 14634/48008 [2:05:57<4:35:43,  2.02it/s] 30%|███       | 14635/48008 [2:05:57<4:33:07,  2.04it/s] 30%|███       | 14636/48008 [2:05:58<4:21:41,  2.13it/s] 30%|███       | 14637/48008 [2:05:58<4:14:07,  2.19it/s] 30%|███       | 14638/48008 [2:05:58<4:18:04,  2.16it/s] 30%|███       | 14639/48008 [2:05:59<4:26:25,  2.09it/s] 30%|███       | 14640/48008 [2:05:59<4:28:04,  2.07it/s] 30%|███       | 14641/48008 [2:06:00<4:31:36,  2.05it/s] 30%|███       | 14642/48008 [2:06:00<4:30:33,  2.06it/s] 31%|███       | 14643/48008 [2:06:01<4:39:10,  1.99it/s] 31%|███       | 14644/48008 [2:06:01<4:35:46,  2.02it/s] 31%|███       | 14645/48008 [2:06:02<4:38:20,  2.00it/s] 31%|███       | 14646/48008 [2:06:02<4:24:37,  2.10it/s] 31%|███       | 14647/48008 [2:06:03<5:31:47,  1.68it/s] 31%|███       | 14648/48008 [2:06:04<5:12:52,  1.78it/s] 31%|███       | 14649/48008 [2:06:05<6:05:01,  1.52it/s] 31%|███       | 14650/48008 [2:06:05<5:25:47,  1.71it/s]                                                         {'loss': 4.2833, 'grad_norm': 0.2554995119571686, 'learning_rate': 0.00013897267122146308, 'epoch': 0.31} 31%|███       | 14650/48008 [2:06:05<5:25:47,  1.71it/s]
 31%|███       | 14651/48008 [2:06:06<5:14:19,  1.77it/s] 31%|███       | 14652/48008 [2:06:06<5:00:25,  1.85it/s] 31%|███       | 14653/48008 [2:06:07<4:55:21,  1.88it/s] 31%|███       | 14654/48008 [2:06:07<4:57:12,  1.87it/s] 31%|███       | 14655/48008 [2:06:08<4:53:06,  1.90it/s] 31%|███       | 14656/48008 [2:06:08<4:45:10,  1.95it/s] 31%|███       | 14657/48008 [2:06:09<4:39:56,  1.99it/s] 31%|███       | 14658/48008 [2:06:09<4:25:44,  2.09it/s] 31%|███       | 14659/48008 [2:06:09<4:26:32,  2.09it/s] 31%|███       | 14660/48008 [2:06:10<4:30:36,  2.05it/s] 31%|███       | 14661/48008 [2:06:10<4:30:48,  2.05it/s] 31%|███       | 14662/48008 [2:06:11<4:37:36,  2.00it/s] 31%|███       | 14663/48008 [2:06:12<4:43:15,  1.96it/s] 31%|███       | 14664/48008 [2:06:12<4:42:20,  1.97it/s] 31%|███       | 14665/48008 [2:06:13<4:44:25,  1.95it/s] 31%|███       | 14666/48008 [2:06:13<4:39:16,  1.99it/s] 31%|███       | 14667/48008 [2:06:14<4:35:21,  2.02it/s] 31%|███       | 14668/48008 [2:06:14<5:05:51,  1.82it/s] 31%|███       | 14669/48008 [2:06:15<4:43:56,  1.96it/s] 31%|███       | 14670/48008 [2:06:15<4:39:25,  1.99it/s] 31%|███       | 14671/48008 [2:06:16<4:43:30,  1.96it/s] 31%|███       | 14672/48008 [2:06:16<4:39:12,  1.99it/s] 31%|███       | 14673/48008 [2:06:17<4:39:34,  1.99it/s] 31%|███       | 14674/48008 [2:06:17<4:35:22,  2.02it/s] 31%|███       | 14675/48008 [2:06:18<4:36:46,  2.01it/s] 31%|███       | 14676/48008 [2:06:18<4:34:20,  2.03it/s] 31%|███       | 14677/48008 [2:06:18<4:21:32,  2.12it/s] 31%|███       | 14678/48008 [2:06:19<4:23:06,  2.11it/s] 31%|███       | 14679/48008 [2:06:19<4:13:30,  2.19it/s] 31%|███       | 14680/48008 [2:06:20<4:07:25,  2.24it/s] 31%|███       | 14681/48008 [2:06:21<6:21:26,  1.46it/s] 31%|███       | 14682/48008 [2:06:22<5:57:41,  1.55it/s] 31%|███       | 14683/48008 [2:06:22<5:30:01,  1.68it/s] 31%|███       | 14684/48008 [2:06:23<7:19:18,  1.26it/s] 31%|███       | 14685/48008 [2:06:24<6:28:05,  1.43it/s] 31%|███       | 14686/48008 [2:06:24<5:56:05,  1.56it/s] 31%|███       | 14687/48008 [2:06:25<5:40:00,  1.63it/s] 31%|███       | 14688/48008 [2:06:25<5:17:24,  1.75it/s] 31%|███       | 14689/48008 [2:06:26<4:51:16,  1.91it/s] 31%|███       | 14690/48008 [2:06:26<4:44:33,  1.95it/s] 31%|███       | 14691/48008 [2:06:27<5:11:19,  1.78it/s] 31%|███       | 14692/48008 [2:06:28<5:30:01,  1.68it/s] 31%|███       | 14693/48008 [2:06:28<5:11:53,  1.78it/s] 31%|███       | 14694/48008 [2:06:29<5:04:29,  1.82it/s] 31%|███       | 14695/48008 [2:06:29<4:57:22,  1.87it/s] 31%|███       | 14696/48008 [2:06:30<4:53:59,  1.89it/s] 31%|███       | 14697/48008 [2:06:30<4:52:02,  1.90it/s] 31%|███       | 14698/48008 [2:06:31<4:52:00,  1.90it/s] 31%|███       | 14699/48008 [2:06:31<4:44:13,  1.95it/s] 31%|███       | 14700/48008 [2:06:32<4:45:52,  1.94it/s]                                                         {'loss': 4.2767, 'grad_norm': 0.11830578744411469, 'learning_rate': 0.00013876437260456592, 'epoch': 0.31}
 31%|███       | 14700/48008 [2:06:32<4:45:52,  1.94it/s] 31%|███       | 14701/48008 [2:06:32<4:49:30,  1.92it/s] 31%|███       | 14702/48008 [2:06:33<4:53:09,  1.89it/s] 31%|███       | 14703/48008 [2:06:33<4:50:12,  1.91it/s] 31%|███       | 14704/48008 [2:06:34<4:43:11,  1.96it/s] 31%|███       | 14705/48008 [2:06:34<4:38:50,  1.99it/s] 31%|███       | 14706/48008 [2:06:35<4:35:54,  2.01it/s] 31%|███       | 14707/48008 [2:06:35<4:33:46,  2.03it/s] 31%|███       | 14708/48008 [2:06:36<4:38:33,  1.99it/s] 31%|███       | 14709/48008 [2:06:36<4:39:18,  1.99it/s] 31%|███       | 14710/48008 [2:06:37<4:23:44,  2.10it/s] 31%|███       | 14711/48008 [2:06:37<4:25:19,  2.09it/s] 31%|███       | 14712/48008 [2:06:38<4:26:25,  2.08it/s] 31%|███       | 14713/48008 [2:06:38<4:26:06,  2.09it/s] 31%|███       | 14714/48008 [2:06:39<4:26:04,  2.09it/s] 31%|███       | 14715/48008 [2:06:39<4:26:57,  2.08it/s] 31%|███       | 14716/48008 [2:06:40<4:37:05,  2.00it/s] 31%|███       | 14717/48008 [2:06:40<4:34:05,  2.02it/s] 31%|███       | 14718/48008 [2:06:41<4:32:16,  2.04it/s] 31%|███       | 14719/48008 [2:06:41<4:14:08,  2.18it/s] 31%|███       | 14720/48008 [2:06:41<4:18:01,  2.15it/s] 31%|███       | 14721/48008 [2:06:42<4:24:00,  2.10it/s] 31%|███       | 14722/48008 [2:06:42<4:23:59,  2.10it/s] 31%|███       | 14723/48008 [2:06:43<4:31:18,  2.04it/s] 31%|███       | 14724/48008 [2:06:43<4:33:23,  2.03it/s] 31%|███       | 14725/48008 [2:06:44<5:03:20,  1.83it/s] 31%|███       | 14726/48008 [2:06:45<5:02:23,  1.83it/s] 31%|███       | 14727/48008 [2:06:45<4:41:07,  1.97it/s] 31%|███       | 14728/48008 [2:06:46<4:41:01,  1.97it/s] 31%|███       | 14729/48008 [2:06:46<4:43:42,  1.96it/s] 31%|███       | 14730/48008 [2:06:47<4:44:59,  1.95it/s] 31%|███       | 14731/48008 [2:06:47<4:38:43,  1.99it/s] 31%|███       | 14732/48008 [2:06:48<4:44:15,  1.95it/s] 31%|███       | 14733/48008 [2:06:48<4:46:19,  1.94it/s] 31%|███       | 14734/48008 [2:06:49<4:43:30,  1.96it/s] 31%|███       | 14735/48008 [2:06:49<4:37:37,  2.00it/s] 31%|███       | 14736/48008 [2:06:50<5:40:08,  1.63it/s] 31%|███       | 14737/48008 [2:06:50<5:18:21,  1.74it/s] 31%|███       | 14738/48008 [2:06:51<5:02:00,  1.84it/s] 31%|███       | 14739/48008 [2:06:52<5:24:11,  1.71it/s] 31%|███       | 14740/48008 [2:06:52<5:06:28,  1.81it/s] 31%|███       | 14741/48008 [2:06:53<5:04:55,  1.82it/s] 31%|███       | 14742/48008 [2:06:53<5:00:05,  1.85it/s] 31%|███       | 14743/48008 [2:06:54<4:56:41,  1.87it/s] 31%|███       | 14744/48008 [2:06:54<4:36:44,  2.00it/s] 31%|███       | 14745/48008 [2:06:55<4:33:35,  2.03it/s] 31%|███       | 14746/48008 [2:06:55<4:41:47,  1.97it/s] 31%|███       | 14747/48008 [2:06:56<4:37:49,  2.00it/s] 31%|███       | 14748/48008 [2:06:56<4:35:01,  2.02it/s] 31%|███       | 14749/48008 [2:06:57<4:37:14,  2.00it/s] 31%|███       | 14750/48008 [2:06:57<4:23:30,  2.10it/s]                                                         {'loss': 4.299, 'grad_norm': 0.11607206612825394, 'learning_rate': 0.0001385560739876687, 'epoch': 0.31}
 31%|███       | 14750/48008 [2:06:57<4:23:30,  2.10it/s] 31%|███       | 14751/48008 [2:06:57<4:25:23,  2.09it/s] 31%|███       | 14752/48008 [2:06:58<4:25:39,  2.09it/s] 31%|███       | 14753/48008 [2:06:58<4:26:00,  2.08it/s] 31%|███       | 14754/48008 [2:06:59<4:32:30,  2.03it/s] 31%|███       | 14755/48008 [2:06:59<4:30:18,  2.05it/s] 31%|███       | 14756/48008 [2:07:00<4:33:23,  2.03it/s] 31%|███       | 14757/48008 [2:07:00<4:14:05,  2.18it/s] 31%|███       | 14758/48008 [2:07:01<4:07:29,  2.24it/s] 31%|███       | 14759/48008 [2:07:01<4:13:40,  2.18it/s] 31%|███       | 14760/48008 [2:07:02<4:18:09,  2.15it/s] 31%|███       | 14761/48008 [2:07:02<4:20:06,  2.13it/s] 31%|███       | 14762/48008 [2:07:03<4:22:26,  2.11it/s] 31%|███       | 14763/48008 [2:07:03<4:27:24,  2.07it/s] 31%|███       | 14764/48008 [2:07:04<4:31:19,  2.04it/s] 31%|███       | 14765/48008 [2:07:04<4:29:46,  2.05it/s] 31%|███       | 14766/48008 [2:07:05<4:18:09,  2.15it/s] 31%|███       | 14767/48008 [2:07:05<4:10:24,  2.21it/s] 31%|███       | 14768/48008 [2:07:06<4:19:32,  2.13it/s] 31%|███       | 14769/48008 [2:07:06<5:28:25,  1.69it/s] 31%|███       | 14770/48008 [2:07:07<5:10:31,  1.78it/s] 31%|███       | 14771/48008 [2:07:07<4:57:06,  1.86it/s] 31%|███       | 14772/48008 [2:07:08<4:53:06,  1.89it/s] 31%|███       | 14773/48008 [2:07:08<4:45:54,  1.94it/s] 31%|███       | 14774/48008 [2:07:09<4:44:37,  1.95it/s] 31%|███       | 14775/48008 [2:07:09<4:38:40,  1.99it/s] 31%|███       | 14776/48008 [2:07:10<4:45:44,  1.94it/s] 31%|███       | 14777/48008 [2:07:10<4:46:57,  1.93it/s] 31%|███       | 14778/48008 [2:07:11<4:44:58,  1.94it/s] 31%|███       | 14779/48008 [2:07:12<5:11:17,  1.78it/s] 31%|███       | 14780/48008 [2:07:12<5:04:46,  1.82it/s] 31%|███       | 14781/48008 [2:07:13<5:03:09,  1.83it/s] 31%|███       | 14782/48008 [2:07:13<4:52:13,  1.89it/s] 31%|███       | 14783/48008 [2:07:14<4:44:54,  1.94it/s] 31%|███       | 14784/48008 [2:07:14<4:45:52,  1.94it/s] 31%|███       | 14785/48008 [2:07:15<4:28:52,  2.06it/s] 31%|███       | 14786/48008 [2:07:15<5:35:06,  1.65it/s] 31%|███       | 14787/48008 [2:07:16<5:18:34,  1.74it/s] 31%|███       | 14788/48008 [2:07:16<5:03:14,  1.83it/s] 31%|███       | 14789/48008 [2:07:17<4:55:36,  1.87it/s] 31%|███       | 14790/48008 [2:07:17<4:36:57,  2.00it/s] 31%|███       | 14791/48008 [2:07:18<4:22:48,  2.11it/s] 31%|███       | 14792/48008 [2:07:18<4:28:11,  2.06it/s] 31%|███       | 14793/48008 [2:07:19<4:31:36,  2.04it/s] 31%|███       | 14794/48008 [2:07:19<4:34:47,  2.01it/s] 31%|███       | 14795/48008 [2:07:20<4:36:43,  2.00it/s] 31%|███       | 14796/48008 [2:07:20<4:33:46,  2.02it/s] 31%|███       | 14797/48008 [2:07:21<4:31:08,  2.04it/s] 31%|███       | 14798/48008 [2:07:21<4:33:09,  2.03it/s] 31%|███       | 14799/48008 [2:07:22<5:04:00,  1.82it/s] 31%|███       | 14800/48008 [2:07:22<4:52:34,  1.89it/s]                                                         {'loss': 4.2773, 'grad_norm': 0.16339172422885895, 'learning_rate': 0.00013834777537077156, 'epoch': 0.31} 31%|███       | 14800/48008 [2:07:22<4:52:34,  1.89it/s]
 31%|███       | 14801/48008 [2:07:23<4:44:03,  1.95it/s] 31%|███       | 14802/48008 [2:07:23<4:45:26,  1.94it/s] 31%|███       | 14803/48008 [2:07:24<4:40:06,  1.98it/s] 31%|███       | 14804/48008 [2:07:24<4:36:00,  2.00it/s] 31%|███       | 14805/48008 [2:07:25<4:32:59,  2.03it/s] 31%|███       | 14806/48008 [2:07:25<4:35:44,  2.01it/s] 31%|███       | 14807/48008 [2:07:26<4:32:32,  2.03it/s] 31%|███       | 14808/48008 [2:07:26<4:34:22,  2.02it/s] 31%|███       | 14809/48008 [2:07:27<4:32:42,  2.03it/s] 31%|███       | 14810/48008 [2:07:27<4:19:44,  2.13it/s] 31%|███       | 14811/48008 [2:07:28<4:28:18,  2.06it/s] 31%|███       | 14812/48008 [2:07:28<4:17:13,  2.15it/s] 31%|███       | 14813/48008 [2:07:29<4:20:31,  2.12it/s] 31%|███       | 14814/48008 [2:07:29<4:22:10,  2.11it/s] 31%|███       | 14815/48008 [2:07:30<4:24:15,  2.09it/s] 31%|███       | 14816/48008 [2:07:30<4:14:03,  2.18it/s] 31%|███       | 14817/48008 [2:07:31<4:27:15,  2.07it/s] 31%|███       | 14818/48008 [2:07:31<4:26:30,  2.08it/s] 31%|███       | 14819/48008 [2:07:32<4:27:04,  2.07it/s] 31%|███       | 14820/48008 [2:07:32<4:26:28,  2.08it/s] 31%|███       | 14821/48008 [2:07:33<4:30:12,  2.05it/s] 31%|███       | 14822/48008 [2:07:33<5:34:33,  1.65it/s] 31%|███       | 14823/48008 [2:07:34<5:20:18,  1.73it/s] 31%|███       | 14824/48008 [2:07:34<5:04:03,  1.82it/s] 31%|███       | 14825/48008 [2:07:35<4:52:22,  1.89it/s] 31%|███       | 14826/48008 [2:07:36<6:52:23,  1.34it/s] 31%|███       | 14827/48008 [2:07:37<6:11:39,  1.49it/s] 31%|███       | 14828/48008 [2:07:37<5:46:47,  1.59it/s] 31%|███       | 14829/48008 [2:07:38<5:22:29,  1.71it/s] 31%|███       | 14830/48008 [2:07:38<5:16:05,  1.75it/s] 31%|███       | 14831/48008 [2:07:39<4:50:35,  1.90it/s] 31%|███       | 14832/48008 [2:07:39<4:46:54,  1.93it/s] 31%|███       | 14833/48008 [2:07:40<4:41:17,  1.97it/s] 31%|███       | 14834/48008 [2:07:40<4:37:13,  1.99it/s] 31%|███       | 14835/48008 [2:07:41<4:37:12,  1.99it/s] 31%|███       | 14836/48008 [2:07:41<4:37:35,  1.99it/s] 31%|███       | 14837/48008 [2:07:42<4:37:27,  1.99it/s] 31%|███       | 14838/48008 [2:07:42<4:22:30,  2.11it/s] 31%|███       | 14839/48008 [2:07:43<4:26:59,  2.07it/s] 31%|███       | 14840/48008 [2:07:43<4:30:06,  2.05it/s] 31%|███       | 14841/48008 [2:07:43<4:17:42,  2.15it/s] 31%|███       | 14842/48008 [2:07:44<4:20:41,  2.12it/s] 31%|███       | 14843/48008 [2:07:44<4:28:53,  2.06it/s] 31%|███       | 14844/48008 [2:07:45<4:27:46,  2.06it/s] 31%|███       | 14845/48008 [2:07:45<4:27:27,  2.07it/s] 31%|███       | 14846/48008 [2:07:46<4:30:07,  2.05it/s] 31%|███       | 14847/48008 [2:07:46<4:35:28,  2.01it/s] 31%|███       | 14848/48008 [2:07:47<4:32:10,  2.03it/s] 31%|███       | 14849/48008 [2:07:47<4:33:26,  2.02it/s] 31%|███       | 14850/48008 [2:07:48<4:30:58,  2.04it/s]                                                         {'loss': 4.2386, 'grad_norm': 0.13362650573253632, 'learning_rate': 0.00013813947675387435, 'epoch': 0.31} 31%|███       | 14850/48008 [2:07:48<4:30:58,  2.04it/s]
 31%|███       | 14851/48008 [2:07:49<5:01:56,  1.83it/s] 31%|███       | 14852/48008 [2:07:49<4:51:21,  1.90it/s] 31%|███       | 14853/48008 [2:07:50<6:52:42,  1.34it/s] 31%|███       | 14854/48008 [2:07:51<6:09:11,  1.50it/s] 31%|███       | 14855/48008 [2:07:51<5:41:32,  1.62it/s] 31%|███       | 14856/48008 [2:07:52<5:24:31,  1.70it/s] 31%|███       | 14857/48008 [2:07:52<5:12:46,  1.77it/s] 31%|███       | 14858/48008 [2:07:53<4:58:41,  1.85it/s] 31%|███       | 14859/48008 [2:07:53<4:54:52,  1.87it/s] 31%|███       | 14860/48008 [2:07:54<4:55:32,  1.87it/s] 31%|███       | 14861/48008 [2:07:55<6:55:06,  1.33it/s] 31%|███       | 14862/48008 [2:07:56<5:59:38,  1.54it/s] 31%|███       | 14863/48008 [2:07:56<5:31:30,  1.67it/s] 31%|███       | 14864/48008 [2:07:56<5:01:14,  1.83it/s] 31%|███       | 14865/48008 [2:07:57<4:54:41,  1.87it/s] 31%|███       | 14866/48008 [2:07:57<4:29:03,  2.05it/s] 31%|███       | 14867/48008 [2:07:58<4:28:20,  2.06it/s] 31%|███       | 14868/48008 [2:07:58<4:31:53,  2.03it/s] 31%|███       | 14869/48008 [2:07:59<4:29:21,  2.05it/s] 31%|███       | 14870/48008 [2:07:59<4:28:30,  2.06it/s] 31%|███       | 14871/48008 [2:08:00<4:33:54,  2.02it/s] 31%|███       | 14872/48008 [2:08:00<4:36:03,  2.00it/s] 31%|███       | 14873/48008 [2:08:01<4:32:46,  2.02it/s] 31%|███       | 14874/48008 [2:08:01<4:34:47,  2.01it/s] 31%|███       | 14875/48008 [2:08:02<4:36:04,  2.00it/s] 31%|███       | 14876/48008 [2:08:02<4:33:01,  2.02it/s] 31%|███       | 14877/48008 [2:08:03<4:36:52,  1.99it/s] 31%|███       | 14878/48008 [2:08:03<4:32:41,  2.02it/s] 31%|███       | 14879/48008 [2:08:04<4:30:33,  2.04it/s] 31%|███       | 14880/48008 [2:08:04<4:38:44,  1.98it/s] 31%|███       | 14881/48008 [2:08:05<4:41:00,  1.96it/s] 31%|███       | 14882/48008 [2:08:05<4:45:50,  1.93it/s] 31%|███       | 14883/48008 [2:08:06<4:43:15,  1.95it/s] 31%|███       | 14884/48008 [2:08:06<4:40:48,  1.97it/s] 31%|███       | 14885/48008 [2:08:07<4:40:30,  1.97it/s] 31%|███       | 14886/48008 [2:08:08<5:41:02,  1.62it/s] 31%|███       | 14887/48008 [2:08:08<5:17:46,  1.74it/s] 31%|███       | 14888/48008 [2:08:09<5:02:08,  1.83it/s] 31%|███       | 14889/48008 [2:08:09<4:50:58,  1.90it/s] 31%|███       | 14890/48008 [2:08:10<4:46:35,  1.93it/s] 31%|███       | 14891/48008 [2:08:10<4:46:43,  1.93it/s] 31%|███       | 14892/48008 [2:08:11<4:44:47,  1.94it/s] 31%|███       | 14893/48008 [2:08:11<4:38:40,  1.98it/s] 31%|███       | 14894/48008 [2:08:12<4:34:59,  2.01it/s] 31%|███       | 14895/48008 [2:08:13<5:37:48,  1.63it/s] 31%|███       | 14896/48008 [2:08:13<5:47:13,  1.59it/s] 31%|███       | 14897/48008 [2:08:14<5:12:54,  1.76it/s] 31%|███       | 14898/48008 [2:08:14<4:58:10,  1.85it/s] 31%|███       | 14899/48008 [2:08:15<4:37:15,  1.99it/s] 31%|███       | 14900/48008 [2:08:15<4:33:40,  2.02it/s]                                                         {'loss': 4.2477, 'grad_norm': 0.1323123425245285, 'learning_rate': 0.0001379311781369772, 'epoch': 0.31} 31%|███       | 14900/48008 [2:08:15<4:33:40,  2.02it/s]
 31%|███       | 14901/48008 [2:08:16<4:40:26,  1.97it/s] 31%|███       | 14902/48008 [2:08:16<4:41:59,  1.96it/s] 31%|███       | 14903/48008 [2:08:17<4:36:07,  2.00it/s] 31%|███       | 14904/48008 [2:08:18<6:40:15,  1.38it/s] 31%|███       | 14905/48008 [2:08:19<7:04:36,  1.30it/s] 31%|███       | 14906/48008 [2:08:19<6:16:55,  1.46it/s] 31%|███       | 14907/48008 [2:08:20<5:46:36,  1.59it/s] 31%|███       | 14908/48008 [2:08:20<5:22:27,  1.71it/s] 31%|███       | 14909/48008 [2:08:21<5:05:21,  1.81it/s] 31%|███       | 14910/48008 [2:08:21<4:42:36,  1.95it/s] 31%|███       | 14911/48008 [2:08:22<4:47:48,  1.92it/s] 31%|███       | 14912/48008 [2:08:22<4:41:03,  1.96it/s] 31%|███       | 14913/48008 [2:08:23<4:36:58,  1.99it/s] 31%|███       | 14914/48008 [2:08:23<4:32:34,  2.02it/s] 31%|███       | 14915/48008 [2:08:23<4:19:50,  2.12it/s] 31%|███       | 14916/48008 [2:08:24<4:21:21,  2.11it/s] 31%|███       | 14917/48008 [2:08:24<4:28:47,  2.05it/s] 31%|███       | 14918/48008 [2:08:25<4:27:38,  2.06it/s] 31%|███       | 14919/48008 [2:08:25<4:26:12,  2.07it/s] 31%|███       | 14920/48008 [2:08:26<4:57:56,  1.85it/s] 31%|███       | 14921/48008 [2:08:27<4:57:58,  1.85it/s] 31%|███       | 14922/48008 [2:08:27<4:48:18,  1.91it/s] 31%|███       | 14923/48008 [2:08:28<4:44:39,  1.94it/s] 31%|███       | 14924/48008 [2:08:28<4:39:27,  1.97it/s] 31%|███       | 14925/48008 [2:08:29<4:41:14,  1.96it/s] 31%|███       | 14926/48008 [2:08:29<4:25:10,  2.08it/s] 31%|███       | 14927/48008 [2:08:30<4:34:16,  2.01it/s] 31%|███       | 14928/48008 [2:08:30<4:31:26,  2.03it/s] 31%|███       | 14929/48008 [2:08:30<4:18:57,  2.13it/s] 31%|███       | 14930/48008 [2:08:31<4:19:56,  2.12it/s] 31%|███       | 14931/48008 [2:08:31<4:10:12,  2.20it/s] 31%|███       | 14932/48008 [2:08:32<4:19:12,  2.13it/s] 31%|███       | 14933/48008 [2:08:32<4:24:18,  2.09it/s] 31%|███       | 14934/48008 [2:08:34<6:32:47,  1.40it/s] 31%|███       | 14935/48008 [2:08:34<5:44:12,  1.60it/s] 31%|███       | 14936/48008 [2:08:34<5:09:26,  1.78it/s] 31%|███       | 14937/48008 [2:08:35<4:46:01,  1.93it/s] 31%|███       | 14938/48008 [2:08:35<4:40:09,  1.97it/s] 31%|███       | 14939/48008 [2:08:36<4:36:30,  1.99it/s] 31%|███       | 14940/48008 [2:08:36<4:22:43,  2.10it/s] 31%|███       | 14941/48008 [2:08:37<4:24:13,  2.09it/s] 31%|███       | 14942/48008 [2:08:37<4:24:33,  2.08it/s] 31%|███       | 14943/48008 [2:08:38<4:25:32,  2.08it/s] 31%|███       | 14944/48008 [2:08:38<4:14:41,  2.16it/s] 31%|███       | 14945/48008 [2:08:39<4:21:28,  2.11it/s] 31%|███       | 14946/48008 [2:08:39<4:11:10,  2.19it/s] 31%|███       | 14947/48008 [2:08:39<4:15:20,  2.16it/s] 31%|███       | 14948/48008 [2:08:40<4:07:51,  2.22it/s] 31%|███       | 14949/48008 [2:08:40<4:17:12,  2.14it/s] 31%|███       | 14950/48008 [2:08:41<4:19:56,  2.12it/s]                                                         {'loss': 4.2454, 'grad_norm': 0.11556574702262878, 'learning_rate': 0.00013772287952007998, 'epoch': 0.31} 31%|███       | 14950/48008 [2:08:41<4:19:56,  2.12it/s]
 31%|███       | 14951/48008 [2:08:41<4:22:16,  2.10it/s] 31%|███       | 14952/48008 [2:08:42<4:26:31,  2.07it/s] 31%|███       | 14953/48008 [2:08:42<4:15:42,  2.15it/s] 31%|███       | 14954/48008 [2:08:43<4:24:24,  2.08it/s] 31%|███       | 14955/48008 [2:08:43<4:27:51,  2.06it/s] 31%|███       | 14956/48008 [2:08:44<4:31:15,  2.03it/s] 31%|███       | 14957/48008 [2:08:44<4:29:47,  2.04it/s] 31%|███       | 14958/48008 [2:08:45<4:28:24,  2.05it/s] 31%|███       | 14959/48008 [2:08:45<4:34:00,  2.01it/s] 31%|███       | 14960/48008 [2:08:46<4:31:17,  2.03it/s] 31%|███       | 14961/48008 [2:08:46<4:17:51,  2.14it/s] 31%|███       | 14962/48008 [2:08:47<4:30:28,  2.04it/s] 31%|███       | 14963/48008 [2:08:47<4:34:39,  2.01it/s] 31%|███       | 14964/48008 [2:08:48<5:36:13,  1.64it/s] 31%|███       | 14965/48008 [2:08:49<5:15:03,  1.75it/s] 31%|███       | 14966/48008 [2:08:49<5:03:43,  1.81it/s] 31%|███       | 14967/48008 [2:08:50<4:55:45,  1.86it/s] 31%|███       | 14968/48008 [2:08:50<4:30:06,  2.04it/s] 31%|███       | 14969/48008 [2:08:50<4:31:24,  2.03it/s] 31%|███       | 14970/48008 [2:08:51<4:19:10,  2.12it/s] 31%|███       | 14971/48008 [2:08:51<4:26:25,  2.07it/s] 31%|███       | 14972/48008 [2:08:53<6:58:26,  1.32it/s] 31%|███       | 14973/48008 [2:08:53<6:12:03,  1.48it/s] 31%|███       | 14974/48008 [2:08:54<5:39:52,  1.62it/s] 31%|███       | 14975/48008 [2:08:54<5:17:31,  1.73it/s] 31%|███       | 14976/48008 [2:08:55<5:01:44,  1.82it/s] 31%|███       | 14977/48008 [2:08:55<4:54:41,  1.87it/s] 31%|███       | 14978/48008 [2:08:57<7:12:19,  1.27it/s] 31%|███       | 14979/48008 [2:08:57<6:26:01,  1.43it/s] 31%|███       | 14980/48008 [2:08:58<5:50:05,  1.57it/s] 31%|███       | 14981/48008 [2:08:58<5:27:53,  1.68it/s] 31%|███       | 14982/48008 [2:08:59<5:12:37,  1.76it/s] 31%|███       | 14983/48008 [2:08:59<5:07:40,  1.79it/s] 31%|███       | 14984/48008 [2:09:00<6:28:21,  1.42it/s] 31%|███       | 14985/48008 [2:09:01<5:40:44,  1.62it/s] 31%|███       | 14986/48008 [2:09:01<5:07:30,  1.79it/s] 31%|███       | 14987/48008 [2:09:02<4:54:51,  1.87it/s] 31%|███       | 14988/48008 [2:09:02<5:18:30,  1.73it/s] 31%|███       | 14989/48008 [2:09:03<4:51:27,  1.89it/s] 31%|███       | 14990/48008 [2:09:03<4:48:03,  1.91it/s] 31%|███       | 14991/48008 [2:09:04<4:40:42,  1.96it/s] 31%|███       | 14992/48008 [2:09:04<4:39:28,  1.97it/s] 31%|███       | 14993/48008 [2:09:05<4:39:54,  1.97it/s] 31%|███       | 14994/48008 [2:09:05<4:35:24,  2.00it/s] 31%|███       | 14995/48008 [2:09:06<4:21:27,  2.10it/s] 31%|███       | 14996/48008 [2:09:06<4:21:40,  2.10it/s] 31%|███       | 14997/48008 [2:09:06<4:22:02,  2.10it/s] 31%|███       | 14998/48008 [2:09:07<4:26:52,  2.06it/s] 31%|███       | 14999/48008 [2:09:07<4:15:22,  2.15it/s] 31%|███       | 15000/48008 [2:09:08<4:07:44,  2.22it/s]                                                         {'loss': 4.2332, 'grad_norm': 0.13113655149936676, 'learning_rate': 0.0001375145809031828, 'epoch': 0.31}
 31%|███       | 15000/48008 [2:09:08<4:07:44,  2.22it/s] 31%|███       | 15001/48008 [2:09:08<4:19:14,  2.12it/s] 31%|███       | 15002/48008 [2:09:09<4:24:53,  2.08it/s] 31%|███▏      | 15003/48008 [2:09:09<4:25:23,  2.07it/s] 31%|███▏      | 15004/48008 [2:09:10<4:25:11,  2.07it/s] 31%|███▏      | 15005/48008 [2:09:10<4:31:06,  2.03it/s] 31%|███▏      | 15006/48008 [2:09:11<4:18:40,  2.13it/s] 31%|███▏      | 15007/48008 [2:09:11<4:20:28,  2.11it/s] 31%|███▏      | 15008/48008 [2:09:12<4:22:20,  2.10it/s] 31%|███▏      | 15009/48008 [2:09:12<4:27:20,  2.06it/s] 31%|███▏      | 15010/48008 [2:09:13<4:32:53,  2.02it/s] 31%|███▏      | 15011/48008 [2:09:13<4:30:24,  2.03it/s] 31%|███▏      | 15012/48008 [2:09:14<4:32:23,  2.02it/s] 31%|███▏      | 15013/48008 [2:09:14<4:35:48,  1.99it/s] 31%|███▏      | 15014/48008 [2:09:15<4:33:28,  2.01it/s] 31%|███▏      | 15015/48008 [2:09:15<4:34:03,  2.01it/s] 31%|███▏      | 15016/48008 [2:09:16<4:14:37,  2.16it/s] 31%|███▏      | 15017/48008 [2:09:16<4:17:41,  2.13it/s] 31%|███▏      | 15018/48008 [2:09:17<4:22:39,  2.09it/s] 31%|███▏      | 15019/48008 [2:09:17<4:27:16,  2.06it/s] 31%|███▏      | 15020/48008 [2:09:18<4:32:50,  2.02it/s] 31%|███▏      | 15021/48008 [2:09:18<4:30:16,  2.03it/s] 31%|███▏      | 15022/48008 [2:09:19<6:35:04,  1.39it/s] 31%|███▏      | 15023/48008 [2:09:20<5:45:34,  1.59it/s] 31%|███▏      | 15024/48008 [2:09:20<5:20:32,  1.71it/s] 31%|███▏      | 15025/48008 [2:09:21<5:03:51,  1.81it/s] 31%|███▏      | 15026/48008 [2:09:21<4:52:11,  1.88it/s] 31%|███▏      | 15027/48008 [2:09:22<4:49:30,  1.90it/s] 31%|███▏      | 15028/48008 [2:09:22<4:41:24,  1.95it/s] 31%|███▏      | 15029/48008 [2:09:23<4:45:45,  1.92it/s] 31%|███▏      | 15030/48008 [2:09:23<4:39:57,  1.96it/s] 31%|███▏      | 15031/48008 [2:09:24<4:35:42,  1.99it/s] 31%|███▏      | 15032/48008 [2:09:24<4:31:50,  2.02it/s] 31%|███▏      | 15033/48008 [2:09:25<4:29:33,  2.04it/s] 31%|███▏      | 15034/48008 [2:09:25<4:28:00,  2.05it/s] 31%|███▏      | 15035/48008 [2:09:26<4:25:57,  2.07it/s] 31%|███▏      | 15036/48008 [2:09:26<4:56:34,  1.85it/s] 31%|███▏      | 15037/48008 [2:09:27<4:36:18,  1.99it/s] 31%|███▏      | 15038/48008 [2:09:27<4:31:54,  2.02it/s] 31%|███▏      | 15039/48008 [2:09:28<4:18:13,  2.13it/s] 31%|███▏      | 15040/48008 [2:09:28<4:23:00,  2.09it/s] 31%|███▏      | 15041/48008 [2:09:28<4:11:38,  2.18it/s] 31%|███▏      | 15042/48008 [2:09:29<4:24:31,  2.08it/s] 31%|███▏      | 15043/48008 [2:09:30<4:27:44,  2.05it/s] 31%|███▏      | 15044/48008 [2:09:30<4:26:34,  2.06it/s] 31%|███▏      | 15045/48008 [2:09:31<5:30:33,  1.66it/s] 31%|███▏      | 15046/48008 [2:09:31<5:10:34,  1.77it/s] 31%|███▏      | 15047/48008 [2:09:32<5:00:02,  1.83it/s] 31%|███▏      | 15048/48008 [2:09:32<4:50:02,  1.89it/s] 31%|███▏      | 15049/48008 [2:09:33<4:42:28,  1.94it/s] 31%|███▏      | 15050/48008 [2:09:33<4:36:53,  1.98it/s]                                                         {'loss': 4.2933, 'grad_norm': 0.11957094818353653, 'learning_rate': 0.00013730628228628562, 'epoch': 0.31}
 31%|███▏      | 15050/48008 [2:09:33<4:36:53,  1.98it/s] 31%|███▏      | 15051/48008 [2:09:34<4:33:01,  2.01it/s] 31%|███▏      | 15052/48008 [2:09:34<4:33:53,  2.01it/s] 31%|███▏      | 15053/48008 [2:09:35<4:31:26,  2.02it/s] 31%|███▏      | 15054/48008 [2:09:35<4:31:59,  2.02it/s] 31%|███▏      | 15055/48008 [2:09:36<4:29:43,  2.04it/s] 31%|███▏      | 15056/48008 [2:09:36<4:17:35,  2.13it/s] 31%|███▏      | 15057/48008 [2:09:37<4:19:03,  2.12it/s] 31%|███▏      | 15058/48008 [2:09:37<4:26:00,  2.06it/s] 31%|███▏      | 15059/48008 [2:09:38<4:28:59,  2.04it/s] 31%|███▏      | 15060/48008 [2:09:38<4:17:03,  2.14it/s] 31%|███▏      | 15061/48008 [2:09:38<4:08:46,  2.21it/s] 31%|███▏      | 15062/48008 [2:09:39<4:13:27,  2.17it/s] 31%|███▏      | 15063/48008 [2:09:40<4:26:35,  2.06it/s] 31%|███▏      | 15064/48008 [2:09:40<4:31:30,  2.02it/s] 31%|███▏      | 15065/48008 [2:09:41<4:32:27,  2.02it/s] 31%|███▏      | 15066/48008 [2:09:41<4:34:21,  2.00it/s] 31%|███▏      | 15067/48008 [2:09:41<4:20:33,  2.11it/s] 31%|███▏      | 15068/48008 [2:09:42<4:21:14,  2.10it/s] 31%|███▏      | 15069/48008 [2:09:42<4:26:13,  2.06it/s] 31%|███▏      | 15070/48008 [2:09:43<4:31:32,  2.02it/s] 31%|███▏      | 15071/48008 [2:09:43<4:35:00,  2.00it/s] 31%|███▏      | 15072/48008 [2:09:44<4:30:50,  2.03it/s] 31%|███▏      | 15073/48008 [2:09:44<4:18:14,  2.13it/s] 31%|███▏      | 15074/48008 [2:09:45<4:23:23,  2.08it/s] 31%|███▏      | 15075/48008 [2:09:45<4:12:52,  2.17it/s] 31%|███▏      | 15076/48008 [2:09:47<6:22:14,  1.44it/s] 31%|███▏      | 15077/48008 [2:09:47<5:46:52,  1.58it/s] 31%|███▏      | 15078/48008 [2:09:47<5:11:08,  1.76it/s] 31%|███▏      | 15079/48008 [2:09:48<4:56:18,  1.85it/s] 31%|███▏      | 15080/48008 [2:09:48<4:45:47,  1.92it/s] 31%|███▏      | 15081/48008 [2:09:50<6:45:01,  1.35it/s] 31%|███▏      | 15082/48008 [2:09:50<5:51:49,  1.56it/s] 31%|███▏      | 15083/48008 [2:09:51<5:28:31,  1.67it/s] 31%|███▏      | 15084/48008 [2:09:51<5:08:14,  1.78it/s] 31%|███▏      | 15085/48008 [2:09:52<5:59:25,  1.53it/s] 31%|███▏      | 15086/48008 [2:09:52<5:40:29,  1.61it/s] 31%|███▏      | 15087/48008 [2:09:53<5:06:35,  1.79it/s] 31%|███▏      | 15088/48008 [2:09:53<4:42:26,  1.94it/s] 31%|███▏      | 15089/48008 [2:09:54<4:26:20,  2.06it/s] 31%|███▏      | 15090/48008 [2:09:54<4:56:55,  1.85it/s] 31%|███▏      | 15091/48008 [2:09:55<4:36:37,  1.98it/s] 31%|███▏      | 15092/48008 [2:09:55<4:33:20,  2.01it/s] 31%|███▏      | 15093/48008 [2:09:56<4:29:55,  2.03it/s] 31%|███▏      | 15094/48008 [2:09:56<4:31:04,  2.02it/s] 31%|███▏      | 15095/48008 [2:09:57<4:33:01,  2.01it/s] 31%|███▏      | 15096/48008 [2:09:57<4:34:26,  2.00it/s] 31%|███▏      | 15097/48008 [2:09:59<6:39:19,  1.37it/s] 31%|███▏      | 15098/48008 [2:09:59<5:58:43,  1.53it/s] 31%|███▏      | 15099/48008 [2:10:00<7:37:03,  1.20it/s] 31%|███▏      | 15100/48008 [2:10:01<6:45:13,  1.35it/s]                                                         {'loss': 4.2936, 'grad_norm': 0.15534944832324982, 'learning_rate': 0.00013709798366938843, 'epoch': 0.31}
 31%|███▏      | 15100/48008 [2:10:01<6:45:13,  1.35it/s] 31%|███▏      | 15101/48008 [2:10:01<6:08:53,  1.49it/s] 31%|███▏      | 15102/48008 [2:10:02<5:36:50,  1.63it/s] 31%|███▏      | 15103/48008 [2:10:02<5:03:17,  1.81it/s] 31%|███▏      | 15104/48008 [2:10:03<4:51:31,  1.88it/s] 31%|███▏      | 15105/48008 [2:10:03<4:47:21,  1.91it/s] 31%|███▏      | 15106/48008 [2:10:04<4:29:36,  2.03it/s] 31%|███▏      | 15107/48008 [2:10:04<4:17:11,  2.13it/s] 31%|███▏      | 15108/48008 [2:10:04<4:19:15,  2.12it/s] 31%|███▏      | 15109/48008 [2:10:05<4:24:14,  2.08it/s] 31%|███▏      | 15110/48008 [2:10:05<4:23:14,  2.08it/s] 31%|███▏      | 15111/48008 [2:10:06<4:23:00,  2.08it/s] 31%|███▏      | 15112/48008 [2:10:06<4:12:51,  2.17it/s] 31%|███▏      | 15113/48008 [2:10:07<4:15:13,  2.15it/s] 31%|███▏      | 15114/48008 [2:10:08<6:23:41,  1.43it/s] 31%|███▏      | 15115/48008 [2:10:09<5:47:00,  1.58it/s] 31%|███▏      | 15116/48008 [2:10:09<6:26:54,  1.42it/s] 31%|███▏      | 15117/48008 [2:10:10<5:49:41,  1.57it/s] 31%|███▏      | 15118/48008 [2:10:10<5:23:57,  1.69it/s] 31%|███▏      | 15119/48008 [2:10:11<5:15:01,  1.74it/s] 31%|███▏      | 15120/48008 [2:10:11<5:05:34,  1.79it/s] 31%|███▏      | 15121/48008 [2:10:12<4:57:18,  1.84it/s] 31%|███▏      | 15122/48008 [2:10:12<4:47:34,  1.91it/s] 32%|███▏      | 15123/48008 [2:10:13<4:46:15,  1.91it/s] 32%|███▏      | 15124/48008 [2:10:14<5:11:03,  1.76it/s] 32%|███▏      | 15125/48008 [2:10:14<4:46:42,  1.91it/s] 32%|███▏      | 15126/48008 [2:10:15<4:46:33,  1.91it/s] 32%|███▏      | 15127/48008 [2:10:15<4:39:03,  1.96it/s] 32%|███▏      | 15128/48008 [2:10:16<4:34:49,  1.99it/s] 32%|███▏      | 15129/48008 [2:10:16<4:31:36,  2.02it/s] 32%|███▏      | 15130/48008 [2:10:17<5:34:20,  1.64it/s] 32%|███▏      | 15131/48008 [2:10:17<5:22:10,  1.70it/s] 32%|███▏      | 15132/48008 [2:10:18<5:03:59,  1.80it/s] 32%|███▏      | 15133/48008 [2:10:18<4:51:27,  1.88it/s] 32%|███▏      | 15134/48008 [2:10:19<4:49:29,  1.89it/s] 32%|███▏      | 15135/48008 [2:10:19<4:30:45,  2.02it/s] 32%|███▏      | 15136/48008 [2:10:20<4:34:11,  2.00it/s] 32%|███▏      | 15137/48008 [2:10:20<4:40:22,  1.95it/s] 32%|███▏      | 15138/48008 [2:10:21<4:25:07,  2.07it/s] 32%|███▏      | 15139/48008 [2:10:21<4:33:45,  2.00it/s] 32%|███▏      | 15140/48008 [2:10:22<4:35:14,  1.99it/s] 32%|███▏      | 15141/48008 [2:10:22<4:20:59,  2.10it/s] 32%|███▏      | 15142/48008 [2:10:23<4:25:20,  2.06it/s] 32%|███▏      | 15143/48008 [2:10:23<4:14:25,  2.15it/s] 32%|███▏      | 15144/48008 [2:10:24<4:06:37,  2.22it/s] 32%|███▏      | 15145/48008 [2:10:24<4:11:42,  2.18it/s] 32%|███▏      | 15146/48008 [2:10:25<4:15:25,  2.14it/s] 32%|███▏      | 15147/48008 [2:10:25<4:49:34,  1.89it/s] 32%|███▏      | 15148/48008 [2:10:26<6:48:57,  1.34it/s] 32%|███▏      | 15149/48008 [2:10:27<6:14:21,  1.46it/s] 32%|███▏      | 15150/48008 [2:10:27<5:41:15,  1.60it/s]                                                         {'loss': 4.2781, 'grad_norm': 0.14199937880039215, 'learning_rate': 0.00013688968505249128, 'epoch': 0.32} 32%|███▏      | 15150/48008 [2:10:27<5:41:15,  1.60it/s]
 32%|███▏      | 15151/48008 [2:10:28<5:25:35,  1.68it/s] 32%|███▏      | 15152/48008 [2:10:28<5:06:38,  1.79it/s] 32%|███▏      | 15153/48008 [2:10:29<4:53:27,  1.87it/s] 32%|███▏      | 15154/48008 [2:10:29<4:49:55,  1.89it/s] 32%|███▏      | 15155/48008 [2:10:30<4:45:01,  1.92it/s] 32%|███▏      | 15156/48008 [2:10:30<4:37:38,  1.97it/s] 32%|███▏      | 15157/48008 [2:10:31<4:33:36,  2.00it/s] 32%|███▏      | 15158/48008 [2:10:32<5:36:24,  1.63it/s] 32%|███▏      | 15159/48008 [2:10:32<5:20:55,  1.71it/s] 32%|███▏      | 15160/48008 [2:10:33<5:07:07,  1.78it/s] 32%|███▏      | 15161/48008 [2:10:33<4:57:53,  1.84it/s] 32%|███▏      | 15162/48008 [2:10:34<4:51:11,  1.88it/s] 32%|███▏      | 15163/48008 [2:10:34<4:48:43,  1.90it/s] 32%|███▏      | 15164/48008 [2:10:35<4:41:08,  1.95it/s] 32%|███▏      | 15165/48008 [2:10:35<4:35:30,  1.99it/s] 32%|███▏      | 15166/48008 [2:10:36<4:31:19,  2.02it/s] 32%|███▏      | 15167/48008 [2:10:36<4:28:21,  2.04it/s] 32%|███▏      | 15168/48008 [2:10:37<4:31:08,  2.02it/s] 32%|███▏      | 15169/48008 [2:10:37<5:00:33,  1.82it/s] 32%|███▏      | 15170/48008 [2:10:38<4:49:18,  1.89it/s] 32%|███▏      | 15171/48008 [2:10:38<4:44:39,  1.92it/s] 32%|███▏      | 15172/48008 [2:10:39<4:41:22,  1.94it/s] 32%|███▏      | 15173/48008 [2:10:39<4:24:43,  2.07it/s] 32%|███▏      | 15174/48008 [2:10:40<4:28:23,  2.04it/s] 32%|███▏      | 15175/48008 [2:10:40<4:27:27,  2.05it/s] 32%|███▏      | 15176/48008 [2:10:41<5:32:31,  1.65it/s] 32%|███▏      | 15177/48008 [2:10:42<5:12:21,  1.75it/s] 32%|███▏      | 15178/48008 [2:10:42<5:04:32,  1.80it/s] 32%|███▏      | 15179/48008 [2:10:43<5:24:04,  1.69it/s] 32%|███▏      | 15180/48008 [2:10:43<5:06:23,  1.79it/s] 32%|███▏      | 15181/48008 [2:10:44<4:53:57,  1.86it/s] 32%|███▏      | 15182/48008 [2:10:44<4:54:13,  1.86it/s] 32%|███▏      | 15183/48008 [2:10:45<4:43:51,  1.93it/s] 32%|███▏      | 15184/48008 [2:10:45<4:37:45,  1.97it/s] 32%|███▏      | 15185/48008 [2:10:46<4:33:43,  2.00it/s] 32%|███▏      | 15186/48008 [2:10:46<4:33:21,  2.00it/s] 32%|███▏      | 15187/48008 [2:10:47<5:34:25,  1.64it/s] 32%|███▏      | 15188/48008 [2:10:48<5:44:33,  1.59it/s] 32%|███▏      | 15189/48008 [2:10:48<5:20:04,  1.71it/s] 32%|███▏      | 15190/48008 [2:10:49<5:06:57,  1.78it/s] 32%|███▏      | 15191/48008 [2:10:49<4:43:25,  1.93it/s] 32%|███▏      | 15192/48008 [2:10:50<4:47:09,  1.90it/s] 32%|███▏      | 15193/48008 [2:10:50<4:39:38,  1.96it/s] 32%|███▏      | 15194/48008 [2:10:51<4:24:09,  2.07it/s] 32%|███▏      | 15195/48008 [2:10:51<4:27:36,  2.04it/s] 32%|███▏      | 15196/48008 [2:10:52<4:35:01,  1.99it/s] 32%|███▏      | 15197/48008 [2:10:52<4:35:37,  1.98it/s] 32%|███▏      | 15198/48008 [2:10:53<4:32:44,  2.00it/s] 32%|███▏      | 15199/48008 [2:10:53<4:37:05,  1.97it/s] 32%|███▏      | 15200/48008 [2:10:54<4:43:01,  1.93it/s]                                                         {'loss': 4.2941, 'grad_norm': 0.12707921862602234, 'learning_rate': 0.00013668138643559407, 'epoch': 0.32} 32%|███▏      | 15200/48008 [2:10:54<4:43:01,  1.93it/s]
 32%|███▏      | 15201/48008 [2:10:55<6:43:07,  1.36it/s] 32%|███▏      | 15202/48008 [2:10:56<6:00:18,  1.52it/s] 32%|███▏      | 15203/48008 [2:10:56<5:34:32,  1.63it/s] 32%|███▏      | 15204/48008 [2:10:56<5:03:02,  1.80it/s] 32%|███▏      | 15205/48008 [2:10:57<4:57:03,  1.84it/s] 32%|███▏      | 15206/48008 [2:10:58<4:53:15,  1.86it/s] 32%|███▏      | 15207/48008 [2:10:58<4:44:00,  1.92it/s] 32%|███▏      | 15208/48008 [2:10:59<4:38:03,  1.97it/s] 32%|███▏      | 15209/48008 [2:10:59<4:42:45,  1.93it/s] 32%|███▏      | 15210/48008 [2:11:00<4:36:41,  1.98it/s] 32%|███▏      | 15211/48008 [2:11:00<4:32:22,  2.01it/s] 32%|███▏      | 15212/48008 [2:11:00<4:19:32,  2.11it/s] 32%|███▏      | 15213/48008 [2:11:01<4:20:42,  2.10it/s] 32%|███▏      | 15214/48008 [2:11:01<4:25:15,  2.06it/s] 32%|███▏      | 15215/48008 [2:11:02<4:34:03,  1.99it/s] 32%|███▏      | 15216/48008 [2:11:02<4:34:11,  1.99it/s] 32%|███▏      | 15217/48008 [2:11:03<4:19:18,  2.11it/s] 32%|███▏      | 15218/48008 [2:11:03<4:20:42,  2.10it/s] 32%|███▏      | 15219/48008 [2:11:05<6:26:38,  1.41it/s] 32%|███▏      | 15220/48008 [2:11:05<5:55:09,  1.54it/s] 32%|███▏      | 15221/48008 [2:11:06<7:34:06,  1.20it/s] 32%|███▏      | 15222/48008 [2:11:07<6:45:30,  1.35it/s] 32%|███▏      | 15223/48008 [2:11:07<5:51:48,  1.55it/s] 32%|███▏      | 15224/48008 [2:11:08<5:25:24,  1.68it/s] 32%|███▏      | 15225/48008 [2:11:08<4:55:54,  1.85it/s] 32%|███▏      | 15226/48008 [2:11:09<4:49:51,  1.88it/s] 32%|███▏      | 15227/48008 [2:11:09<4:42:14,  1.94it/s] 32%|███▏      | 15228/48008 [2:11:10<4:36:18,  1.98it/s] 32%|███▏      | 15229/48008 [2:11:10<4:36:15,  1.98it/s] 32%|███▏      | 15230/48008 [2:11:11<4:42:29,  1.93it/s] 32%|███▏      | 15231/48008 [2:11:11<4:36:35,  1.98it/s] 32%|███▏      | 15232/48008 [2:11:12<4:31:40,  2.01it/s] 32%|███▏      | 15233/48008 [2:11:12<4:32:43,  2.00it/s] 32%|███▏      | 15234/48008 [2:11:13<4:30:22,  2.02it/s] 32%|███▏      | 15235/48008 [2:11:13<4:31:13,  2.01it/s] 32%|███▏      | 15236/48008 [2:11:14<4:38:17,  1.96it/s] 32%|███▏      | 15237/48008 [2:11:14<4:37:29,  1.97it/s] 32%|███▏      | 15238/48008 [2:11:15<4:43:26,  1.93it/s] 32%|███▏      | 15239/48008 [2:11:15<4:37:37,  1.97it/s] 32%|███▏      | 15240/48008 [2:11:16<4:38:47,  1.96it/s] 32%|███▏      | 15241/48008 [2:11:16<4:36:58,  1.97it/s] 32%|███▏      | 15242/48008 [2:11:17<4:41:53,  1.94it/s] 32%|███▏      | 15243/48008 [2:11:17<4:36:27,  1.98it/s] 32%|███▏      | 15244/48008 [2:11:18<4:32:15,  2.01it/s] 32%|███▏      | 15245/48008 [2:11:18<4:33:09,  2.00it/s] 32%|███▏      | 15246/48008 [2:11:19<4:34:11,  1.99it/s] 32%|███▏      | 15247/48008 [2:11:19<4:20:03,  2.10it/s] 32%|███▏      | 15248/48008 [2:11:20<4:26:16,  2.05it/s] 32%|███▏      | 15249/48008 [2:11:20<4:26:00,  2.05it/s] 32%|███▏      | 15250/48008 [2:11:21<4:25:25,  2.06it/s]                                                         {'loss': 4.3068, 'grad_norm': 0.12266304343938828, 'learning_rate': 0.0001364730878186969, 'epoch': 0.32} 32%|███▏      | 15250/48008 [2:11:21<4:25:25,  2.06it/s]
 32%|███▏      | 15251/48008 [2:11:21<4:27:57,  2.04it/s] 32%|███▏      | 15252/48008 [2:11:22<4:26:31,  2.05it/s] 32%|███▏      | 15253/48008 [2:11:22<4:25:08,  2.06it/s] 32%|███▏      | 15254/48008 [2:11:23<4:13:16,  2.16it/s] 32%|███▏      | 15255/48008 [2:11:23<4:16:18,  2.13it/s] 32%|███▏      | 15256/48008 [2:11:24<4:18:42,  2.11it/s] 32%|███▏      | 15257/48008 [2:11:24<4:09:47,  2.19it/s] 32%|███▏      | 15258/48008 [2:11:24<4:15:31,  2.14it/s] 32%|███▏      | 15259/48008 [2:11:25<5:24:01,  1.68it/s] 32%|███▏      | 15260/48008 [2:11:26<5:05:40,  1.79it/s] 32%|███▏      | 15261/48008 [2:11:26<4:52:37,  1.87it/s] 32%|███▏      | 15262/48008 [2:11:27<4:43:42,  1.92it/s] 32%|███▏      | 15263/48008 [2:11:27<4:46:41,  1.90it/s] 32%|███▏      | 15264/48008 [2:11:28<4:39:10,  1.95it/s] 32%|███▏      | 15265/48008 [2:11:28<4:34:26,  1.99it/s] 32%|███▏      | 15266/48008 [2:11:29<4:33:59,  1.99it/s] 32%|███▏      | 15267/48008 [2:11:29<4:36:42,  1.97it/s] 32%|███▏      | 15268/48008 [2:11:30<4:32:25,  2.00it/s] 32%|███▏      | 15269/48008 [2:11:31<5:34:12,  1.63it/s] 32%|███▏      | 15270/48008 [2:11:31<5:02:46,  1.80it/s] 32%|███▏      | 15271/48008 [2:11:31<4:40:08,  1.95it/s] 32%|███▏      | 15272/48008 [2:11:32<4:43:34,  1.92it/s] 32%|███▏      | 15273/48008 [2:11:33<5:08:09,  1.77it/s] 32%|███▏      | 15274/48008 [2:11:33<4:57:31,  1.83it/s] 32%|███▏      | 15275/48008 [2:11:34<4:52:42,  1.86it/s] 32%|███▏      | 15276/48008 [2:11:34<4:53:51,  1.86it/s] 32%|███▏      | 15277/48008 [2:11:35<4:44:57,  1.91it/s] 32%|███▏      | 15278/48008 [2:11:35<4:37:41,  1.96it/s] 32%|███▏      | 15279/48008 [2:11:36<5:04:18,  1.79it/s] 32%|███▏      | 15280/48008 [2:11:37<5:23:31,  1.69it/s] 32%|███▏      | 15281/48008 [2:11:37<4:53:52,  1.86it/s] 32%|███▏      | 15282/48008 [2:11:37<4:34:16,  1.99it/s] 32%|███▏      | 15283/48008 [2:11:38<4:30:21,  2.02it/s] 32%|███▏      | 15284/48008 [2:11:38<4:33:20,  2.00it/s] 32%|███▏      | 15285/48008 [2:11:39<4:30:19,  2.02it/s] 32%|███▏      | 15286/48008 [2:11:39<4:32:14,  2.00it/s] 32%|███▏      | 15287/48008 [2:11:40<5:34:12,  1.63it/s] 32%|███▏      | 15288/48008 [2:11:41<5:12:04,  1.75it/s] 32%|███▏      | 15289/48008 [2:11:41<5:00:08,  1.82it/s] 32%|███▏      | 15290/48008 [2:11:42<4:38:24,  1.96it/s] 32%|███▏      | 15291/48008 [2:11:42<4:33:20,  1.99it/s] 32%|███▏      | 15292/48008 [2:11:43<4:29:49,  2.02it/s] 32%|███▏      | 15293/48008 [2:11:43<4:31:37,  2.01it/s] 32%|███▏      | 15294/48008 [2:11:44<4:29:37,  2.02it/s] 32%|███▏      | 15295/48008 [2:11:44<4:58:17,  1.83it/s] 32%|███▏      | 15296/48008 [2:11:45<4:46:56,  1.90it/s] 32%|███▏      | 15297/48008 [2:11:45<4:46:07,  1.91it/s] 32%|███▏      | 15298/48008 [2:11:46<4:43:20,  1.92it/s] 32%|███▏      | 15299/48008 [2:11:46<4:37:10,  1.97it/s] 32%|███▏      | 15300/48008 [2:11:47<4:39:13,  1.95it/s]                                                         {'loss': 4.2895, 'grad_norm': 0.13510486483573914, 'learning_rate': 0.0001362647892017997, 'epoch': 0.32} 32%|███▏      | 15300/48008 [2:11:47<4:39:13,  1.95it/s]
 32%|███▏      | 15301/48008 [2:11:47<4:34:55,  1.98it/s] 32%|███▏      | 15302/48008 [2:11:48<4:41:35,  1.94it/s] 32%|███▏      | 15303/48008 [2:11:48<4:35:55,  1.98it/s] 32%|███▏      | 15304/48008 [2:11:50<6:39:25,  1.36it/s] 32%|███▏      | 15305/48008 [2:11:50<6:01:34,  1.51it/s] 32%|███▏      | 15306/48008 [2:11:51<5:31:44,  1.64it/s] 32%|███▏      | 15307/48008 [2:11:51<5:10:54,  1.75it/s] 32%|███▏      | 15308/48008 [2:11:51<4:59:31,  1.82it/s] 32%|███▏      | 15309/48008 [2:11:52<4:48:04,  1.89it/s] 32%|███▏      | 15310/48008 [2:11:52<4:45:58,  1.91it/s] 32%|███▏      | 15311/48008 [2:11:53<4:39:14,  1.95it/s] 32%|███▏      | 15312/48008 [2:11:53<4:37:56,  1.96it/s] 32%|███▏      | 15313/48008 [2:11:54<5:37:55,  1.61it/s] 32%|███▏      | 15314/48008 [2:11:55<5:19:51,  1.70it/s] 32%|███▏      | 15315/48008 [2:11:55<4:52:07,  1.87it/s] 32%|███▏      | 15316/48008 [2:11:56<4:32:44,  2.00it/s] 32%|███▏      | 15317/48008 [2:11:56<4:36:16,  1.97it/s] 32%|███▏      | 15318/48008 [2:11:57<4:42:07,  1.93it/s] 32%|███▏      | 15319/48008 [2:11:57<4:39:13,  1.95it/s] 32%|███▏      | 15320/48008 [2:11:58<4:34:26,  1.99it/s] 32%|███▏      | 15321/48008 [2:11:58<4:30:20,  2.02it/s] 32%|███▏      | 15322/48008 [2:11:59<4:35:19,  1.98it/s] 32%|███▏      | 15323/48008 [2:11:59<5:02:37,  1.80it/s] 32%|███▏      | 15324/48008 [2:12:00<4:51:41,  1.87it/s] 32%|███▏      | 15325/48008 [2:12:00<4:31:53,  2.00it/s] 32%|███▏      | 15326/48008 [2:12:01<4:17:44,  2.11it/s] 32%|███▏      | 15327/48008 [2:12:01<4:19:40,  2.10it/s] 32%|███▏      | 15328/48008 [2:12:02<4:24:58,  2.06it/s] 32%|███▏      | 15329/48008 [2:12:02<4:27:22,  2.04it/s] 32%|███▏      | 15330/48008 [2:12:03<4:25:23,  2.05it/s] 32%|███▏      | 15331/48008 [2:12:03<4:23:50,  2.06it/s] 32%|███▏      | 15332/48008 [2:12:04<4:26:35,  2.04it/s] 32%|███▏      | 15333/48008 [2:12:05<6:32:25,  1.39it/s] 32%|███▏      | 15334/48008 [2:12:05<6:00:02,  1.51it/s] 32%|███▏      | 15335/48008 [2:12:06<5:30:31,  1.65it/s] 32%|███▏      | 15336/48008 [2:12:06<4:59:23,  1.82it/s] 32%|███▏      | 15337/48008 [2:12:07<4:37:56,  1.96it/s] 32%|███▏      | 15338/48008 [2:12:07<4:22:54,  2.07it/s] 32%|███▏      | 15339/48008 [2:12:08<4:22:01,  2.08it/s] 32%|███▏      | 15340/48008 [2:12:08<4:11:11,  2.17it/s] 32%|███▏      | 15341/48008 [2:12:09<4:14:46,  2.14it/s] 32%|███▏      | 15342/48008 [2:12:09<4:20:14,  2.09it/s] 32%|███▏      | 15343/48008 [2:12:10<4:23:48,  2.06it/s] 32%|███▏      | 15344/48008 [2:12:10<4:23:36,  2.07it/s] 32%|███▏      | 15345/48008 [2:12:11<4:22:47,  2.07it/s] 32%|███▏      | 15346/48008 [2:12:11<4:23:06,  2.07it/s] 32%|███▏      | 15347/48008 [2:12:12<4:28:55,  2.02it/s] 32%|███▏      | 15348/48008 [2:12:12<4:26:07,  2.05it/s] 32%|███▏      | 15349/48008 [2:12:13<4:28:35,  2.03it/s] 32%|███▏      | 15350/48008 [2:12:13<4:26:14,  2.04it/s]                                                         {'loss': 4.2643, 'grad_norm': 0.12486480921506882, 'learning_rate': 0.00013605649058490252, 'epoch': 0.32} 32%|███▏      | 15350/48008 [2:12:13<4:26:14,  2.04it/s]
 32%|███▏      | 15351/48008 [2:12:13<4:08:51,  2.19it/s] 32%|███▏      | 15352/48008 [2:12:14<4:19:43,  2.10it/s] 32%|███▏      | 15353/48008 [2:12:14<4:20:21,  2.09it/s] 32%|███▏      | 15354/48008 [2:12:15<4:25:22,  2.05it/s] 32%|███▏      | 15355/48008 [2:12:15<4:14:10,  2.14it/s] 32%|███▏      | 15356/48008 [2:12:16<4:16:35,  2.12it/s] 32%|███▏      | 15357/48008 [2:12:16<4:22:23,  2.07it/s] 32%|███▏      | 15358/48008 [2:12:17<4:22:32,  2.07it/s] 32%|███▏      | 15359/48008 [2:12:17<4:22:28,  2.07it/s] 32%|███▏      | 15360/48008 [2:12:18<4:22:15,  2.07it/s] 32%|███▏      | 15361/48008 [2:12:18<4:21:55,  2.08it/s] 32%|███▏      | 15362/48008 [2:12:19<5:26:09,  1.67it/s] 32%|███▏      | 15363/48008 [2:12:20<5:13:37,  1.73it/s] 32%|███▏      | 15364/48008 [2:12:20<4:57:25,  1.83it/s] 32%|███▏      | 15365/48008 [2:12:21<4:46:20,  1.90it/s] 32%|███▏      | 15366/48008 [2:12:21<4:45:02,  1.91it/s] 32%|███▏      | 15367/48008 [2:12:22<4:37:36,  1.96it/s] 32%|███▏      | 15368/48008 [2:12:22<4:21:30,  2.08it/s] 32%|███▏      | 15369/48008 [2:12:22<4:21:15,  2.08it/s] 32%|███▏      | 15370/48008 [2:12:23<4:20:52,  2.09it/s] 32%|███▏      | 15371/48008 [2:12:23<4:20:47,  2.09it/s] 32%|███▏      | 15372/48008 [2:12:24<4:21:58,  2.08it/s] 32%|███▏      | 15373/48008 [2:12:24<4:30:56,  2.01it/s] 32%|███▏      | 15374/48008 [2:12:25<4:32:11,  2.00it/s] 32%|███▏      | 15375/48008 [2:12:25<4:32:04,  2.00it/s] 32%|███▏      | 15376/48008 [2:12:26<4:32:30,  2.00it/s] 32%|███▏      | 15377/48008 [2:12:27<5:58:10,  1.52it/s] 32%|███▏      | 15378/48008 [2:12:27<5:29:23,  1.65it/s] 32%|███▏      | 15379/48008 [2:12:28<5:13:06,  1.74it/s] 32%|███▏      | 15380/48008 [2:12:28<4:47:41,  1.89it/s] 32%|███▏      | 15381/48008 [2:12:29<4:39:46,  1.94it/s] 32%|███▏      | 15382/48008 [2:12:29<4:23:33,  2.06it/s] 32%|███▏      | 15383/48008 [2:12:30<4:54:24,  1.85it/s] 32%|███▏      | 15384/48008 [2:12:30<4:43:54,  1.92it/s] 32%|███▏      | 15385/48008 [2:12:31<4:36:38,  1.97it/s] 32%|███▏      | 15386/48008 [2:12:31<4:41:14,  1.93it/s] 32%|███▏      | 15387/48008 [2:12:32<4:35:13,  1.98it/s] 32%|███▏      | 15388/48008 [2:12:32<4:31:05,  2.01it/s] 32%|███▏      | 15389/48008 [2:12:33<5:32:24,  1.64it/s] 32%|███▏      | 15390/48008 [2:12:34<5:10:28,  1.75it/s] 32%|███▏      | 15391/48008 [2:12:35<7:01:31,  1.29it/s] 32%|███▏      | 15392/48008 [2:12:36<6:14:08,  1.45it/s] 32%|███▏      | 15393/48008 [2:12:36<5:39:39,  1.60it/s] 32%|███▏      | 15394/48008 [2:12:36<5:16:01,  1.72it/s] 32%|███▏      | 15395/48008 [2:12:37<5:05:55,  1.78it/s] 32%|███▏      | 15396/48008 [2:12:38<4:56:40,  1.83it/s] 32%|███▏      | 15397/48008 [2:12:38<4:49:40,  1.88it/s] 32%|███▏      | 15398/48008 [2:12:38<4:40:49,  1.94it/s] 32%|███▏      | 15399/48008 [2:12:39<4:35:20,  1.97it/s] 32%|███▏      | 15400/48008 [2:12:39<4:37:39,  1.96it/s]                                                         {'loss': 4.2865, 'grad_norm': 0.11504874378442764, 'learning_rate': 0.00013584819196800534, 'epoch': 0.32}
 32%|███▏      | 15400/48008 [2:12:39<4:37:39,  1.96it/s] 32%|███▏      | 15401/48008 [2:12:40<4:22:43,  2.07it/s] 32%|███▏      | 15402/48008 [2:12:40<4:22:31,  2.07it/s] 32%|███▏      | 15403/48008 [2:12:41<4:25:13,  2.05it/s] 32%|███▏      | 15404/48008 [2:12:41<4:24:16,  2.06it/s] 32%|███▏      | 15405/48008 [2:12:42<4:29:38,  2.02it/s] 32%|███▏      | 15406/48008 [2:12:42<4:27:11,  2.03it/s] 32%|███▏      | 15407/48008 [2:12:43<4:29:24,  2.02it/s] 32%|███▏      | 15408/48008 [2:12:43<4:32:53,  1.99it/s] 32%|███▏      | 15409/48008 [2:12:44<4:35:12,  1.97it/s] 32%|███▏      | 15410/48008 [2:12:45<5:36:46,  1.61it/s] 32%|███▏      | 15411/48008 [2:12:45<5:13:32,  1.73it/s] 32%|███▏      | 15412/48008 [2:12:46<4:57:49,  1.82it/s] 32%|███▏      | 15413/48008 [2:12:46<4:46:22,  1.90it/s] 32%|███▏      | 15414/48008 [2:12:47<4:41:47,  1.93it/s] 32%|███▏      | 15415/48008 [2:12:47<4:35:07,  1.97it/s] 32%|███▏      | 15416/48008 [2:12:48<4:20:19,  2.09it/s] 32%|███▏      | 15417/48008 [2:12:49<6:25:42,  1.41it/s] 32%|███▏      | 15418/48008 [2:12:49<5:48:02,  1.56it/s] 32%|███▏      | 15419/48008 [2:12:50<5:20:57,  1.69it/s] 32%|███▏      | 15420/48008 [2:12:50<5:09:45,  1.75it/s] 32%|███▏      | 15421/48008 [2:12:51<4:55:09,  1.84it/s] 32%|███▏      | 15422/48008 [2:12:51<4:44:29,  1.91it/s] 32%|███▏      | 15423/48008 [2:12:52<4:36:58,  1.96it/s] 32%|███▏      | 15424/48008 [2:12:52<4:42:25,  1.92it/s] 32%|███▏      | 15425/48008 [2:12:54<6:41:41,  1.35it/s] 32%|███▏      | 15426/48008 [2:12:54<5:59:47,  1.51it/s] 32%|███▏      | 15427/48008 [2:12:55<6:01:08,  1.50it/s] 32%|███▏      | 15428/48008 [2:12:55<5:35:14,  1.62it/s] 32%|███▏      | 15429/48008 [2:12:56<5:13:32,  1.73it/s] 32%|███▏      | 15430/48008 [2:12:56<4:47:01,  1.89it/s] 32%|███▏      | 15431/48008 [2:12:57<4:39:37,  1.94it/s] 32%|███▏      | 15432/48008 [2:12:57<4:34:00,  1.98it/s] 32%|███▏      | 15433/48008 [2:12:58<4:36:06,  1.97it/s] 32%|███▏      | 15434/48008 [2:12:58<4:31:17,  2.00it/s] 32%|███▏      | 15435/48008 [2:12:59<4:32:14,  1.99it/s] 32%|███▏      | 15436/48008 [2:12:59<4:18:42,  2.10it/s] 32%|███▏      | 15437/48008 [2:13:00<4:23:44,  2.06it/s] 32%|███▏      | 15438/48008 [2:13:00<4:22:18,  2.07it/s] 32%|███▏      | 15439/48008 [2:13:00<4:11:24,  2.16it/s] 32%|███▏      | 15440/48008 [2:13:01<4:17:44,  2.11it/s] 32%|███▏      | 15441/48008 [2:13:01<4:24:50,  2.05it/s] 32%|███▏      | 15442/48008 [2:13:02<4:30:34,  2.01it/s] 32%|███▏      | 15443/48008 [2:13:03<5:31:34,  1.64it/s] 32%|███▏      | 15444/48008 [2:13:03<5:19:36,  1.70it/s] 32%|███▏      | 15445/48008 [2:13:04<5:05:58,  1.77it/s] 32%|███▏      | 15446/48008 [2:13:05<5:23:40,  1.68it/s] 32%|███▏      | 15447/48008 [2:13:05<5:05:38,  1.78it/s] 32%|███▏      | 15448/48008 [2:13:06<4:52:58,  1.85it/s] 32%|███▏      | 15449/48008 [2:13:06<4:47:47,  1.89it/s] 32%|███▏      | 15450/48008 [2:13:07<4:40:15,  1.94it/s]                                                         {'loss': 4.3608, 'grad_norm': 0.2004222273826599, 'learning_rate': 0.00013563989335110816, 'epoch': 0.32} 32%|███▏      | 15450/48008 [2:13:07<4:40:15,  1.94it/s]
 32%|███▏      | 15451/48008 [2:13:07<4:43:53,  1.91it/s] 32%|███▏      | 15452/48008 [2:13:07<4:26:07,  2.04it/s] 32%|███▏      | 15453/48008 [2:13:08<4:23:44,  2.06it/s] 32%|███▏      | 15454/48008 [2:13:08<4:11:58,  2.15it/s] 32%|███▏      | 15455/48008 [2:13:09<4:18:27,  2.10it/s] 32%|███▏      | 15456/48008 [2:13:09<4:22:53,  2.06it/s] 32%|███▏      | 15457/48008 [2:13:10<4:27:06,  2.03it/s] 32%|███▏      | 15458/48008 [2:13:10<4:28:45,  2.02it/s] 32%|███▏      | 15459/48008 [2:13:11<4:15:29,  2.12it/s] 32%|███▏      | 15460/48008 [2:13:12<6:24:09,  1.41it/s] 32%|███▏      | 15461/48008 [2:13:13<5:50:59,  1.55it/s] 32%|███▏      | 15462/48008 [2:13:13<5:23:47,  1.68it/s] 32%|███▏      | 15463/48008 [2:13:13<4:54:15,  1.84it/s] 32%|███▏      | 15464/48008 [2:13:14<4:48:02,  1.88it/s] 32%|███▏      | 15465/48008 [2:13:14<4:39:41,  1.94it/s] 32%|███▏      | 15466/48008 [2:13:16<6:39:12,  1.36it/s] 32%|███▏      | 15467/48008 [2:13:16<6:04:19,  1.49it/s] 32%|███▏      | 15468/48008 [2:13:17<5:36:59,  1.61it/s] 32%|███▏      | 15469/48008 [2:13:17<5:03:33,  1.79it/s] 32%|███▏      | 15470/48008 [2:13:18<4:51:12,  1.86it/s] 32%|███▏      | 15471/48008 [2:13:18<4:42:14,  1.92it/s] 32%|███▏      | 15472/48008 [2:13:19<5:40:22,  1.59it/s] 32%|███▏      | 15473/48008 [2:13:19<5:16:33,  1.71it/s] 32%|███▏      | 15474/48008 [2:13:20<5:31:10,  1.64it/s] 32%|███▏      | 15475/48008 [2:13:21<5:19:05,  1.70it/s] 32%|███▏      | 15476/48008 [2:13:21<4:50:50,  1.86it/s] 32%|███▏      | 15477/48008 [2:13:22<4:46:28,  1.89it/s] 32%|███▏      | 15478/48008 [2:13:22<4:42:57,  1.92it/s] 32%|███▏      | 15479/48008 [2:13:23<4:25:08,  2.04it/s] 32%|███▏      | 15480/48008 [2:13:23<4:26:44,  2.03it/s] 32%|███▏      | 15481/48008 [2:13:24<4:56:03,  1.83it/s] 32%|███▏      | 15482/48008 [2:13:24<4:45:23,  1.90it/s] 32%|███▏      | 15483/48008 [2:13:25<4:38:01,  1.95it/s] 32%|███▏      | 15484/48008 [2:13:25<4:32:57,  1.99it/s] 32%|███▏      | 15485/48008 [2:13:26<4:29:08,  2.01it/s] 32%|███▏      | 15486/48008 [2:13:26<4:26:34,  2.03it/s] 32%|███▏      | 15487/48008 [2:13:27<4:24:11,  2.05it/s] 32%|███▏      | 15488/48008 [2:13:27<4:29:57,  2.01it/s] 32%|███▏      | 15489/48008 [2:13:28<4:27:31,  2.03it/s] 32%|███▏      | 15490/48008 [2:13:28<4:25:12,  2.04it/s] 32%|███▏      | 15491/48008 [2:13:29<4:29:34,  2.01it/s] 32%|███▏      | 15492/48008 [2:13:29<4:26:22,  2.03it/s] 32%|███▏      | 15493/48008 [2:13:30<4:25:22,  2.04it/s] 32%|███▏      | 15494/48008 [2:13:30<4:23:22,  2.06it/s] 32%|███▏      | 15495/48008 [2:13:30<4:22:00,  2.07it/s] 32%|███▏      | 15496/48008 [2:13:31<4:24:51,  2.05it/s] 32%|███▏      | 15497/48008 [2:13:31<4:23:31,  2.06it/s] 32%|███▏      | 15498/48008 [2:13:32<4:53:53,  1.84it/s] 32%|███▏      | 15499/48008 [2:13:33<4:47:49,  1.88it/s] 32%|███▏      | 15500/48008 [2:13:33<4:29:46,  2.01it/s]                                                         {'loss': 4.2451, 'grad_norm': 0.16587236523628235, 'learning_rate': 0.00013543159473421097, 'epoch': 0.32} 32%|███▏      | 15500/48008 [2:13:33<4:29:46,  2.01it/s]
 32%|███▏      | 15501/48008 [2:13:34<4:30:34,  2.00it/s] 32%|███▏      | 15502/48008 [2:13:34<4:28:42,  2.02it/s] 32%|███▏      | 15503/48008 [2:13:35<4:25:36,  2.04it/s] 32%|███▏      | 15504/48008 [2:13:35<4:28:04,  2.02it/s] 32%|███▏      | 15505/48008 [2:13:36<4:26:16,  2.03it/s] 32%|███▏      | 15506/48008 [2:13:36<4:28:03,  2.02it/s] 32%|███▏      | 15507/48008 [2:13:37<4:29:27,  2.01it/s] 32%|███▏      | 15508/48008 [2:13:37<4:32:39,  1.99it/s] 32%|███▏      | 15509/48008 [2:13:37<4:19:04,  2.09it/s] 32%|███▏      | 15510/48008 [2:13:38<4:24:09,  2.05it/s] 32%|███▏      | 15511/48008 [2:13:38<4:22:52,  2.06it/s] 32%|███▏      | 15512/48008 [2:13:40<6:26:58,  1.40it/s] 32%|███▏      | 15513/48008 [2:13:40<5:49:20,  1.55it/s] 32%|███▏      | 15514/48008 [2:13:41<5:22:56,  1.68it/s] 32%|███▏      | 15515/48008 [2:13:41<5:04:45,  1.78it/s] 32%|███▏      | 15516/48008 [2:13:42<4:40:42,  1.93it/s] 32%|███▏      | 15517/48008 [2:13:42<4:38:37,  1.94it/s] 32%|███▏      | 15518/48008 [2:13:43<4:32:40,  1.99it/s] 32%|███▏      | 15519/48008 [2:13:43<4:29:44,  2.01it/s] 32%|███▏      | 15520/48008 [2:13:44<4:27:03,  2.03it/s] 32%|███▏      | 15521/48008 [2:13:44<4:24:33,  2.05it/s] 32%|███▏      | 15522/48008 [2:13:44<4:23:54,  2.05it/s] 32%|███▏      | 15523/48008 [2:13:45<5:27:19,  1.65it/s] 32%|███▏      | 15524/48008 [2:13:46<5:07:15,  1.76it/s] 32%|███▏      | 15525/48008 [2:13:46<4:53:20,  1.85it/s] 32%|███▏      | 15526/48008 [2:13:47<4:43:12,  1.91it/s] 32%|███▏      | 15527/48008 [2:13:47<4:35:17,  1.97it/s] 32%|███▏      | 15528/48008 [2:13:48<4:31:12,  2.00it/s] 32%|███▏      | 15529/48008 [2:13:48<4:31:36,  1.99it/s] 32%|███▏      | 15530/48008 [2:13:49<4:17:41,  2.10it/s] 32%|███▏      | 15531/48008 [2:13:49<4:22:01,  2.07it/s] 32%|███▏      | 15532/48008 [2:13:50<4:11:16,  2.15it/s] 32%|███▏      | 15533/48008 [2:13:50<4:14:07,  2.13it/s] 32%|███▏      | 15534/48008 [2:13:51<4:14:55,  2.12it/s] 32%|███▏      | 15535/48008 [2:13:51<5:20:25,  1.69it/s] 32%|███▏      | 15536/48008 [2:13:52<5:11:22,  1.74it/s] 32%|███▏      | 15537/48008 [2:13:52<4:44:39,  1.90it/s] 32%|███▏      | 15538/48008 [2:13:53<4:40:40,  1.93it/s] 32%|███▏      | 15539/48008 [2:13:53<4:34:27,  1.97it/s] 32%|███▏      | 15540/48008 [2:13:54<4:30:54,  2.00it/s] 32%|███▏      | 15541/48008 [2:13:54<4:27:06,  2.03it/s] 32%|███▏      | 15542/48008 [2:13:55<4:25:08,  2.04it/s] 32%|███▏      | 15543/48008 [2:13:55<4:13:28,  2.13it/s] 32%|███▏      | 15544/48008 [2:13:56<4:22:43,  2.06it/s] 32%|███▏      | 15545/48008 [2:13:56<4:22:26,  2.06it/s] 32%|███▏      | 15546/48008 [2:13:57<4:22:13,  2.06it/s] 32%|███▏      | 15547/48008 [2:13:57<4:21:50,  2.07it/s] 32%|███▏      | 15548/48008 [2:13:58<4:25:07,  2.04it/s] 32%|███▏      | 15549/48008 [2:13:58<4:23:24,  2.05it/s] 32%|███▏      | 15550/48008 [2:13:59<4:22:51,  2.06it/s]                                                         {'loss': 4.2758, 'grad_norm': 0.22891581058502197, 'learning_rate': 0.0001352232961173138, 'epoch': 0.32}
 32%|███▏      | 15550/48008 [2:13:59<4:22:51,  2.06it/s] 32%|███▏      | 15551/48008 [2:13:59<4:11:28,  2.15it/s] 32%|███▏      | 15552/48008 [2:14:00<4:13:18,  2.14it/s] 32%|███▏      | 15553/48008 [2:14:00<4:14:45,  2.12it/s] 32%|███▏      | 15554/48008 [2:14:01<4:16:49,  2.11it/s] 32%|███▏      | 15555/48008 [2:14:01<4:22:19,  2.06it/s] 32%|███▏      | 15556/48008 [2:14:02<4:24:56,  2.04it/s] 32%|███▏      | 15557/48008 [2:14:02<4:13:04,  2.14it/s] 32%|███▏      | 15558/48008 [2:14:02<4:24:49,  2.04it/s] 32%|███▏      | 15559/48008 [2:14:03<4:54:52,  1.83it/s] 32%|███▏      | 15560/48008 [2:14:04<4:53:23,  1.84it/s] 32%|███▏      | 15561/48008 [2:14:04<4:43:14,  1.91it/s] 32%|███▏      | 15562/48008 [2:14:05<4:36:45,  1.95it/s] 32%|███▏      | 15563/48008 [2:14:05<4:31:58,  1.99it/s] 32%|███▏      | 15564/48008 [2:14:06<4:18:03,  2.10it/s] 32%|███▏      | 15565/48008 [2:14:06<4:49:32,  1.87it/s] 32%|███▏      | 15566/48008 [2:14:07<4:44:29,  1.90it/s] 32%|███▏      | 15567/48008 [2:14:07<4:43:23,  1.91it/s] 32%|███▏      | 15568/48008 [2:14:08<4:25:32,  2.04it/s] 32%|███▏      | 15569/48008 [2:14:09<6:28:19,  1.39it/s] 32%|███▏      | 15570/48008 [2:14:09<5:53:02,  1.53it/s] 32%|███▏      | 15571/48008 [2:14:10<5:24:19,  1.67it/s] 32%|███▏      | 15572/48008 [2:14:10<5:04:39,  1.77it/s] 32%|███▏      | 15573/48008 [2:14:11<4:51:20,  1.86it/s] 32%|███▏      | 15574/48008 [2:14:11<4:45:21,  1.89it/s] 32%|███▏      | 15575/48008 [2:14:12<4:37:06,  1.95it/s] 32%|███▏      | 15576/48008 [2:14:12<4:31:14,  1.99it/s] 32%|███▏      | 15577/48008 [2:14:13<4:35:47,  1.96it/s] 32%|███▏      | 15578/48008 [2:14:14<5:02:55,  1.78it/s] 32%|███▏      | 15579/48008 [2:14:14<4:39:58,  1.93it/s] 32%|███▏      | 15580/48008 [2:14:14<4:38:55,  1.94it/s] 32%|███▏      | 15581/48008 [2:14:15<4:33:08,  1.98it/s] 32%|███▏      | 15582/48008 [2:14:15<4:29:47,  2.00it/s] 32%|███▏      | 15583/48008 [2:14:16<4:35:38,  1.96it/s] 32%|███▏      | 15584/48008 [2:14:16<4:30:58,  1.99it/s] 32%|███▏      | 15585/48008 [2:14:17<4:31:57,  1.99it/s] 32%|███▏      | 15586/48008 [2:14:17<4:12:16,  2.14it/s] 32%|███▏      | 15587/48008 [2:14:18<4:15:03,  2.12it/s] 32%|███▏      | 15588/48008 [2:14:18<4:20:33,  2.07it/s] 32%|███▏      | 15589/48008 [2:14:19<4:29:44,  2.00it/s] 32%|███▏      | 15590/48008 [2:14:19<4:29:35,  2.00it/s] 32%|███▏      | 15591/48008 [2:14:20<4:15:37,  2.11it/s] 32%|███▏      | 15592/48008 [2:14:20<4:17:30,  2.10it/s] 32%|███▏      | 15593/48008 [2:14:21<4:18:21,  2.09it/s] 32%|███▏      | 15594/48008 [2:14:21<4:49:26,  1.87it/s] 32%|███▏      | 15595/48008 [2:14:22<4:40:01,  1.93it/s] 32%|███▏      | 15596/48008 [2:14:22<4:33:47,  1.97it/s] 32%|███▏      | 15597/48008 [2:14:23<4:33:34,  1.97it/s] 32%|███▏      | 15598/48008 [2:14:23<4:29:51,  2.00it/s] 32%|███▏      | 15599/48008 [2:14:24<4:26:55,  2.02it/s] 32%|███▏      | 15600/48008 [2:14:24<4:13:55,  2.13it/s]                                                         {'loss': 4.2843, 'grad_norm': 0.21836704015731812, 'learning_rate': 0.0001350149975004166, 'epoch': 0.32}
 32%|███▏      | 15600/48008 [2:14:24<4:13:55,  2.13it/s] 32%|███▏      | 15601/48008 [2:14:25<5:20:06,  1.69it/s] 32%|███▏      | 15602/48008 [2:14:26<5:02:48,  1.78it/s] 33%|███▎      | 15603/48008 [2:14:26<5:21:17,  1.68it/s] 33%|███▎      | 15604/48008 [2:14:27<5:06:21,  1.76it/s] 33%|███▎      | 15605/48008 [2:14:27<4:52:29,  1.85it/s] 33%|███▎      | 15606/48008 [2:14:28<4:41:53,  1.92it/s] 33%|███▎      | 15607/48008 [2:14:28<4:24:24,  2.04it/s] 33%|███▎      | 15608/48008 [2:14:29<4:06:43,  2.19it/s] 33%|███▎      | 15609/48008 [2:14:29<3:59:34,  2.25it/s] 33%|███▎      | 15610/48008 [2:14:29<4:05:59,  2.20it/s] 33%|███▎      | 15611/48008 [2:14:30<4:14:22,  2.12it/s] 33%|███▎      | 15612/48008 [2:14:30<4:21:42,  2.06it/s] 33%|███▎      | 15613/48008 [2:14:31<4:30:12,  2.00it/s] 33%|███▎      | 15614/48008 [2:14:31<4:27:19,  2.02it/s] 33%|███▎      | 15615/48008 [2:14:32<4:14:14,  2.12it/s] 33%|███▎      | 15616/48008 [2:14:32<4:18:56,  2.08it/s] 33%|███▎      | 15617/48008 [2:14:33<4:18:38,  2.09it/s] 33%|███▎      | 15618/48008 [2:14:33<4:24:50,  2.04it/s] 33%|███▎      | 15619/48008 [2:14:34<4:24:30,  2.04it/s] 33%|███▎      | 15620/48008 [2:14:34<4:22:46,  2.05it/s] 33%|███▎      | 15621/48008 [2:14:35<4:11:15,  2.15it/s] 33%|███▎      | 15622/48008 [2:14:35<4:17:17,  2.10it/s] 33%|███▎      | 15623/48008 [2:14:36<4:17:36,  2.10it/s] 33%|███▎      | 15624/48008 [2:14:36<4:18:01,  2.09it/s] 33%|███▎      | 15625/48008 [2:14:37<4:21:51,  2.06it/s] 33%|███▎      | 15626/48008 [2:14:37<4:25:00,  2.04it/s] 33%|███▎      | 15627/48008 [2:14:38<4:54:59,  1.83it/s] 33%|███▎      | 15628/48008 [2:14:38<4:47:50,  1.87it/s] 33%|███▎      | 15629/48008 [2:14:39<4:47:07,  1.88it/s] 33%|███▎      | 15630/48008 [2:14:39<4:45:39,  1.89it/s] 33%|███▎      | 15631/48008 [2:14:40<4:41:34,  1.92it/s] 33%|███▎      | 15632/48008 [2:14:40<4:36:20,  1.95it/s] 33%|███▎      | 15633/48008 [2:14:41<4:21:51,  2.06it/s] 33%|███▎      | 15634/48008 [2:14:41<4:22:14,  2.06it/s] 33%|███▎      | 15635/48008 [2:14:42<4:27:49,  2.01it/s] 33%|███▎      | 15636/48008 [2:14:43<4:56:31,  1.82it/s] 33%|███▎      | 15637/48008 [2:14:43<4:51:52,  1.85it/s] 33%|███▎      | 15638/48008 [2:14:44<4:42:08,  1.91it/s] 33%|███▎      | 15639/48008 [2:14:44<4:34:30,  1.97it/s] 33%|███▎      | 15640/48008 [2:14:44<4:19:12,  2.08it/s] 33%|███▎      | 15641/48008 [2:14:45<4:18:56,  2.08it/s] 33%|███▎      | 15642/48008 [2:14:45<4:19:08,  2.08it/s] 33%|███▎      | 15643/48008 [2:14:46<4:22:53,  2.05it/s] 33%|███▎      | 15644/48008 [2:14:46<4:21:18,  2.06it/s] 33%|███▎      | 15645/48008 [2:14:47<4:29:38,  2.00it/s] 33%|███▎      | 15646/48008 [2:14:47<4:27:07,  2.02it/s] 33%|███▎      | 15647/48008 [2:14:48<4:28:52,  2.01it/s] 33%|███▎      | 15648/48008 [2:14:48<4:32:27,  1.98it/s] 33%|███▎      | 15649/48008 [2:14:49<4:29:03,  2.00it/s] 33%|███▎      | 15650/48008 [2:14:49<4:09:49,  2.16it/s]                                                         {'loss': 4.296, 'grad_norm': 0.3188219666481018, 'learning_rate': 0.00013480669888351943, 'epoch': 0.33}
 33%|███▎      | 15650/48008 [2:14:49<4:09:49,  2.16it/s] 33%|███▎      | 15651/48008 [2:14:50<4:12:30,  2.14it/s] 33%|███▎      | 15652/48008 [2:14:50<4:23:46,  2.04it/s] 33%|███▎      | 15653/48008 [2:14:51<4:52:57,  1.84it/s] 33%|███▎      | 15654/48008 [2:14:51<4:42:08,  1.91it/s] 33%|███▎      | 15655/48008 [2:14:52<4:34:39,  1.96it/s] 33%|███▎      | 15656/48008 [2:14:52<4:29:50,  2.00it/s] 33%|███▎      | 15657/48008 [2:14:53<4:25:58,  2.03it/s] 33%|███▎      | 15658/48008 [2:14:53<4:13:02,  2.13it/s] 33%|███▎      | 15659/48008 [2:14:54<4:14:47,  2.12it/s] 33%|███▎      | 15660/48008 [2:14:54<4:19:45,  2.08it/s] 33%|███▎      | 15661/48008 [2:14:55<4:19:51,  2.07it/s] 33%|███▎      | 15662/48008 [2:14:56<6:24:09,  1.40it/s] 33%|███▎      | 15663/48008 [2:14:56<5:36:04,  1.60it/s] 33%|███▎      | 15664/48008 [2:14:57<5:44:28,  1.56it/s] 33%|███▎      | 15665/48008 [2:14:58<5:22:20,  1.67it/s] 33%|███▎      | 15666/48008 [2:14:58<5:02:44,  1.78it/s] 33%|███▎      | 15667/48008 [2:14:59<4:55:29,  1.82it/s] 33%|███▎      | 15668/48008 [2:14:59<4:44:42,  1.89it/s] 33%|███▎      | 15669/48008 [2:15:00<4:26:09,  2.03it/s] 33%|███▎      | 15670/48008 [2:15:00<4:26:55,  2.02it/s] 33%|███▎      | 15671/48008 [2:15:01<4:28:02,  2.01it/s] 33%|███▎      | 15672/48008 [2:15:01<4:24:57,  2.03it/s] 33%|███▎      | 15673/48008 [2:15:01<4:23:24,  2.05it/s] 33%|███▎      | 15674/48008 [2:15:02<4:25:19,  2.03it/s] 33%|███▎      | 15675/48008 [2:15:02<4:27:13,  2.02it/s] 33%|███▎      | 15676/48008 [2:15:03<4:24:32,  2.04it/s] 33%|███▎      | 15677/48008 [2:15:03<4:22:44,  2.05it/s] 33%|███▎      | 15678/48008 [2:15:04<4:21:56,  2.06it/s] 33%|███▎      | 15679/48008 [2:15:04<4:20:33,  2.07it/s] 33%|███▎      | 15680/48008 [2:15:05<4:23:35,  2.04it/s] 33%|███▎      | 15681/48008 [2:15:05<4:21:58,  2.06it/s] 33%|███▎      | 15682/48008 [2:15:06<4:24:06,  2.04it/s] 33%|███▎      | 15683/48008 [2:15:06<4:22:52,  2.05it/s] 33%|███▎      | 15684/48008 [2:15:07<4:11:11,  2.14it/s] 33%|███▎      | 15685/48008 [2:15:07<4:13:00,  2.13it/s] 33%|███▎      | 15686/48008 [2:15:08<4:14:24,  2.12it/s] 33%|███▎      | 15687/48008 [2:15:08<4:46:39,  1.88it/s] 33%|███▎      | 15688/48008 [2:15:09<4:48:13,  1.87it/s] 33%|███▎      | 15689/48008 [2:15:09<4:46:01,  1.88it/s] 33%|███▎      | 15690/48008 [2:15:10<4:37:36,  1.94it/s] 33%|███▎      | 15691/48008 [2:15:10<4:31:42,  1.98it/s] 33%|███▎      | 15692/48008 [2:15:11<4:27:54,  2.01it/s] 33%|███▎      | 15693/48008 [2:15:11<4:29:19,  2.00it/s] 33%|███▎      | 15694/48008 [2:15:12<4:25:55,  2.03it/s] 33%|███▎      | 15695/48008 [2:15:12<4:23:14,  2.05it/s] 33%|███▎      | 15696/48008 [2:15:13<4:31:31,  1.98it/s] 33%|███▎      | 15697/48008 [2:15:13<4:31:21,  1.98it/s] 33%|███▎      | 15698/48008 [2:15:14<4:27:37,  2.01it/s] 33%|███▎      | 15699/48008 [2:15:15<6:29:41,  1.38it/s] 33%|███▎      | 15700/48008 [2:15:16<5:51:12,  1.53it/s]                                                         {'loss': 4.283, 'grad_norm': 0.5505451560020447, 'learning_rate': 0.00013459840026662222, 'epoch': 0.33}
 33%|███▎      | 15700/48008 [2:15:16<5:51:12,  1.53it/s] 33%|███▎      | 15701/48008 [2:15:16<5:23:23,  1.66it/s] 33%|███▎      | 15702/48008 [2:15:17<5:03:28,  1.77it/s] 33%|███▎      | 15703/48008 [2:15:17<4:50:21,  1.85it/s] 33%|███▎      | 15704/48008 [2:15:18<4:30:29,  1.99it/s] 33%|███▎      | 15705/48008 [2:15:18<4:27:16,  2.01it/s] 33%|███▎      | 15706/48008 [2:15:18<4:08:23,  2.17it/s] 33%|███▎      | 15707/48008 [2:15:19<4:42:23,  1.91it/s] 33%|███▎      | 15708/48008 [2:15:20<4:35:22,  1.95it/s] 33%|███▎      | 15709/48008 [2:15:20<5:02:24,  1.78it/s] 33%|███▎      | 15710/48008 [2:15:21<4:55:31,  1.82it/s] 33%|███▎      | 15711/48008 [2:15:21<4:33:47,  1.97it/s] 33%|███▎      | 15712/48008 [2:15:22<4:33:11,  1.97it/s] 33%|███▎      | 15713/48008 [2:15:22<4:28:03,  2.01it/s] 33%|███▎      | 15714/48008 [2:15:23<4:29:15,  2.00it/s] 33%|███▎      | 15715/48008 [2:15:23<4:28:58,  2.00it/s] 33%|███▎      | 15716/48008 [2:15:24<4:25:45,  2.03it/s] 33%|███▎      | 15717/48008 [2:15:24<4:27:08,  2.01it/s] 33%|███▎      | 15718/48008 [2:15:25<4:24:10,  2.04it/s] 33%|███▎      | 15719/48008 [2:15:25<4:22:40,  2.05it/s] 33%|███▎      | 15720/48008 [2:15:26<4:25:03,  2.03it/s] 33%|███▎      | 15721/48008 [2:15:26<4:32:59,  1.97it/s] 33%|███▎      | 15722/48008 [2:15:27<4:34:27,  1.96it/s] 33%|███▎      | 15723/48008 [2:15:27<4:33:27,  1.97it/s] 33%|███▎      | 15724/48008 [2:15:28<4:18:33,  2.08it/s] 33%|███▎      | 15725/48008 [2:15:28<4:23:58,  2.04it/s] 33%|███▎      | 15726/48008 [2:15:28<4:11:46,  2.14it/s] 33%|███▎      | 15727/48008 [2:15:29<4:17:02,  2.09it/s] 33%|███▎      | 15728/48008 [2:15:30<4:27:03,  2.01it/s] 33%|███▎      | 15729/48008 [2:15:30<4:24:09,  2.04it/s] 33%|███▎      | 15730/48008 [2:15:31<4:31:07,  1.98it/s] 33%|███▎      | 15731/48008 [2:15:31<4:32:59,  1.97it/s] 33%|███▎      | 15732/48008 [2:15:32<4:32:25,  1.97it/s] 33%|███▎      | 15733/48008 [2:15:32<4:27:32,  2.01it/s] 33%|███▎      | 15734/48008 [2:15:32<4:24:25,  2.03it/s] 33%|███▎      | 15735/48008 [2:15:33<4:25:39,  2.02it/s] 33%|███▎      | 15736/48008 [2:15:34<4:30:01,  1.99it/s] 33%|███▎      | 15737/48008 [2:15:34<4:25:50,  2.02it/s] 33%|███▎      | 15738/48008 [2:15:35<4:29:16,  2.00it/s] 33%|███▎      | 15739/48008 [2:15:35<4:25:53,  2.02it/s] 33%|███▎      | 15740/48008 [2:15:35<4:24:07,  2.04it/s] 33%|███▎      | 15741/48008 [2:15:36<4:22:51,  2.05it/s] 33%|███▎      | 15742/48008 [2:15:36<4:25:14,  2.03it/s] 33%|███▎      | 15743/48008 [2:15:37<4:06:57,  2.18it/s] 33%|███▎      | 15744/48008 [2:15:37<4:14:24,  2.11it/s] 33%|███▎      | 15745/48008 [2:15:38<4:15:50,  2.10it/s] 33%|███▎      | 15746/48008 [2:15:38<4:06:00,  2.19it/s] 33%|███▎      | 15747/48008 [2:15:39<4:14:00,  2.12it/s] 33%|███▎      | 15748/48008 [2:15:39<4:46:05,  1.88it/s] 33%|███▎      | 15749/48008 [2:15:40<4:41:47,  1.91it/s] 33%|███▎      | 15750/48008 [2:15:40<4:38:53,  1.93it/s]                                                         {'loss': 4.2868, 'grad_norm': 0.5602831840515137, 'learning_rate': 0.00013439010164972506, 'epoch': 0.33} 33%|███▎      | 15750/48008 [2:15:40<4:38:53,  1.93it/s]
 33%|███▎      | 15751/48008 [2:15:41<5:04:21,  1.77it/s] 33%|███▎      | 15752/48008 [2:15:42<6:54:09,  1.30it/s] 33%|███▎      | 15753/48008 [2:15:43<6:39:24,  1.35it/s] 33%|███▎      | 15754/48008 [2:15:44<5:57:19,  1.50it/s] 33%|███▎      | 15755/48008 [2:15:44<6:32:41,  1.37it/s] 33%|███▎      | 15756/48008 [2:15:45<6:56:26,  1.29it/s] 33%|███▎      | 15757/48008 [2:15:46<6:12:41,  1.44it/s] 33%|███▎      | 15758/48008 [2:15:46<5:44:00,  1.56it/s] 33%|███▎      | 15759/48008 [2:15:47<6:21:36,  1.41it/s] 33%|███▎      | 15760/48008 [2:15:48<5:44:48,  1.56it/s] 33%|███▎      | 15761/48008 [2:15:48<5:22:26,  1.67it/s] 33%|███▎      | 15762/48008 [2:15:49<5:12:46,  1.72it/s] 33%|███▎      | 15763/48008 [2:15:49<4:45:52,  1.88it/s] 33%|███▎      | 15764/48008 [2:15:50<4:37:35,  1.94it/s] 33%|███▎      | 15765/48008 [2:15:50<4:31:53,  1.98it/s] 33%|███▎      | 15766/48008 [2:15:51<4:26:59,  2.01it/s] 33%|███▎      | 15767/48008 [2:15:51<4:24:16,  2.03it/s] 33%|███▎      | 15768/48008 [2:15:51<4:11:44,  2.13it/s] 33%|███▎      | 15769/48008 [2:15:52<4:16:56,  2.09it/s] 33%|███▎      | 15770/48008 [2:15:52<4:26:50,  2.01it/s] 33%|███▎      | 15771/48008 [2:15:53<4:27:42,  2.01it/s] 33%|███▎      | 15772/48008 [2:15:53<4:14:12,  2.11it/s] 33%|███▎      | 15773/48008 [2:15:54<4:05:00,  2.19it/s] 33%|███▎      | 15774/48008 [2:15:54<4:18:46,  2.08it/s] 33%|███▎      | 15775/48008 [2:15:55<4:50:00,  1.85it/s] 33%|███▎      | 15776/48008 [2:15:56<5:44:06,  1.56it/s] 33%|███▎      | 15777/48008 [2:15:56<5:17:28,  1.69it/s] 33%|███▎      | 15778/48008 [2:15:57<5:09:38,  1.73it/s] 33%|███▎      | 15779/48008 [2:15:57<4:43:20,  1.90it/s] 33%|███▎      | 15780/48008 [2:15:58<4:35:38,  1.95it/s] 33%|███▎      | 15781/48008 [2:15:58<4:19:43,  2.07it/s] 33%|███▎      | 15782/48008 [2:15:59<4:08:16,  2.16it/s] 33%|███▎      | 15783/48008 [2:15:59<4:00:24,  2.23it/s] 33%|███▎      | 15784/48008 [2:16:00<4:09:01,  2.16it/s] 33%|███▎      | 15785/48008 [2:16:01<6:15:51,  1.43it/s] 33%|███▎      | 15786/48008 [2:16:01<5:39:35,  1.58it/s] 33%|███▎      | 15787/48008 [2:16:02<5:04:34,  1.76it/s] 33%|███▎      | 15788/48008 [2:16:02<4:49:44,  1.85it/s] 33%|███▎      | 15789/48008 [2:16:03<4:44:33,  1.89it/s] 33%|███▎      | 15790/48008 [2:16:03<4:36:48,  1.94it/s] 33%|███▎      | 15791/48008 [2:16:04<4:30:37,  1.98it/s] 33%|███▎      | 15792/48008 [2:16:04<4:58:00,  1.80it/s] 33%|███▎      | 15793/48008 [2:16:05<4:46:23,  1.87it/s] 33%|███▎      | 15794/48008 [2:16:05<4:27:41,  2.01it/s] 33%|███▎      | 15795/48008 [2:16:06<4:08:50,  2.16it/s] 33%|███▎      | 15796/48008 [2:16:06<4:11:25,  2.14it/s] 33%|███▎      | 15797/48008 [2:16:07<4:20:04,  2.06it/s] 33%|███▎      | 15798/48008 [2:16:07<4:29:14,  1.99it/s] 33%|███▎      | 15799/48008 [2:16:08<4:26:26,  2.01it/s] 33%|███▎      | 15800/48008 [2:16:09<6:28:49,  1.38it/s]                                                         {'loss': 4.3427, 'grad_norm': 0.5376474857330322, 'learning_rate': 0.00013418180303282785, 'epoch': 0.33} 33%|███▎      | 15800/48008 [2:16:09<6:28:49,  1.38it/s]
 33%|███▎      | 15801/48008 [2:16:09<5:48:54,  1.54it/s] 33%|███▎      | 15802/48008 [2:16:10<5:10:49,  1.73it/s] 33%|███▎      | 15803/48008 [2:16:10<4:58:43,  1.80it/s] 33%|███▎      | 15804/48008 [2:16:11<4:46:54,  1.87it/s] 33%|███▎      | 15805/48008 [2:16:11<4:38:10,  1.93it/s] 33%|███▎      | 15806/48008 [2:16:12<4:41:29,  1.91it/s] 33%|███▎      | 15807/48008 [2:16:12<4:38:30,  1.93it/s] 33%|███▎      | 15808/48008 [2:16:13<4:31:32,  1.98it/s] 33%|███▎      | 15809/48008 [2:16:13<4:27:34,  2.01it/s] 33%|███▎      | 15810/48008 [2:16:14<6:28:32,  1.38it/s] 33%|███▎      | 15811/48008 [2:16:15<5:49:17,  1.54it/s] 33%|███▎      | 15812/48008 [2:16:15<5:29:16,  1.63it/s] 33%|███▎      | 15813/48008 [2:16:16<5:07:53,  1.74it/s] 33%|███▎      | 15814/48008 [2:16:17<5:25:11,  1.65it/s] 33%|███▎      | 15815/48008 [2:16:17<5:05:16,  1.76it/s] 33%|███▎      | 15816/48008 [2:16:18<4:50:38,  1.85it/s] 33%|███▎      | 15817/48008 [2:16:18<4:40:16,  1.91it/s] 33%|███▎      | 15818/48008 [2:16:19<4:22:46,  2.04it/s] 33%|███▎      | 15819/48008 [2:16:20<6:24:21,  1.40it/s] 33%|███▎      | 15820/48008 [2:16:20<5:52:29,  1.52it/s] 33%|███▎      | 15821/48008 [2:16:21<5:13:57,  1.71it/s] 33%|███▎      | 15822/48008 [2:16:21<5:00:38,  1.78it/s] 33%|███▎      | 15823/48008 [2:16:22<4:47:53,  1.86it/s] 33%|███▎      | 15824/48008 [2:16:22<4:28:42,  2.00it/s] 33%|███▎      | 15825/48008 [2:16:23<4:25:32,  2.02it/s] 33%|███▎      | 15826/48008 [2:16:23<4:23:53,  2.03it/s] 33%|███▎      | 15827/48008 [2:16:24<4:21:58,  2.05it/s] 33%|███▎      | 15828/48008 [2:16:24<4:20:19,  2.06it/s] 33%|███▎      | 15829/48008 [2:16:25<4:19:46,  2.06it/s] 33%|███▎      | 15830/48008 [2:16:25<4:18:13,  2.08it/s] 33%|███▎      | 15831/48008 [2:16:25<4:17:58,  2.08it/s] 33%|███▎      | 15832/48008 [2:16:26<4:22:00,  2.05it/s] 33%|███▎      | 15833/48008 [2:16:26<4:24:52,  2.02it/s] 33%|███▎      | 15834/48008 [2:16:27<4:22:58,  2.04it/s] 33%|███▎      | 15835/48008 [2:16:27<4:21:15,  2.05it/s] 33%|███▎      | 15836/48008 [2:16:28<4:29:28,  1.99it/s] 33%|███▎      | 15837/48008 [2:16:28<4:25:54,  2.02it/s] 33%|███▎      | 15838/48008 [2:16:29<4:23:17,  2.04it/s] 33%|███▎      | 15839/48008 [2:16:29<4:21:14,  2.05it/s] 33%|███▎      | 15840/48008 [2:16:30<4:20:35,  2.06it/s] 33%|███▎      | 15841/48008 [2:16:30<4:20:00,  2.06it/s] 33%|███▎      | 15842/48008 [2:16:31<4:19:52,  2.06it/s] 33%|███▎      | 15843/48008 [2:16:31<4:25:33,  2.02it/s] 33%|███▎      | 15844/48008 [2:16:32<4:26:28,  2.01it/s] 33%|███▎      | 15845/48008 [2:16:32<4:23:13,  2.04it/s] 33%|███▎      | 15846/48008 [2:16:33<4:27:06,  2.01it/s] 33%|███▎      | 15847/48008 [2:16:33<4:24:59,  2.02it/s] 33%|███▎      | 15848/48008 [2:16:34<4:12:29,  2.12it/s] 33%|███▎      | 15849/48008 [2:16:34<4:24:02,  2.03it/s] 33%|███▎      | 15850/48008 [2:16:35<4:28:10,  2.00it/s]                                                         {'loss': 4.2636, 'grad_norm': 0.5146089792251587, 'learning_rate': 0.0001339735044159307, 'epoch': 0.33}
 33%|███▎      | 15850/48008 [2:16:35<4:28:10,  2.00it/s] 33%|███▎      | 15851/48008 [2:16:36<6:29:28,  1.38it/s] 33%|███▎      | 15852/48008 [2:16:37<5:49:36,  1.53it/s] 33%|███▎      | 15853/48008 [2:16:37<5:22:50,  1.66it/s] 33%|███▎      | 15854/48008 [2:16:38<5:34:25,  1.60it/s] 33%|███▎      | 15855/48008 [2:16:38<5:12:19,  1.72it/s] 33%|███▎      | 15856/48008 [2:16:39<4:45:56,  1.87it/s] 33%|███▎      | 15857/48008 [2:16:39<4:37:47,  1.93it/s] 33%|███▎      | 15858/48008 [2:16:40<4:32:28,  1.97it/s] 33%|███▎      | 15859/48008 [2:16:40<4:28:37,  1.99it/s] 33%|███▎      | 15860/48008 [2:16:41<4:26:39,  2.01it/s] 33%|███▎      | 15861/48008 [2:16:41<4:24:59,  2.02it/s] 33%|███▎      | 15862/48008 [2:16:42<4:22:36,  2.04it/s] 33%|███▎      | 15863/48008 [2:16:42<4:53:26,  1.83it/s] 33%|███▎      | 15864/48008 [2:16:43<4:48:41,  1.86it/s] 33%|███▎      | 15865/48008 [2:16:44<5:42:48,  1.56it/s] 33%|███▎      | 15866/48008 [2:16:44<5:07:50,  1.74it/s] 33%|███▎      | 15867/48008 [2:16:45<4:52:58,  1.83it/s] 33%|███▎      | 15868/48008 [2:16:45<4:49:20,  1.85it/s] 33%|███▎      | 15869/48008 [2:16:46<4:43:15,  1.89it/s] 33%|███▎      | 15870/48008 [2:16:46<4:35:49,  1.94it/s] 33%|███▎      | 15871/48008 [2:16:47<4:34:27,  1.95it/s] 33%|███▎      | 15872/48008 [2:16:47<4:19:58,  2.06it/s] 33%|███▎      | 15873/48008 [2:16:48<4:50:04,  1.85it/s] 33%|███▎      | 15874/48008 [2:16:48<4:40:26,  1.91it/s] 33%|███▎      | 15875/48008 [2:16:49<4:22:30,  2.04it/s] 33%|███▎      | 15876/48008 [2:16:49<4:52:40,  1.83it/s] 33%|███▎      | 15877/48008 [2:16:50<4:51:59,  1.83it/s] 33%|███▎      | 15878/48008 [2:16:50<4:41:59,  1.90it/s] 33%|███▎      | 15879/48008 [2:16:51<4:35:16,  1.95it/s] 33%|███▎      | 15880/48008 [2:16:51<5:01:51,  1.77it/s] 33%|███▎      | 15881/48008 [2:16:52<4:58:09,  1.80it/s] 33%|███▎      | 15882/48008 [2:16:53<5:16:15,  1.69it/s] 33%|███▎      | 15883/48008 [2:16:53<4:58:25,  1.79it/s] 33%|███▎      | 15884/48008 [2:16:54<4:45:20,  1.88it/s] 33%|███▎      | 15885/48008 [2:16:54<4:36:12,  1.94it/s] 33%|███▎      | 15886/48008 [2:16:55<4:34:57,  1.95it/s] 33%|███▎      | 15887/48008 [2:16:55<4:38:41,  1.92it/s] 33%|███▎      | 15888/48008 [2:16:56<4:33:05,  1.96it/s] 33%|███▎      | 15889/48008 [2:16:56<4:32:07,  1.97it/s] 33%|███▎      | 15890/48008 [2:16:57<4:28:11,  2.00it/s] 33%|███▎      | 15891/48008 [2:16:57<4:28:18,  2.00it/s] 33%|███▎      | 15892/48008 [2:16:57<4:14:05,  2.11it/s] 33%|███▎      | 15893/48008 [2:16:58<4:25:06,  2.02it/s] 33%|███▎      | 15894/48008 [2:16:58<4:23:12,  2.03it/s] 33%|███▎      | 15895/48008 [2:16:59<4:10:56,  2.13it/s] 33%|███▎      | 15896/48008 [2:16:59<4:12:18,  2.12it/s] 33%|███▎      | 15897/48008 [2:17:00<4:14:26,  2.10it/s] 33%|███▎      | 15898/48008 [2:17:00<4:15:53,  2.09it/s] 33%|███▎      | 15899/48008 [2:17:01<4:16:02,  2.09it/s] 33%|███▎      | 15900/48008 [2:17:01<4:16:07,  2.09it/s]                                                         {'loss': 4.2765, 'grad_norm': 0.4909091293811798, 'learning_rate': 0.0001337652057990335, 'epoch': 0.33}
 33%|███▎      | 15900/48008 [2:17:01<4:16:07,  2.09it/s] 33%|███▎      | 15901/48008 [2:17:02<4:17:41,  2.08it/s] 33%|███▎      | 15902/48008 [2:17:02<4:18:12,  2.07it/s] 33%|███▎      | 15903/48008 [2:17:03<4:20:38,  2.05it/s] 33%|███▎      | 15904/48008 [2:17:03<4:10:03,  2.14it/s] 33%|███▎      | 15905/48008 [2:17:04<4:12:29,  2.12it/s] 33%|███▎      | 15906/48008 [2:17:04<4:20:28,  2.05it/s] 33%|███▎      | 15907/48008 [2:17:05<4:23:51,  2.03it/s] 33%|███▎      | 15908/48008 [2:17:05<4:26:55,  2.00it/s] 33%|███▎      | 15909/48008 [2:17:06<4:13:20,  2.11it/s] 33%|███▎      | 15910/48008 [2:17:06<4:20:40,  2.05it/s] 33%|███▎      | 15911/48008 [2:17:07<4:25:09,  2.02it/s] 33%|███▎      | 15912/48008 [2:17:07<4:31:55,  1.97it/s] 33%|███▎      | 15913/48008 [2:17:08<4:27:09,  2.00it/s] 33%|███▎      | 15914/48008 [2:17:08<4:14:26,  2.10it/s] 33%|███▎      | 15915/48008 [2:17:09<4:46:07,  1.87it/s] 33%|███▎      | 15916/48008 [2:17:09<4:38:17,  1.92it/s] 33%|███▎      | 15917/48008 [2:17:10<4:37:42,  1.93it/s] 33%|███▎      | 15918/48008 [2:17:10<4:21:44,  2.04it/s] 33%|███▎      | 15919/48008 [2:17:11<4:20:13,  2.06it/s] 33%|███▎      | 15920/48008 [2:17:11<4:09:09,  2.15it/s] 33%|███▎      | 15921/48008 [2:17:12<4:15:08,  2.10it/s] 33%|███▎      | 15922/48008 [2:17:12<4:16:30,  2.08it/s] 33%|███▎      | 15923/48008 [2:17:13<4:17:07,  2.08it/s] 33%|███▎      | 15924/48008 [2:17:13<4:27:10,  2.00it/s] 33%|███▎      | 15925/48008 [2:17:14<4:23:40,  2.03it/s] 33%|███▎      | 15926/48008 [2:17:14<4:31:29,  1.97it/s] 33%|███▎      | 15927/48008 [2:17:15<4:26:48,  2.00it/s] 33%|███▎      | 15928/48008 [2:17:16<5:26:53,  1.64it/s] 33%|███▎      | 15929/48008 [2:17:16<5:06:11,  1.75it/s] 33%|███▎      | 15930/48008 [2:17:17<5:00:38,  1.78it/s] 33%|███▎      | 15931/48008 [2:17:17<4:47:33,  1.86it/s] 33%|███▎      | 15932/48008 [2:17:17<4:38:07,  1.92it/s] 33%|███▎      | 15933/48008 [2:17:18<4:37:21,  1.93it/s] 33%|███▎      | 15934/48008 [2:17:18<4:32:03,  1.96it/s] 33%|███▎      | 15935/48008 [2:17:19<4:31:53,  1.97it/s] 33%|███▎      | 15936/48008 [2:17:20<4:34:25,  1.95it/s] 33%|███▎      | 15937/48008 [2:17:20<4:29:36,  1.98it/s] 33%|███▎      | 15938/48008 [2:17:20<4:10:01,  2.14it/s] 33%|███▎      | 15939/48008 [2:17:22<6:15:21,  1.42it/s] 33%|███▎      | 15940/48008 [2:17:22<5:44:55,  1.55it/s] 33%|███▎      | 15941/48008 [2:17:23<5:18:26,  1.68it/s] 33%|███▎      | 15942/48008 [2:17:23<5:03:32,  1.76it/s] 33%|███▎      | 15943/48008 [2:17:24<4:53:09,  1.82it/s] 33%|███▎      | 15944/48008 [2:17:24<4:49:51,  1.84it/s] 33%|███▎      | 15945/48008 [2:17:25<4:39:37,  1.91it/s] 33%|███▎      | 15946/48008 [2:17:25<4:40:08,  1.91it/s] 33%|███▎      | 15947/48008 [2:17:26<4:33:39,  1.95it/s] 33%|███▎      | 15948/48008 [2:17:26<4:32:52,  1.96it/s] 33%|███▎      | 15949/48008 [2:17:27<4:29:09,  1.99it/s] 33%|███▎      | 15950/48008 [2:17:27<4:25:20,  2.01it/s]                                                         {'loss': 4.2876, 'grad_norm': 0.37885740399360657, 'learning_rate': 0.0001335569071821363, 'epoch': 0.33}
 33%|███▎      | 15950/48008 [2:17:27<4:25:20,  2.01it/s] 33%|███▎      | 15951/48008 [2:17:28<4:26:59,  2.00it/s] 33%|███▎      | 15952/48008 [2:17:28<4:13:35,  2.11it/s] 33%|███▎      | 15953/48008 [2:17:29<4:24:29,  2.02it/s] 33%|███▎      | 15954/48008 [2:17:29<4:21:36,  2.04it/s] 33%|███▎      | 15955/48008 [2:17:30<4:20:04,  2.05it/s] 33%|███▎      | 15956/48008 [2:17:30<4:24:14,  2.02it/s] 33%|███▎      | 15957/48008 [2:17:31<4:21:42,  2.04it/s] 33%|███▎      | 15958/48008 [2:17:31<4:23:37,  2.03it/s] 33%|███▎      | 15959/48008 [2:17:32<4:25:41,  2.01it/s] 33%|███▎      | 15960/48008 [2:17:32<4:33:25,  1.95it/s] 33%|███▎      | 15961/48008 [2:17:33<4:32:01,  1.96it/s] 33%|███▎      | 15962/48008 [2:17:33<4:31:39,  1.97it/s] 33%|███▎      | 15963/48008 [2:17:34<4:31:58,  1.96it/s] 33%|███▎      | 15964/48008 [2:17:34<4:27:18,  2.00it/s] 33%|███▎      | 15965/48008 [2:17:35<4:13:04,  2.11it/s] 33%|███▎      | 15966/48008 [2:17:35<4:03:33,  2.19it/s] 33%|███▎      | 15967/48008 [2:17:35<3:56:57,  2.25it/s] 33%|███▎      | 15968/48008 [2:17:36<3:53:55,  2.28it/s] 33%|███▎      | 15969/48008 [2:17:36<4:04:37,  2.18it/s] 33%|███▎      | 15970/48008 [2:17:37<4:08:05,  2.15it/s] 33%|███▎      | 15971/48008 [2:17:37<4:15:30,  2.09it/s] 33%|███▎      | 15972/48008 [2:17:38<4:16:25,  2.08it/s] 33%|███▎      | 15973/48008 [2:17:38<4:16:16,  2.08it/s] 33%|███▎      | 15974/48008 [2:17:39<4:17:18,  2.07it/s] 33%|███▎      | 15975/48008 [2:17:39<4:17:35,  2.07it/s] 33%|███▎      | 15976/48008 [2:17:40<4:17:19,  2.07it/s] 33%|███▎      | 15977/48008 [2:17:40<4:47:27,  1.86it/s] 33%|███▎      | 15978/48008 [2:17:41<4:38:52,  1.91it/s] 33%|███▎      | 15979/48008 [2:17:41<4:36:20,  1.93it/s] 33%|███▎      | 15980/48008 [2:17:42<5:01:28,  1.77it/s] 33%|███▎      | 15981/48008 [2:17:43<4:52:08,  1.83it/s] 33%|███▎      | 15982/48008 [2:17:43<4:44:43,  1.87it/s] 33%|███▎      | 15983/48008 [2:17:43<4:25:32,  2.01it/s] 33%|███▎      | 15984/48008 [2:17:44<4:28:52,  1.99it/s] 33%|███▎      | 15985/48008 [2:17:44<4:15:00,  2.09it/s] 33%|███▎      | 15986/48008 [2:17:45<4:17:16,  2.07it/s] 33%|███▎      | 15987/48008 [2:17:45<4:21:53,  2.04it/s] 33%|███▎      | 15988/48008 [2:17:46<4:26:57,  2.00it/s] 33%|███▎      | 15989/48008 [2:17:46<4:23:35,  2.02it/s] 33%|███▎      | 15990/48008 [2:17:47<4:24:47,  2.02it/s] 33%|███▎      | 15991/48008 [2:17:47<4:11:51,  2.12it/s] 33%|███▎      | 15992/48008 [2:17:48<4:02:45,  2.20it/s] 33%|███▎      | 15993/48008 [2:17:48<4:10:10,  2.13it/s] 33%|███▎      | 15994/48008 [2:17:49<4:16:29,  2.08it/s] 33%|███▎      | 15995/48008 [2:17:49<4:47:33,  1.86it/s] 33%|███▎      | 15996/48008 [2:17:50<4:22:33,  2.03it/s] 33%|███▎      | 15997/48008 [2:17:50<4:20:12,  2.05it/s] 33%|███▎      | 15998/48008 [2:17:51<4:08:38,  2.15it/s] 33%|███▎      | 15999/48008 [2:17:51<4:10:53,  2.13it/s] 33%|███▎      | 16000/48008 [2:17:52<4:02:44,  2.20it/s]                                                         {'loss': 4.2439, 'grad_norm': 0.36299172043800354, 'learning_rate': 0.00013334860856523915, 'epoch': 0.33} 33%|███▎      | 16000/48008 [2:17:52<4:02:44,  2.20it/s]
 33%|███▎      | 16001/48008 [2:17:52<4:11:00,  2.13it/s] 33%|███▎      | 16002/48008 [2:17:53<4:16:39,  2.08it/s] 33%|███▎      | 16003/48008 [2:17:53<4:23:50,  2.02it/s] 33%|███▎      | 16004/48008 [2:17:54<4:27:58,  1.99it/s] 33%|███▎      | 16005/48008 [2:17:54<4:31:15,  1.97it/s] 33%|███▎      | 16006/48008 [2:17:55<4:25:51,  2.01it/s] 33%|███▎      | 16007/48008 [2:17:55<4:24:17,  2.02it/s] 33%|███▎      | 16008/48008 [2:17:56<4:21:17,  2.04it/s] 33%|███▎      | 16009/48008 [2:17:56<4:19:21,  2.06it/s] 33%|███▎      | 16010/48008 [2:17:56<4:08:03,  2.15it/s] 33%|███▎      | 16011/48008 [2:17:57<4:41:35,  1.89it/s] 33%|███▎      | 16012/48008 [2:17:58<4:40:13,  1.90it/s] 33%|███▎      | 16013/48008 [2:17:58<4:36:35,  1.93it/s] 33%|███▎      | 16014/48008 [2:17:59<4:32:29,  1.96it/s] 33%|███▎      | 16015/48008 [2:17:59<4:33:37,  1.95it/s] 33%|███▎      | 16016/48008 [2:18:00<4:28:13,  1.99it/s] 33%|███▎      | 16017/48008 [2:18:00<4:27:57,  1.99it/s] 33%|███▎      | 16018/48008 [2:18:01<4:24:34,  2.02it/s] 33%|███▎      | 16019/48008 [2:18:01<4:11:54,  2.12it/s] 33%|███▎      | 16020/48008 [2:18:02<4:13:42,  2.10it/s] 33%|███▎      | 16021/48008 [2:18:02<4:21:49,  2.04it/s] 33%|███▎      | 16022/48008 [2:18:03<4:20:40,  2.05it/s] 33%|███▎      | 16023/48008 [2:18:03<4:19:25,  2.05it/s] 33%|███▎      | 16024/48008 [2:18:04<4:18:35,  2.06it/s] 33%|███▎      | 16025/48008 [2:18:04<4:17:23,  2.07it/s] 33%|███▎      | 16026/48008 [2:18:05<6:05:30,  1.46it/s] 33%|███▎      | 16027/48008 [2:18:06<5:38:25,  1.58it/s] 33%|███▎      | 16028/48008 [2:18:06<5:04:48,  1.75it/s] 33%|███▎      | 16029/48008 [2:18:07<4:51:51,  1.83it/s] 33%|███▎      | 16030/48008 [2:18:07<4:41:30,  1.89it/s] 33%|███▎      | 16031/48008 [2:18:08<4:33:07,  1.95it/s] 33%|███▎      | 16032/48008 [2:18:08<4:34:04,  1.94it/s] 33%|███▎      | 16033/48008 [2:18:08<4:18:40,  2.06it/s] 33%|███▎      | 16034/48008 [2:18:09<4:08:15,  2.15it/s] 33%|███▎      | 16035/48008 [2:18:09<4:00:31,  2.22it/s] 33%|███▎      | 16036/48008 [2:18:10<3:56:01,  2.26it/s] 33%|███▎      | 16037/48008 [2:18:10<3:51:17,  2.30it/s] 33%|███▎      | 16038/48008 [2:18:11<3:59:06,  2.23it/s] 33%|███▎      | 16039/48008 [2:18:11<4:11:34,  2.12it/s] 33%|███▎      | 16040/48008 [2:18:12<4:21:21,  2.04it/s] 33%|███▎      | 16041/48008 [2:18:12<4:20:44,  2.04it/s] 33%|███▎      | 16042/48008 [2:18:13<4:20:18,  2.05it/s] 33%|███▎      | 16043/48008 [2:18:13<4:25:30,  2.01it/s] 33%|███▎      | 16044/48008 [2:18:14<4:11:34,  2.12it/s] 33%|███▎      | 16045/48008 [2:18:14<4:12:23,  2.11it/s] 33%|███▎      | 16046/48008 [2:18:15<4:04:57,  2.17it/s] 33%|███▎      | 16047/48008 [2:18:15<5:11:24,  1.71it/s] 33%|███▎      | 16048/48008 [2:18:16<5:01:28,  1.77it/s] 33%|███▎      | 16049/48008 [2:18:16<4:53:39,  1.81it/s] 33%|███▎      | 16050/48008 [2:18:17<4:31:56,  1.96it/s]                                                         {'loss': 4.2933, 'grad_norm': 0.22709450125694275, 'learning_rate': 0.00013314030994834194, 'epoch': 0.33}
 33%|███▎      | 16050/48008 [2:18:17<4:31:56,  1.96it/s] 33%|███▎      | 16051/48008 [2:18:17<4:28:22,  1.98it/s] 33%|███▎      | 16052/48008 [2:18:18<4:25:28,  2.01it/s] 33%|███▎      | 16053/48008 [2:18:18<4:12:03,  2.11it/s] 33%|███▎      | 16054/48008 [2:18:19<4:44:11,  1.87it/s] 33%|███▎      | 16055/48008 [2:18:20<5:41:20,  1.56it/s] 33%|███▎      | 16056/48008 [2:18:20<5:00:37,  1.77it/s] 33%|███▎      | 16057/48008 [2:18:21<4:51:12,  1.83it/s] 33%|███▎      | 16058/48008 [2:18:21<4:44:43,  1.87it/s] 33%|███▎      | 16059/48008 [2:18:22<4:35:42,  1.93it/s] 33%|███▎      | 16060/48008 [2:18:22<4:30:10,  1.97it/s] 33%|███▎      | 16061/48008 [2:18:23<4:32:06,  1.96it/s] 33%|███▎      | 16062/48008 [2:18:23<4:27:24,  1.99it/s] 33%|███▎      | 16063/48008 [2:18:24<4:24:19,  2.01it/s] 33%|███▎      | 16064/48008 [2:18:24<4:11:23,  2.12it/s] 33%|███▎      | 16065/48008 [2:18:25<4:12:33,  2.11it/s] 33%|███▎      | 16066/48008 [2:18:25<4:03:00,  2.19it/s] 33%|███▎      | 16067/48008 [2:18:25<4:06:47,  2.16it/s] 33%|███▎      | 16068/48008 [2:18:26<4:40:55,  1.89it/s] 33%|███▎      | 16069/48008 [2:18:27<4:43:15,  1.88it/s] 33%|███▎      | 16070/48008 [2:18:27<4:35:26,  1.93it/s] 33%|███▎      | 16071/48008 [2:18:28<4:33:36,  1.95it/s] 33%|███▎      | 16072/48008 [2:18:28<4:28:34,  1.98it/s] 33%|███▎      | 16073/48008 [2:18:29<4:28:55,  1.98it/s] 33%|███▎      | 16074/48008 [2:18:29<4:14:18,  2.09it/s] 33%|███▎      | 16075/48008 [2:18:30<4:14:35,  2.09it/s] 33%|███▎      | 16076/48008 [2:18:30<4:24:59,  2.01it/s] 33%|███▎      | 16077/48008 [2:18:31<4:22:03,  2.03it/s] 33%|███▎      | 16078/48008 [2:18:31<4:23:38,  2.02it/s] 33%|███▎      | 16079/48008 [2:18:32<4:30:47,  1.97it/s] 33%|███▎      | 16080/48008 [2:18:32<4:25:54,  2.00it/s] 33%|███▎      | 16081/48008 [2:18:33<4:28:59,  1.98it/s] 33%|███▎      | 16082/48008 [2:18:33<5:27:27,  1.62it/s] 34%|███▎      | 16083/48008 [2:18:34<4:55:30,  1.80it/s] 34%|███▎      | 16084/48008 [2:18:34<4:44:07,  1.87it/s] 34%|███▎      | 16085/48008 [2:18:35<4:36:34,  1.92it/s] 34%|███▎      | 16086/48008 [2:18:35<4:33:25,  1.95it/s] 34%|███▎      | 16087/48008 [2:18:36<4:31:32,  1.96it/s] 34%|███▎      | 16088/48008 [2:18:36<4:27:09,  1.99it/s] 34%|███▎      | 16089/48008 [2:18:37<4:33:51,  1.94it/s] 34%|███▎      | 16090/48008 [2:18:37<4:29:13,  1.98it/s] 34%|███▎      | 16091/48008 [2:18:38<4:28:31,  1.98it/s] 34%|███▎      | 16092/48008 [2:18:38<4:25:23,  2.00it/s] 34%|███▎      | 16093/48008 [2:18:39<4:22:03,  2.03it/s] 34%|███▎      | 16094/48008 [2:18:39<4:10:11,  2.13it/s] 34%|███▎      | 16095/48008 [2:18:40<4:01:31,  2.20it/s] 34%|███▎      | 16096/48008 [2:18:40<4:06:34,  2.16it/s] 34%|███▎      | 16097/48008 [2:18:41<4:19:06,  2.05it/s] 34%|███▎      | 16098/48008 [2:18:41<4:17:43,  2.06it/s] 34%|███▎      | 16099/48008 [2:18:42<4:48:36,  1.84it/s] 34%|███▎      | 16100/48008 [2:18:42<4:38:58,  1.91it/s]                                                         {'loss': 4.2664, 'grad_norm': 0.16447991132736206, 'learning_rate': 0.00013293201133144478, 'epoch': 0.34}
 34%|███▎      | 16100/48008 [2:18:42<4:38:58,  1.91it/s] 34%|███▎      | 16101/48008 [2:18:43<4:36:28,  1.92it/s] 34%|███▎      | 16102/48008 [2:18:43<4:36:38,  1.92it/s] 34%|███▎      | 16103/48008 [2:18:44<4:30:47,  1.96it/s] 34%|███▎      | 16104/48008 [2:18:44<4:31:44,  1.96it/s] 34%|███▎      | 16105/48008 [2:18:45<4:26:29,  2.00it/s] 34%|███▎      | 16106/48008 [2:18:45<4:22:41,  2.02it/s] 34%|███▎      | 16107/48008 [2:18:46<4:30:01,  1.97it/s] 34%|███▎      | 16108/48008 [2:18:46<4:29:37,  1.97it/s] 34%|███▎      | 16109/48008 [2:18:47<4:29:33,  1.97it/s] 34%|███▎      | 16110/48008 [2:18:47<4:14:19,  2.09it/s] 34%|███▎      | 16111/48008 [2:18:48<4:03:58,  2.18it/s] 34%|███▎      | 16112/48008 [2:18:48<4:10:45,  2.12it/s] 34%|███▎      | 16113/48008 [2:18:49<4:02:26,  2.19it/s] 34%|███▎      | 16114/48008 [2:18:49<4:10:59,  2.12it/s] 34%|███▎      | 16115/48008 [2:18:50<4:12:44,  2.10it/s] 34%|███▎      | 16116/48008 [2:18:50<4:02:56,  2.19it/s] 34%|███▎      | 16117/48008 [2:18:51<4:10:05,  2.13it/s] 34%|███▎      | 16118/48008 [2:18:52<7:05:02,  1.25it/s] 34%|███▎      | 16119/48008 [2:18:53<6:14:42,  1.42it/s] 34%|███▎      | 16120/48008 [2:18:53<5:28:28,  1.62it/s] 34%|███▎      | 16121/48008 [2:18:53<5:07:15,  1.73it/s] 34%|███▎      | 16122/48008 [2:18:54<4:52:12,  1.82it/s] 34%|███▎      | 16123/48008 [2:18:54<4:42:09,  1.88it/s] 34%|███▎      | 16124/48008 [2:18:56<6:52:07,  1.29it/s] 34%|███▎      | 16125/48008 [2:18:56<5:54:58,  1.50it/s] 34%|███▎      | 16126/48008 [2:18:57<5:15:08,  1.69it/s] 34%|███▎      | 16127/48008 [2:18:57<4:56:48,  1.79it/s] 34%|███▎      | 16128/48008 [2:18:58<4:48:28,  1.84it/s] 34%|███▎      | 16129/48008 [2:18:58<4:41:53,  1.88it/s] 34%|███▎      | 16130/48008 [2:18:59<6:18:28,  1.40it/s] 34%|███▎      | 16131/48008 [2:19:00<5:31:12,  1.60it/s] 34%|███▎      | 16132/48008 [2:19:00<5:11:17,  1.71it/s] 34%|███▎      | 16133/48008 [2:19:01<5:04:37,  1.74it/s] 34%|███▎      | 16134/48008 [2:19:01<4:50:52,  1.83it/s] 34%|███▎      | 16135/48008 [2:19:02<4:30:24,  1.96it/s] 34%|███▎      | 16136/48008 [2:19:02<4:26:30,  1.99it/s] 34%|███▎      | 16137/48008 [2:19:03<4:27:07,  1.99it/s] 34%|███▎      | 16138/48008 [2:19:03<4:23:52,  2.01it/s] 34%|███▎      | 16139/48008 [2:19:04<4:11:36,  2.11it/s] 34%|███▎      | 16140/48008 [2:19:04<4:13:14,  2.10it/s] 34%|███▎      | 16141/48008 [2:19:05<4:20:26,  2.04it/s] 34%|███▎      | 16142/48008 [2:19:05<4:08:44,  2.14it/s] 34%|███▎      | 16143/48008 [2:19:06<4:42:56,  1.88it/s] 34%|███▎      | 16144/48008 [2:19:06<4:37:58,  1.91it/s] 34%|███▎      | 16145/48008 [2:19:07<4:33:03,  1.94it/s] 34%|███▎      | 16146/48008 [2:19:07<4:17:20,  2.06it/s] 34%|███▎      | 16147/48008 [2:19:08<4:26:19,  1.99it/s] 34%|███▎      | 16148/48008 [2:19:08<4:23:04,  2.02it/s] 34%|███▎      | 16149/48008 [2:19:09<4:27:23,  1.99it/s] 34%|███▎      | 16150/48008 [2:19:09<4:13:31,  2.09it/s]                                                         {'loss': 4.2577, 'grad_norm': 0.17782637476921082, 'learning_rate': 0.00013272371271454757, 'epoch': 0.34}
 34%|███▎      | 16150/48008 [2:19:09<4:13:31,  2.09it/s] 34%|███▎      | 16151/48008 [2:19:09<4:04:38,  2.17it/s] 34%|███▎      | 16152/48008 [2:19:10<4:07:29,  2.15it/s] 34%|███▎      | 16153/48008 [2:19:10<4:10:04,  2.12it/s] 34%|███▎      | 16154/48008 [2:19:11<4:21:27,  2.03it/s] 34%|███▎      | 16155/48008 [2:19:11<4:19:12,  2.05it/s] 34%|███▎      | 16156/48008 [2:19:12<4:23:13,  2.02it/s] 34%|███▎      | 16157/48008 [2:19:12<4:20:15,  2.04it/s] 34%|███▎      | 16158/48008 [2:19:13<4:18:52,  2.05it/s] 34%|███▎      | 16159/48008 [2:19:13<4:21:58,  2.03it/s] 34%|███▎      | 16160/48008 [2:19:14<4:10:41,  2.12it/s] 34%|███▎      | 16161/48008 [2:19:14<4:03:02,  2.18it/s] 34%|███▎      | 16162/48008 [2:19:15<3:56:35,  2.24it/s] 34%|███▎      | 16163/48008 [2:19:16<6:05:41,  1.45it/s] 34%|███▎      | 16164/48008 [2:19:16<5:33:14,  1.59it/s] 34%|███▎      | 16165/48008 [2:19:17<5:19:19,  1.66it/s] 34%|███▎      | 16166/48008 [2:19:17<5:06:52,  1.73it/s] 34%|███▎      | 16167/48008 [2:19:18<4:51:15,  1.82it/s] 34%|███▎      | 16168/48008 [2:19:18<4:43:33,  1.87it/s] 34%|███▎      | 16169/48008 [2:19:19<4:25:02,  2.00it/s] 34%|███▎      | 16170/48008 [2:19:19<4:25:12,  2.00it/s] 34%|███▎      | 16171/48008 [2:19:20<4:22:19,  2.02it/s] 34%|███▎      | 16172/48008 [2:19:20<4:23:52,  2.01it/s] 34%|███▎      | 16173/48008 [2:19:21<4:30:39,  1.96it/s] 34%|███▎      | 16174/48008 [2:19:21<4:15:54,  2.07it/s] 34%|███▎      | 16175/48008 [2:19:22<4:47:38,  1.84it/s] 34%|███▎      | 16176/48008 [2:19:22<4:38:11,  1.91it/s] 34%|███▎      | 16177/48008 [2:19:23<4:32:20,  1.95it/s] 34%|███▎      | 16178/48008 [2:19:23<4:27:30,  1.98it/s] 34%|███▎      | 16179/48008 [2:19:24<4:22:50,  2.02it/s] 34%|███▎      | 16180/48008 [2:19:24<4:20:16,  2.04it/s] 34%|███▎      | 16181/48008 [2:19:25<4:18:12,  2.05it/s] 34%|███▎      | 16182/48008 [2:19:25<4:06:25,  2.15it/s] 34%|███▎      | 16183/48008 [2:19:26<4:09:03,  2.13it/s] 34%|███▎      | 16184/48008 [2:19:26<4:11:42,  2.11it/s] 34%|███▎      | 16185/48008 [2:19:27<4:13:26,  2.09it/s] 34%|███▎      | 16186/48008 [2:19:27<4:19:24,  2.04it/s] 34%|███▎      | 16187/48008 [2:19:28<4:18:44,  2.05it/s] 34%|███▎      | 16188/48008 [2:19:29<5:19:58,  1.66it/s] 34%|███▎      | 16189/48008 [2:19:29<5:04:31,  1.74it/s] 34%|███▎      | 16190/48008 [2:19:30<5:19:59,  1.66it/s] 34%|███▎      | 16191/48008 [2:19:30<5:06:28,  1.73it/s] 34%|███▎      | 16192/48008 [2:19:31<4:57:15,  1.78it/s] 34%|███▎      | 16193/48008 [2:19:31<4:43:49,  1.87it/s] 34%|███▎      | 16194/48008 [2:19:32<4:19:11,  2.05it/s] 34%|███▎      | 16195/48008 [2:19:32<4:18:17,  2.05it/s] 34%|███▎      | 16196/48008 [2:19:33<4:17:29,  2.06it/s] 34%|███▎      | 16197/48008 [2:19:33<4:16:44,  2.07it/s] 34%|███▎      | 16198/48008 [2:19:33<4:00:30,  2.20it/s] 34%|███▎      | 16199/48008 [2:19:34<3:53:52,  2.27it/s] 34%|███▎      | 16200/48008 [2:19:34<4:00:22,  2.21it/s]                                                         {'loss': 4.257, 'grad_norm': 0.1501571089029312, 'learning_rate': 0.0001325154140976504, 'epoch': 0.34}
 34%|███▎      | 16200/48008 [2:19:34<4:00:22,  2.21it/s] 34%|███▎      | 16201/48008 [2:19:35<4:04:07,  2.17it/s] 34%|███▎      | 16202/48008 [2:19:35<4:07:49,  2.14it/s] 34%|███▍      | 16203/48008 [2:19:36<4:11:42,  2.11it/s] 34%|███▍      | 16204/48008 [2:19:36<4:03:39,  2.18it/s] 34%|███▍      | 16205/48008 [2:19:37<4:06:47,  2.15it/s] 34%|███▍      | 16206/48008 [2:19:37<4:13:43,  2.09it/s] 34%|███▍      | 16207/48008 [2:19:38<4:21:00,  2.03it/s] 34%|███▍      | 16208/48008 [2:19:38<4:20:44,  2.03it/s] 34%|███▍      | 16209/48008 [2:19:39<4:25:41,  1.99it/s] 34%|███▍      | 16210/48008 [2:19:40<5:25:25,  1.63it/s] 34%|███▍      | 16211/48008 [2:19:40<5:05:36,  1.73it/s] 34%|███▍      | 16212/48008 [2:19:41<4:55:41,  1.79it/s] 34%|███▍      | 16213/48008 [2:19:41<4:46:38,  1.85it/s] 34%|███▍      | 16214/48008 [2:19:42<6:39:22,  1.33it/s] 34%|███▍      | 16215/48008 [2:19:43<5:46:13,  1.53it/s] 34%|███▍      | 16216/48008 [2:19:43<5:26:50,  1.62it/s] 34%|███▍      | 16217/48008 [2:19:44<5:05:55,  1.73it/s] 34%|███▍      | 16218/48008 [2:19:44<4:50:31,  1.82it/s] 34%|███▍      | 16219/48008 [2:19:45<4:40:25,  1.89it/s] 34%|███▍      | 16220/48008 [2:19:45<4:33:41,  1.94it/s] 34%|███▍      | 16221/48008 [2:19:46<4:28:31,  1.97it/s] 34%|███▍      | 16222/48008 [2:19:46<4:14:33,  2.08it/s] 34%|███▍      | 16223/48008 [2:19:47<4:15:45,  2.07it/s] 34%|███▍      | 16224/48008 [2:19:47<4:05:07,  2.16it/s] 34%|███▍      | 16225/48008 [2:19:48<4:09:37,  2.12it/s] 34%|███▍      | 16226/48008 [2:19:48<4:11:06,  2.11it/s] 34%|███▍      | 16227/48008 [2:19:49<4:15:28,  2.07it/s] 34%|███▍      | 16228/48008 [2:19:49<4:14:58,  2.08it/s] 34%|███▍      | 16229/48008 [2:19:50<4:13:59,  2.09it/s] 34%|███▍      | 16230/48008 [2:19:50<3:59:06,  2.22it/s] 34%|███▍      | 16231/48008 [2:19:50<4:09:06,  2.13it/s] 34%|███▍      | 16232/48008 [2:19:51<4:14:06,  2.08it/s] 34%|███▍      | 16233/48008 [2:19:51<4:16:14,  2.07it/s] 34%|███▍      | 16234/48008 [2:19:52<4:15:48,  2.07it/s] 34%|███▍      | 16235/48008 [2:19:52<4:16:24,  2.07it/s] 34%|███▍      | 16236/48008 [2:19:53<4:16:05,  2.07it/s] 34%|███▍      | 16237/48008 [2:19:53<4:15:35,  2.07it/s] 34%|███▍      | 16238/48008 [2:19:54<4:15:05,  2.08it/s] 34%|███▍      | 16239/48008 [2:19:54<4:16:12,  2.07it/s] 34%|███▍      | 16240/48008 [2:19:55<4:15:59,  2.07it/s] 34%|███▍      | 16241/48008 [2:19:55<4:14:49,  2.08it/s] 34%|███▍      | 16242/48008 [2:19:56<4:19:12,  2.04it/s] 34%|███▍      | 16243/48008 [2:19:56<4:19:08,  2.04it/s] 34%|███▍      | 16244/48008 [2:19:57<4:17:54,  2.05it/s] 34%|███▍      | 16245/48008 [2:19:57<4:17:38,  2.05it/s] 34%|███▍      | 16246/48008 [2:19:58<4:17:04,  2.06it/s] 34%|███▍      | 16247/48008 [2:19:58<4:22:56,  2.01it/s] 34%|███▍      | 16248/48008 [2:19:59<4:26:17,  1.99it/s] 34%|███▍      | 16249/48008 [2:19:59<4:28:09,  1.97it/s] 34%|███▍      | 16250/48008 [2:20:00<4:27:54,  1.98it/s]                                                         {'loss': 4.2838, 'grad_norm': 0.122748002409935, 'learning_rate': 0.0001323071154807532, 'epoch': 0.34}
 34%|███▍      | 16250/48008 [2:20:00<4:27:54,  1.98it/s] 34%|███▍      | 16251/48008 [2:20:00<4:28:08,  1.97it/s] 34%|███▍      | 16252/48008 [2:20:01<4:56:33,  1.78it/s] 34%|███▍      | 16253/48008 [2:20:01<4:33:14,  1.94it/s] 34%|███▍      | 16254/48008 [2:20:02<4:17:58,  2.05it/s] 34%|███▍      | 16255/48008 [2:20:02<4:17:13,  2.06it/s] 34%|███▍      | 16256/48008 [2:20:03<4:16:45,  2.06it/s] 34%|███▍      | 16257/48008 [2:20:03<4:15:05,  2.07it/s] 34%|███▍      | 16258/48008 [2:20:04<4:24:33,  2.00it/s] 34%|███▍      | 16259/48008 [2:20:04<4:10:41,  2.11it/s] 34%|███▍      | 16260/48008 [2:20:05<4:01:50,  2.19it/s] 34%|███▍      | 16261/48008 [2:20:05<4:13:02,  2.09it/s] 34%|███▍      | 16262/48008 [2:20:06<4:14:06,  2.08it/s] 34%|███▍      | 16263/48008 [2:20:06<4:14:43,  2.08it/s] 34%|███▍      | 16264/48008 [2:20:07<4:14:57,  2.08it/s] 34%|███▍      | 16265/48008 [2:20:07<4:18:56,  2.04it/s] 34%|███▍      | 16266/48008 [2:20:08<4:21:44,  2.02it/s] 34%|███▍      | 16267/48008 [2:20:08<4:19:27,  2.04it/s] 34%|███▍      | 16268/48008 [2:20:09<4:08:06,  2.13it/s] 34%|███▍      | 16269/48008 [2:20:09<4:15:56,  2.07it/s] 34%|███▍      | 16270/48008 [2:20:10<4:14:59,  2.07it/s] 34%|███▍      | 16271/48008 [2:20:10<4:18:32,  2.05it/s] 34%|███▍      | 16272/48008 [2:20:11<4:17:04,  2.06it/s] 34%|███▍      | 16273/48008 [2:20:11<4:15:28,  2.07it/s] 34%|███▍      | 16274/48008 [2:20:11<4:15:35,  2.07it/s] 34%|███▍      | 16275/48008 [2:20:12<4:15:15,  2.07it/s] 34%|███▍      | 16276/48008 [2:20:12<4:14:46,  2.08it/s] 34%|███▍      | 16277/48008 [2:20:13<4:04:54,  2.16it/s] 34%|███▍      | 16278/48008 [2:20:13<4:14:34,  2.08it/s] 34%|███▍      | 16279/48008 [2:20:14<4:17:48,  2.05it/s] 34%|███▍      | 16280/48008 [2:20:14<4:16:49,  2.06it/s] 34%|███▍      | 16281/48008 [2:20:15<4:20:36,  2.03it/s] 34%|███▍      | 16282/48008 [2:20:15<4:07:47,  2.13it/s] 34%|███▍      | 16283/48008 [2:20:16<3:59:01,  2.21it/s] 34%|███▍      | 16284/48008 [2:20:16<4:03:19,  2.17it/s] 34%|███▍      | 16285/48008 [2:20:17<4:11:27,  2.10it/s] 34%|███▍      | 16286/48008 [2:20:17<4:13:39,  2.08it/s] 34%|███▍      | 16287/48008 [2:20:18<4:19:43,  2.04it/s] 34%|███▍      | 16288/48008 [2:20:18<4:21:01,  2.03it/s] 34%|███▍      | 16289/48008 [2:20:19<6:21:45,  1.38it/s] 34%|███▍      | 16290/48008 [2:20:20<5:34:15,  1.58it/s] 34%|███▍      | 16291/48008 [2:20:20<5:00:34,  1.76it/s] 34%|███▍      | 16292/48008 [2:20:21<4:55:20,  1.79it/s] 34%|███▍      | 16293/48008 [2:20:22<6:45:35,  1.30it/s] 34%|███▍      | 16294/48008 [2:20:23<6:00:25,  1.47it/s] 34%|███▍      | 16295/48008 [2:20:24<7:31:08,  1.17it/s] 34%|███▍      | 16296/48008 [2:20:24<6:32:14,  1.35it/s] 34%|███▍      | 16297/48008 [2:20:25<6:00:05,  1.47it/s] 34%|███▍      | 16298/48008 [2:20:25<5:29:47,  1.60it/s] 34%|███▍      | 16299/48008 [2:20:26<5:12:27,  1.69it/s] 34%|███▍      | 16300/48008 [2:20:26<4:55:03,  1.79it/s]                                                         {'loss': 4.2227, 'grad_norm': 0.17360128462314606, 'learning_rate': 0.00013209881686385602, 'epoch': 0.34}
 34%|███▍      | 16300/48008 [2:20:26<4:55:03,  1.79it/s] 34%|███▍      | 16301/48008 [2:20:27<4:44:00,  1.86it/s] 34%|███▍      | 16302/48008 [2:20:27<4:34:46,  1.92it/s] 34%|███▍      | 16303/48008 [2:20:28<4:30:11,  1.96it/s] 34%|███▍      | 16304/48008 [2:20:28<4:31:40,  1.94it/s] 34%|███▍      | 16305/48008 [2:20:29<4:30:46,  1.95it/s] 34%|███▍      | 16306/48008 [2:20:29<4:26:18,  1.98it/s] 34%|███▍      | 16307/48008 [2:20:30<4:23:36,  2.00it/s] 34%|███▍      | 16308/48008 [2:20:30<4:24:58,  1.99it/s] 34%|███▍      | 16309/48008 [2:20:31<4:21:53,  2.02it/s] 34%|███▍      | 16310/48008 [2:20:31<4:19:07,  2.04it/s] 34%|███▍      | 16311/48008 [2:20:32<4:23:37,  2.00it/s] 34%|███▍      | 16312/48008 [2:20:32<4:24:51,  1.99it/s] 34%|███▍      | 16313/48008 [2:20:33<4:11:46,  2.10it/s] 34%|███▍      | 16314/48008 [2:20:33<4:18:50,  2.04it/s] 34%|███▍      | 16315/48008 [2:20:34<4:23:37,  2.00it/s] 34%|███▍      | 16316/48008 [2:20:34<4:21:29,  2.02it/s] 34%|███▍      | 16317/48008 [2:20:35<4:09:08,  2.12it/s] 34%|███▍      | 16318/48008 [2:20:36<6:12:28,  1.42it/s] 34%|███▍      | 16319/48008 [2:20:36<5:47:41,  1.52it/s] 34%|███▍      | 16320/48008 [2:20:37<5:23:45,  1.63it/s] 34%|███▍      | 16321/48008 [2:20:37<5:07:51,  1.72it/s] 34%|███▍      | 16322/48008 [2:20:38<4:56:01,  1.78it/s] 34%|███▍      | 16323/48008 [2:20:38<4:43:47,  1.86it/s] 34%|███▍      | 16324/48008 [2:20:39<4:34:26,  1.92it/s] 34%|███▍      | 16325/48008 [2:20:40<5:32:10,  1.59it/s] 34%|███▍      | 16326/48008 [2:20:40<5:11:57,  1.69it/s] 34%|███▍      | 16327/48008 [2:20:41<4:59:25,  1.76it/s] 34%|███▍      | 16328/48008 [2:20:42<5:17:17,  1.66it/s] 34%|███▍      | 16329/48008 [2:20:42<5:28:49,  1.61it/s] 34%|███▍      | 16330/48008 [2:20:43<5:09:50,  1.70it/s] 34%|███▍      | 16331/48008 [2:20:43<4:53:34,  1.80it/s] 34%|███▍      | 16332/48008 [2:20:44<4:50:50,  1.82it/s] 34%|███▍      | 16333/48008 [2:20:44<4:39:26,  1.89it/s] 34%|███▍      | 16334/48008 [2:20:45<4:31:37,  1.94it/s] 34%|███▍      | 16335/48008 [2:20:45<4:30:31,  1.95it/s] 34%|███▍      | 16336/48008 [2:20:46<4:14:43,  2.07it/s] 34%|███▍      | 16337/48008 [2:20:46<4:14:37,  2.07it/s] 34%|███▍      | 16338/48008 [2:20:46<4:04:00,  2.16it/s] 34%|███▍      | 16339/48008 [2:20:47<3:56:35,  2.23it/s] 34%|███▍      | 16340/48008 [2:20:48<4:31:45,  1.94it/s] 34%|███▍      | 16341/48008 [2:20:48<4:27:16,  1.97it/s] 34%|███▍      | 16342/48008 [2:20:49<4:26:36,  1.98it/s] 34%|███▍      | 16343/48008 [2:20:49<4:22:36,  2.01it/s] 34%|███▍      | 16344/48008 [2:20:50<4:25:13,  1.99it/s] 34%|███▍      | 16345/48008 [2:20:50<4:21:39,  2.02it/s] 34%|███▍      | 16346/48008 [2:20:51<4:18:17,  2.04it/s] 34%|███▍      | 16347/48008 [2:20:51<4:06:49,  2.14it/s] 34%|███▍      | 16348/48008 [2:20:51<4:12:56,  2.09it/s] 34%|███▍      | 16349/48008 [2:20:52<4:13:23,  2.08it/s] 34%|███▍      | 16350/48008 [2:20:52<4:17:32,  2.05it/s]                                                         {'loss': 4.2813, 'grad_norm': 0.17485061287879944, 'learning_rate': 0.00013189051824695884, 'epoch': 0.34}
 34%|███▍      | 16350/48008 [2:20:52<4:17:32,  2.05it/s] 34%|███▍      | 16351/48008 [2:20:53<4:16:41,  2.06it/s] 34%|███▍      | 16352/48008 [2:20:54<5:18:21,  1.66it/s] 34%|███▍      | 16353/48008 [2:20:54<4:48:10,  1.83it/s] 34%|███▍      | 16354/48008 [2:20:55<4:38:16,  1.90it/s] 34%|███▍      | 16355/48008 [2:20:55<4:39:44,  1.89it/s] 34%|███▍      | 16356/48008 [2:20:56<4:32:22,  1.94it/s] 34%|███▍      | 16357/48008 [2:20:57<5:29:35,  1.60it/s] 34%|███▍      | 16358/48008 [2:20:57<5:11:08,  1.70it/s] 34%|███▍      | 16359/48008 [2:20:58<4:57:12,  1.77it/s] 34%|███▍      | 16360/48008 [2:20:58<4:47:32,  1.83it/s] 34%|███▍      | 16361/48008 [2:20:59<4:43:51,  1.86it/s] 34%|███▍      | 16362/48008 [2:20:59<4:34:47,  1.92it/s] 34%|███▍      | 16363/48008 [2:21:00<4:35:04,  1.92it/s] 34%|███▍      | 16364/48008 [2:21:00<4:29:23,  1.96it/s] 34%|███▍      | 16365/48008 [2:21:01<4:25:03,  1.99it/s] 34%|███▍      | 16366/48008 [2:21:01<4:21:15,  2.02it/s] 34%|███▍      | 16367/48008 [2:21:02<4:18:46,  2.04it/s] 34%|███▍      | 16368/48008 [2:21:02<4:20:55,  2.02it/s] 34%|███▍      | 16369/48008 [2:21:03<6:20:34,  1.39it/s] 34%|███▍      | 16370/48008 [2:21:04<5:41:49,  1.54it/s] 34%|███▍      | 16371/48008 [2:21:04<5:19:22,  1.65it/s] 34%|███▍      | 16372/48008 [2:21:05<4:49:29,  1.82it/s] 34%|███▍      | 16373/48008 [2:21:05<4:38:22,  1.89it/s] 34%|███▍      | 16374/48008 [2:21:06<4:30:43,  1.95it/s] 34%|███▍      | 16375/48008 [2:21:06<4:31:20,  1.94it/s] 34%|███▍      | 16376/48008 [2:21:07<6:29:35,  1.35it/s] 34%|███▍      | 16377/48008 [2:21:08<5:52:24,  1.50it/s] 34%|███▍      | 16378/48008 [2:21:08<5:12:42,  1.69it/s] 34%|███▍      | 16379/48008 [2:21:09<4:54:29,  1.79it/s] 34%|███▍      | 16380/48008 [2:21:09<4:42:19,  1.87it/s] 34%|███▍      | 16381/48008 [2:21:10<4:40:45,  1.88it/s] 34%|███▍      | 16382/48008 [2:21:10<4:22:24,  2.01it/s] 34%|███▍      | 16383/48008 [2:21:11<4:28:36,  1.96it/s] 34%|███▍      | 16384/48008 [2:21:11<4:27:37,  1.97it/s] 34%|███▍      | 16385/48008 [2:21:12<4:12:51,  2.08it/s] 34%|███▍      | 16386/48008 [2:21:12<4:18:54,  2.04it/s] 34%|███▍      | 16387/48008 [2:21:13<4:07:11,  2.13it/s] 34%|███▍      | 16388/48008 [2:21:13<3:59:28,  2.20it/s] 34%|███▍      | 16389/48008 [2:21:14<4:04:20,  2.16it/s] 34%|███▍      | 16390/48008 [2:21:14<3:56:33,  2.23it/s] 34%|███▍      | 16391/48008 [2:21:14<4:02:37,  2.17it/s] 34%|███▍      | 16392/48008 [2:21:15<4:11:41,  2.09it/s] 34%|███▍      | 16393/48008 [2:21:16<4:22:09,  2.01it/s] 34%|███▍      | 16394/48008 [2:21:16<4:09:01,  2.12it/s] 34%|███▍      | 16395/48008 [2:21:16<4:09:27,  2.11it/s] 34%|███▍      | 16396/48008 [2:21:17<4:13:57,  2.07it/s] 34%|███▍      | 16397/48008 [2:21:17<4:14:24,  2.07it/s] 34%|███▍      | 16398/48008 [2:21:18<4:03:32,  2.16it/s] 34%|███▍      | 16399/48008 [2:21:18<4:06:25,  2.14it/s] 34%|███▍      | 16400/48008 [2:21:19<4:08:45,  2.12it/s]                                                         {'loss': 4.2641, 'grad_norm': 0.36251434683799744, 'learning_rate': 0.00013168221963006166, 'epoch': 0.34}
 34%|███▍      | 16400/48008 [2:21:19<4:08:45,  2.12it/s] 34%|███▍      | 16401/48008 [2:21:19<4:16:03,  2.06it/s] 34%|███▍      | 16402/48008 [2:21:20<4:46:43,  1.84it/s] 34%|███▍      | 16403/48008 [2:21:21<4:45:41,  1.84it/s] 34%|███▍      | 16404/48008 [2:21:21<4:36:02,  1.91it/s] 34%|███▍      | 16405/48008 [2:21:21<4:19:27,  2.03it/s] 34%|███▍      | 16406/48008 [2:21:22<4:21:45,  2.01it/s] 34%|███▍      | 16407/48008 [2:21:22<4:19:02,  2.03it/s] 34%|███▍      | 16408/48008 [2:21:23<4:17:39,  2.04it/s] 34%|███▍      | 16409/48008 [2:21:23<4:19:50,  2.03it/s] 34%|███▍      | 16410/48008 [2:21:24<4:07:45,  2.13it/s] 34%|███▍      | 16411/48008 [2:21:24<3:58:56,  2.20it/s] 34%|███▍      | 16412/48008 [2:21:25<4:03:52,  2.16it/s] 34%|███▍      | 16413/48008 [2:21:25<4:06:03,  2.14it/s] 34%|███▍      | 16414/48008 [2:21:26<3:58:31,  2.21it/s] 34%|███▍      | 16415/48008 [2:21:26<4:06:21,  2.14it/s] 34%|███▍      | 16416/48008 [2:21:27<4:07:41,  2.13it/s] 34%|███▍      | 16417/48008 [2:21:27<4:09:33,  2.11it/s] 34%|███▍      | 16418/48008 [2:21:28<4:14:05,  2.07it/s] 34%|███▍      | 16419/48008 [2:21:28<4:17:09,  2.05it/s] 34%|███▍      | 16420/48008 [2:21:29<4:17:08,  2.05it/s] 34%|███▍      | 16421/48008 [2:21:29<4:15:58,  2.06it/s] 34%|███▍      | 16422/48008 [2:21:30<4:19:31,  2.03it/s] 34%|███▍      | 16423/48008 [2:21:30<4:07:36,  2.13it/s] 34%|███▍      | 16424/48008 [2:21:30<4:14:58,  2.06it/s] 34%|███▍      | 16425/48008 [2:21:31<4:22:15,  2.01it/s] 34%|███▍      | 16426/48008 [2:21:32<4:24:59,  1.99it/s] 34%|███▍      | 16427/48008 [2:21:32<4:20:46,  2.02it/s] 34%|███▍      | 16428/48008 [2:21:32<4:17:34,  2.04it/s] 34%|███▍      | 16429/48008 [2:21:33<4:06:20,  2.14it/s] 34%|███▍      | 16430/48008 [2:21:33<4:08:14,  2.12it/s] 34%|███▍      | 16431/48008 [2:21:34<3:59:11,  2.20it/s] 34%|███▍      | 16432/48008 [2:21:34<4:06:37,  2.13it/s] 34%|███▍      | 16433/48008 [2:21:35<4:08:05,  2.12it/s] 34%|███▍      | 16434/48008 [2:21:35<4:39:32,  1.88it/s] 34%|███▍      | 16435/48008 [2:21:36<4:37:52,  1.89it/s] 34%|███▍      | 16436/48008 [2:21:36<4:36:23,  1.90it/s] 34%|███▍      | 16437/48008 [2:21:37<4:32:51,  1.93it/s] 34%|███▍      | 16438/48008 [2:21:37<4:27:01,  1.97it/s] 34%|███▍      | 16439/48008 [2:21:38<4:06:42,  2.13it/s] 34%|███▍      | 16440/48008 [2:21:38<3:58:30,  2.21it/s] 34%|███▍      | 16441/48008 [2:21:39<4:08:50,  2.11it/s] 34%|███▍      | 16442/48008 [2:21:39<4:09:35,  2.11it/s] 34%|███▍      | 16443/48008 [2:21:40<4:09:41,  2.11it/s] 34%|███▍      | 16444/48008 [2:21:40<4:16:29,  2.05it/s] 34%|███▍      | 16445/48008 [2:21:41<5:17:08,  1.66it/s] 34%|███▍      | 16446/48008 [2:21:42<5:01:06,  1.75it/s] 34%|███▍      | 16447/48008 [2:21:42<4:46:33,  1.84it/s] 34%|███▍      | 16448/48008 [2:21:43<4:39:13,  1.88it/s] 34%|███▍      | 16449/48008 [2:21:43<4:35:13,  1.91it/s] 34%|███▍      | 16450/48008 [2:21:44<4:32:08,  1.93it/s]                                                         {'loss': 4.2661, 'grad_norm': 0.1007075235247612, 'learning_rate': 0.00013147392101316448, 'epoch': 0.34}
 34%|███▍      | 16450/48008 [2:21:44<4:32:08,  1.93it/s] 34%|███▍      | 16451/48008 [2:21:44<4:30:01,  1.95it/s] 34%|███▍      | 16452/48008 [2:21:45<4:24:46,  1.99it/s] 34%|███▍      | 16453/48008 [2:21:45<4:21:45,  2.01it/s] 34%|███▍      | 16454/48008 [2:21:46<4:22:25,  2.00it/s] 34%|███▍      | 16455/48008 [2:21:46<4:19:51,  2.02it/s] 34%|███▍      | 16456/48008 [2:21:47<4:26:22,  1.97it/s] 34%|███▍      | 16457/48008 [2:21:47<4:21:51,  2.01it/s] 34%|███▍      | 16458/48008 [2:21:48<4:24:47,  1.99it/s] 34%|███▍      | 16459/48008 [2:21:48<4:10:52,  2.10it/s] 34%|███▍      | 16460/48008 [2:21:48<4:01:12,  2.18it/s] 34%|███▍      | 16461/48008 [2:21:49<4:03:43,  2.16it/s] 34%|███▍      | 16462/48008 [2:21:49<4:06:02,  2.14it/s] 34%|███▍      | 16463/48008 [2:21:50<4:13:28,  2.07it/s] 34%|███▍      | 16464/48008 [2:21:50<4:13:29,  2.07it/s] 34%|███▍      | 16465/48008 [2:21:51<4:17:08,  2.04it/s] 34%|███▍      | 16466/48008 [2:21:51<4:05:25,  2.14it/s] 34%|███▍      | 16467/48008 [2:21:52<4:06:47,  2.13it/s] 34%|███▍      | 16468/48008 [2:21:52<3:58:08,  2.21it/s] 34%|███▍      | 16469/48008 [2:21:53<4:02:17,  2.17it/s] 34%|███▍      | 16470/48008 [2:21:53<4:12:11,  2.08it/s] 34%|███▍      | 16471/48008 [2:21:54<4:12:48,  2.08it/s] 34%|███▍      | 16472/48008 [2:21:54<4:13:21,  2.07it/s] 34%|███▍      | 16473/48008 [2:21:55<4:12:53,  2.08it/s] 34%|███▍      | 16474/48008 [2:21:55<4:21:24,  2.01it/s] 34%|███▍      | 16475/48008 [2:21:56<4:18:13,  2.04it/s] 34%|███▍      | 16476/48008 [2:21:56<4:20:12,  2.02it/s] 34%|███▍      | 16477/48008 [2:21:57<4:23:45,  1.99it/s] 34%|███▍      | 16478/48008 [2:21:57<4:51:32,  1.80it/s] 34%|███▍      | 16479/48008 [2:21:58<4:43:47,  1.85it/s] 34%|███▍      | 16480/48008 [2:21:58<4:34:16,  1.92it/s] 34%|███▍      | 16481/48008 [2:21:59<4:27:18,  1.97it/s] 34%|███▍      | 16482/48008 [2:21:59<4:29:32,  1.95it/s] 34%|███▍      | 16483/48008 [2:22:00<4:30:02,  1.95it/s] 34%|███▍      | 16484/48008 [2:22:00<4:24:42,  1.98it/s] 34%|███▍      | 16485/48008 [2:22:01<4:10:53,  2.09it/s] 34%|███▍      | 16486/48008 [2:22:01<4:00:56,  2.18it/s] 34%|███▍      | 16487/48008 [2:22:02<4:34:23,  1.91it/s] 34%|███▍      | 16488/48008 [2:22:02<4:36:51,  1.90it/s] 34%|███▍      | 16489/48008 [2:22:03<4:29:45,  1.95it/s] 34%|███▍      | 16490/48008 [2:22:03<4:33:23,  1.92it/s] 34%|███▍      | 16491/48008 [2:22:04<4:26:15,  1.97it/s] 34%|███▍      | 16492/48008 [2:22:04<4:11:45,  2.09it/s] 34%|███▍      | 16493/48008 [2:22:05<4:17:23,  2.04it/s] 34%|███▍      | 16494/48008 [2:22:05<4:15:57,  2.05it/s] 34%|███▍      | 16495/48008 [2:22:06<4:15:20,  2.06it/s] 34%|███▍      | 16496/48008 [2:22:06<4:03:49,  2.15it/s] 34%|███▍      | 16497/48008 [2:22:07<4:06:01,  2.13it/s] 34%|███▍      | 16498/48008 [2:22:07<4:11:24,  2.09it/s] 34%|███▍      | 16499/48008 [2:22:08<4:01:02,  2.18it/s] 34%|███▍      | 16500/48008 [2:22:08<4:04:07,  2.15it/s]                                                         {'loss': 4.2274, 'grad_norm': 0.10062452405691147, 'learning_rate': 0.0001312656223962673, 'epoch': 0.34} 34%|███▍      | 16500/48008 [2:22:08<4:04:07,  2.15it/s]
 34%|███▍      | 16501/48008 [2:22:09<4:10:10,  2.10it/s] 34%|███▍      | 16502/48008 [2:22:09<4:16:44,  2.05it/s] 34%|███▍      | 16503/48008 [2:22:10<4:24:23,  1.99it/s] 34%|███▍      | 16504/48008 [2:22:10<4:20:52,  2.01it/s] 34%|███▍      | 16505/48008 [2:22:11<4:17:31,  2.04it/s] 34%|███▍      | 16506/48008 [2:22:11<4:15:38,  2.05it/s] 34%|███▍      | 16507/48008 [2:22:12<4:14:17,  2.06it/s] 34%|███▍      | 16508/48008 [2:22:12<4:17:11,  2.04it/s] 34%|███▍      | 16509/48008 [2:22:13<4:45:37,  1.84it/s] 34%|███▍      | 16510/48008 [2:22:13<4:36:13,  1.90it/s] 34%|███▍      | 16511/48008 [2:22:14<4:37:59,  1.89it/s] 34%|███▍      | 16512/48008 [2:22:14<4:20:03,  2.02it/s] 34%|███▍      | 16513/48008 [2:22:15<4:21:38,  2.01it/s] 34%|███▍      | 16514/48008 [2:22:15<4:22:43,  2.00it/s] 34%|███▍      | 16515/48008 [2:22:16<4:09:15,  2.11it/s] 34%|███▍      | 16516/48008 [2:22:16<3:59:52,  2.19it/s] 34%|███▍      | 16517/48008 [2:22:16<4:03:40,  2.15it/s] 34%|███▍      | 16518/48008 [2:22:17<4:11:39,  2.09it/s] 34%|███▍      | 16519/48008 [2:22:17<4:11:20,  2.09it/s] 34%|███▍      | 16520/48008 [2:22:18<4:11:43,  2.08it/s] 34%|███▍      | 16521/48008 [2:22:18<4:01:33,  2.17it/s] 34%|███▍      | 16522/48008 [2:22:19<4:14:03,  2.07it/s] 34%|███▍      | 16523/48008 [2:22:19<4:12:56,  2.07it/s] 34%|███▍      | 16524/48008 [2:22:20<4:18:51,  2.03it/s] 34%|███▍      | 16525/48008 [2:22:20<4:20:20,  2.02it/s] 34%|███▍      | 16526/48008 [2:22:21<4:23:52,  1.99it/s] 34%|███▍      | 16527/48008 [2:22:21<4:23:43,  1.99it/s] 34%|███▍      | 16528/48008 [2:22:22<4:29:01,  1.95it/s] 34%|███▍      | 16529/48008 [2:22:22<4:24:11,  1.99it/s] 34%|███▍      | 16530/48008 [2:22:23<4:26:49,  1.97it/s] 34%|███▍      | 16531/48008 [2:22:23<4:22:17,  2.00it/s] 34%|███▍      | 16532/48008 [2:22:24<4:22:43,  2.00it/s] 34%|███▍      | 16533/48008 [2:22:24<4:09:14,  2.10it/s] 34%|███▍      | 16534/48008 [2:22:25<4:00:22,  2.18it/s] 34%|███▍      | 16535/48008 [2:22:25<4:07:52,  2.12it/s] 34%|███▍      | 16536/48008 [2:22:26<4:14:48,  2.06it/s] 34%|███▍      | 16537/48008 [2:22:26<4:14:08,  2.06it/s] 34%|███▍      | 16538/48008 [2:22:27<4:13:15,  2.07it/s] 34%|███▍      | 16539/48008 [2:22:27<4:11:58,  2.08it/s] 34%|███▍      | 16540/48008 [2:22:28<4:12:19,  2.08it/s] 34%|███▍      | 16541/48008 [2:22:29<5:14:41,  1.67it/s] 34%|███▍      | 16542/48008 [2:22:29<5:01:46,  1.74it/s] 34%|███▍      | 16543/48008 [2:22:30<4:57:34,  1.76it/s] 34%|███▍      | 16544/48008 [2:22:30<4:33:30,  1.92it/s] 34%|███▍      | 16545/48008 [2:22:31<4:37:02,  1.89it/s] 34%|███▍      | 16546/48008 [2:22:31<4:33:08,  1.92it/s] 34%|███▍      | 16547/48008 [2:22:32<4:36:43,  1.89it/s] 34%|███▍      | 16548/48008 [2:22:32<4:39:36,  1.88it/s] 34%|███▍      | 16549/48008 [2:22:33<4:38:19,  1.88it/s] 34%|███▍      | 16550/48008 [2:22:33<4:29:50,  1.94it/s]                                                         {'loss': 4.2741, 'grad_norm': 0.12324006855487823, 'learning_rate': 0.0001310573237793701, 'epoch': 0.34}
 34%|███▍      | 16550/48008 [2:22:33<4:29:50,  1.94it/s] 34%|███▍      | 16551/48008 [2:22:34<4:25:17,  1.98it/s] 34%|███▍      | 16552/48008 [2:22:34<4:11:25,  2.09it/s] 34%|███▍      | 16553/48008 [2:22:35<4:14:56,  2.06it/s] 34%|███▍      | 16554/48008 [2:22:35<4:20:04,  2.02it/s] 34%|███▍      | 16555/48008 [2:22:36<4:07:46,  2.12it/s] 34%|███▍      | 16556/48008 [2:22:36<3:59:32,  2.19it/s] 34%|███▍      | 16557/48008 [2:22:36<4:06:29,  2.13it/s] 34%|███▍      | 16558/48008 [2:22:37<4:11:56,  2.08it/s] 34%|███▍      | 16559/48008 [2:22:37<4:12:21,  2.08it/s] 34%|███▍      | 16560/48008 [2:22:38<4:21:04,  2.01it/s] 34%|███▍      | 16561/48008 [2:22:38<4:18:26,  2.03it/s] 34%|███▍      | 16562/48008 [2:22:39<4:16:14,  2.05it/s] 35%|███▍      | 16563/48008 [2:22:39<4:15:31,  2.05it/s] 35%|███▍      | 16564/48008 [2:22:40<3:58:49,  2.19it/s] 35%|███▍      | 16565/48008 [2:22:40<4:32:34,  1.92it/s] 35%|███▍      | 16566/48008 [2:22:41<4:30:10,  1.94it/s] 35%|███▍      | 16567/48008 [2:22:41<4:14:10,  2.06it/s] 35%|███▍      | 16568/48008 [2:22:42<4:13:27,  2.07it/s] 35%|███▍      | 16569/48008 [2:22:43<6:15:00,  1.40it/s] 35%|███▍      | 16570/48008 [2:22:44<5:37:24,  1.55it/s] 35%|███▍      | 16571/48008 [2:22:44<5:11:58,  1.68it/s] 35%|███▍      | 16572/48008 [2:22:45<4:58:22,  1.76it/s] 35%|███▍      | 16573/48008 [2:22:45<4:50:21,  1.80it/s] 35%|███▍      | 16574/48008 [2:22:46<4:42:16,  1.86it/s] 35%|███▍      | 16575/48008 [2:22:46<4:32:40,  1.92it/s] 35%|███▍      | 16576/48008 [2:22:47<4:26:32,  1.97it/s] 35%|███▍      | 16577/48008 [2:22:47<4:22:44,  1.99it/s] 35%|███▍      | 16578/48008 [2:22:47<4:09:29,  2.10it/s] 35%|███▍      | 16579/48008 [2:22:48<4:18:56,  2.02it/s] 35%|███▍      | 16580/48008 [2:22:49<4:16:23,  2.04it/s] 35%|███▍      | 16581/48008 [2:22:49<4:04:59,  2.14it/s] 35%|███▍      | 16582/48008 [2:22:49<4:12:48,  2.07it/s] 35%|███▍      | 16583/48008 [2:22:50<4:22:34,  1.99it/s] 35%|███▍      | 16584/48008 [2:22:50<4:19:09,  2.02it/s] 35%|███▍      | 16585/48008 [2:22:51<4:17:41,  2.03it/s] 35%|███▍      | 16586/48008 [2:22:51<4:16:07,  2.04it/s] 35%|███▍      | 16587/48008 [2:22:52<3:59:47,  2.18it/s] 35%|███▍      | 16588/48008 [2:22:52<4:03:05,  2.15it/s] 35%|███▍      | 16589/48008 [2:22:53<4:05:18,  2.13it/s] 35%|███▍      | 16590/48008 [2:22:53<3:56:41,  2.21it/s] 35%|███▍      | 16591/48008 [2:22:54<4:31:13,  1.93it/s] 35%|███▍      | 16592/48008 [2:22:54<4:29:48,  1.94it/s] 35%|███▍      | 16593/48008 [2:22:55<4:28:53,  1.95it/s] 35%|███▍      | 16594/48008 [2:22:55<4:27:29,  1.96it/s] 35%|███▍      | 16595/48008 [2:22:56<4:12:16,  2.08it/s] 35%|███▍      | 16596/48008 [2:22:56<4:12:03,  2.08it/s] 35%|███▍      | 16597/48008 [2:22:57<4:02:06,  2.16it/s] 35%|███▍      | 16598/48008 [2:22:57<4:08:20,  2.11it/s] 35%|███▍      | 16599/48008 [2:22:58<4:15:47,  2.05it/s] 35%|███▍      | 16600/48008 [2:22:58<4:04:56,  2.14it/s]                                                         {'loss': 4.2164, 'grad_norm': 0.12261320650577545, 'learning_rate': 0.00013084902516247293, 'epoch': 0.35}
 35%|███▍      | 16600/48008 [2:22:58<4:04:56,  2.14it/s] 35%|███▍      | 16601/48008 [2:22:59<4:12:38,  2.07it/s] 35%|███▍      | 16602/48008 [2:22:59<4:12:04,  2.08it/s] 35%|███▍      | 16603/48008 [2:23:00<5:13:25,  1.67it/s] 35%|███▍      | 16604/48008 [2:23:01<5:26:16,  1.60it/s] 35%|███▍      | 16605/48008 [2:23:01<5:07:45,  1.70it/s] 35%|███▍      | 16606/48008 [2:23:02<4:51:18,  1.80it/s] 35%|███▍      | 16607/48008 [2:23:02<4:40:04,  1.87it/s] 35%|███▍      | 16608/48008 [2:23:03<4:31:28,  1.93it/s] 35%|███▍      | 16609/48008 [2:23:03<4:25:37,  1.97it/s] 35%|███▍      | 16610/48008 [2:23:04<4:21:54,  2.00it/s] 35%|███▍      | 16611/48008 [2:23:04<4:18:36,  2.02it/s] 35%|███▍      | 16612/48008 [2:23:05<4:16:08,  2.04it/s] 35%|███▍      | 16613/48008 [2:23:05<4:15:19,  2.05it/s] 35%|███▍      | 16614/48008 [2:23:06<4:17:39,  2.03it/s] 35%|███▍      | 16615/48008 [2:23:06<4:47:02,  1.82it/s] 35%|███▍      | 16616/48008 [2:23:07<4:36:19,  1.89it/s] 35%|███▍      | 16617/48008 [2:23:07<4:28:55,  1.95it/s] 35%|███▍      | 16618/48008 [2:23:08<4:23:25,  1.99it/s] 35%|███▍      | 16619/48008 [2:23:08<4:19:51,  2.01it/s] 35%|███▍      | 16620/48008 [2:23:09<4:16:53,  2.04it/s] 35%|███▍      | 16621/48008 [2:23:09<4:46:20,  1.83it/s] 35%|███▍      | 16622/48008 [2:23:10<4:35:42,  1.90it/s] 35%|███▍      | 16623/48008 [2:23:10<4:18:16,  2.03it/s] 35%|███▍      | 16624/48008 [2:23:11<4:16:12,  2.04it/s] 35%|███▍      | 16625/48008 [2:23:11<4:20:30,  2.01it/s] 35%|███▍      | 16626/48008 [2:23:12<4:18:15,  2.03it/s] 35%|███▍      | 16627/48008 [2:23:12<4:16:41,  2.04it/s] 35%|███▍      | 16628/48008 [2:23:13<4:04:47,  2.14it/s] 35%|███▍      | 16629/48008 [2:23:13<4:06:40,  2.12it/s] 35%|███▍      | 16630/48008 [2:23:14<4:14:04,  2.06it/s] 35%|███▍      | 16631/48008 [2:23:14<4:16:56,  2.04it/s] 35%|███▍      | 16632/48008 [2:23:15<4:21:18,  2.00it/s] 35%|███▍      | 16633/48008 [2:23:15<4:08:06,  2.11it/s] 35%|███▍      | 16634/48008 [2:23:16<4:18:46,  2.02it/s] 35%|███▍      | 16635/48008 [2:23:16<4:20:21,  2.01it/s] 35%|███▍      | 16636/48008 [2:23:16<4:07:17,  2.11it/s] 35%|███▍      | 16637/48008 [2:23:17<3:58:31,  2.19it/s] 35%|███▍      | 16638/48008 [2:23:17<4:02:48,  2.15it/s] 35%|███▍      | 16639/48008 [2:23:18<4:05:52,  2.13it/s] 35%|███▍      | 16640/48008 [2:23:18<4:14:05,  2.06it/s] 35%|███▍      | 16641/48008 [2:23:19<4:19:16,  2.02it/s] 35%|███▍      | 16642/48008 [2:23:19<4:06:49,  2.12it/s] 35%|███▍      | 16643/48008 [2:23:20<4:13:49,  2.06it/s] 35%|███▍      | 16644/48008 [2:23:20<4:13:34,  2.06it/s] 35%|███▍      | 16645/48008 [2:23:21<4:16:42,  2.04it/s] 35%|███▍      | 16646/48008 [2:23:21<4:20:37,  2.01it/s] 35%|███▍      | 16647/48008 [2:23:23<6:17:38,  1.38it/s] 35%|███▍      | 16648/48008 [2:23:23<5:29:26,  1.59it/s] 35%|███▍      | 16649/48008 [2:23:23<5:06:04,  1.71it/s] 35%|███▍      | 16650/48008 [2:23:24<4:55:38,  1.77it/s]                                                         {'loss': 4.2397, 'grad_norm': 0.10833822935819626, 'learning_rate': 0.00013064072654557575, 'epoch': 0.35}
 35%|███▍      | 16650/48008 [2:23:24<4:55:38,  1.77it/s] 35%|███▍      | 16651/48008 [2:23:24<4:43:01,  1.85it/s] 35%|███▍      | 16652/48008 [2:23:25<4:33:35,  1.91it/s] 35%|███▍      | 16653/48008 [2:23:25<4:26:58,  1.96it/s] 35%|███▍      | 16654/48008 [2:23:26<4:31:26,  1.93it/s] 35%|███▍      | 16655/48008 [2:23:26<4:28:19,  1.95it/s] 35%|███▍      | 16656/48008 [2:23:27<4:28:38,  1.95it/s] 35%|███▍      | 16657/48008 [2:23:27<4:23:05,  1.99it/s] 35%|███▍      | 16658/48008 [2:23:28<4:20:13,  2.01it/s] 35%|███▍      | 16659/48008 [2:23:28<4:21:15,  2.00it/s] 35%|███▍      | 16660/48008 [2:23:29<4:24:32,  1.98it/s] 35%|███▍      | 16661/48008 [2:23:30<4:26:05,  1.96it/s] 35%|███▍      | 16662/48008 [2:23:30<4:12:00,  2.07it/s] 35%|███▍      | 16663/48008 [2:23:30<4:01:59,  2.16it/s] 35%|███▍      | 16664/48008 [2:23:31<4:04:56,  2.13it/s] 35%|███▍      | 16665/48008 [2:23:31<4:12:56,  2.07it/s] 35%|███▍      | 16666/48008 [2:23:32<4:11:59,  2.07it/s] 35%|███▍      | 16667/48008 [2:23:32<4:12:10,  2.07it/s] 35%|███▍      | 16668/48008 [2:23:33<4:01:45,  2.16it/s] 35%|███▍      | 16669/48008 [2:23:33<3:54:40,  2.23it/s] 35%|███▍      | 16670/48008 [2:23:34<3:59:40,  2.18it/s] 35%|███▍      | 16671/48008 [2:23:34<4:06:58,  2.11it/s] 35%|███▍      | 16672/48008 [2:23:35<4:12:16,  2.07it/s] 35%|███▍      | 16673/48008 [2:23:35<4:01:32,  2.16it/s] 35%|███▍      | 16674/48008 [2:23:36<4:03:45,  2.14it/s] 35%|███▍      | 16675/48008 [2:23:36<4:10:21,  2.09it/s] 35%|███▍      | 16676/48008 [2:23:36<4:00:27,  2.17it/s] 35%|███▍      | 16677/48008 [2:23:37<4:07:46,  2.11it/s] 35%|███▍      | 16678/48008 [2:23:37<4:12:43,  2.07it/s] 35%|███▍      | 16679/48008 [2:23:38<4:18:16,  2.02it/s] 35%|███▍      | 16680/48008 [2:23:38<4:15:51,  2.04it/s] 35%|███▍      | 16681/48008 [2:23:39<4:20:42,  2.00it/s] 35%|███▍      | 16682/48008 [2:23:40<4:26:42,  1.96it/s] 35%|███▍      | 16683/48008 [2:23:40<4:21:20,  2.00it/s] 35%|███▍      | 16684/48008 [2:23:40<4:18:26,  2.02it/s] 35%|███▍      | 16685/48008 [2:23:41<4:05:47,  2.12it/s] 35%|███▍      | 16686/48008 [2:23:42<4:37:34,  1.88it/s] 35%|███▍      | 16687/48008 [2:23:42<4:38:27,  1.87it/s] 35%|███▍      | 16688/48008 [2:23:43<4:20:11,  2.01it/s] 35%|███▍      | 16689/48008 [2:23:43<4:06:58,  2.11it/s] 35%|███▍      | 16690/48008 [2:23:43<4:08:06,  2.10it/s] 35%|███▍      | 16691/48008 [2:23:44<4:08:35,  2.10it/s] 35%|███▍      | 16692/48008 [2:23:44<4:12:40,  2.07it/s] 35%|███▍      | 16693/48008 [2:23:45<4:01:48,  2.16it/s] 35%|███▍      | 16694/48008 [2:23:45<4:08:25,  2.10it/s] 35%|███▍      | 16695/48008 [2:23:46<3:59:11,  2.18it/s] 35%|███▍      | 16696/48008 [2:23:47<6:04:29,  1.43it/s] 35%|███▍      | 16697/48008 [2:23:47<5:30:09,  1.58it/s] 35%|███▍      | 16698/48008 [2:23:48<4:56:13,  1.76it/s] 35%|███▍      | 16699/48008 [2:23:48<4:48:15,  1.81it/s] 35%|███▍      | 16700/48008 [2:23:49<4:43:22,  1.84it/s]                                                         {'loss': 4.2445, 'grad_norm': 0.12008843570947647, 'learning_rate': 0.00013043242792867856, 'epoch': 0.35}
 35%|███▍      | 16700/48008 [2:23:49<4:43:22,  1.84it/s] 35%|███▍      | 16701/48008 [2:23:49<4:23:26,  1.98it/s] 35%|███▍      | 16702/48008 [2:23:50<4:20:12,  2.01it/s] 35%|███▍      | 16703/48008 [2:23:50<4:17:29,  2.03it/s] 35%|███▍      | 16704/48008 [2:23:51<4:19:04,  2.01it/s] 35%|███▍      | 16705/48008 [2:23:51<4:06:06,  2.12it/s] 35%|███▍      | 16706/48008 [2:23:52<4:11:18,  2.08it/s] 35%|███▍      | 16707/48008 [2:23:52<4:17:03,  2.03it/s] 35%|███▍      | 16708/48008 [2:23:53<4:05:27,  2.13it/s] 35%|███▍      | 16709/48008 [2:23:53<4:06:47,  2.11it/s] 35%|███▍      | 16710/48008 [2:23:54<3:57:34,  2.20it/s] 35%|███▍      | 16711/48008 [2:23:54<3:51:14,  2.26it/s] 35%|███▍      | 16712/48008 [2:23:54<3:57:04,  2.20it/s] 35%|███▍      | 16713/48008 [2:23:55<4:11:55,  2.07it/s] 35%|███▍      | 16714/48008 [2:23:56<4:11:36,  2.07it/s] 35%|███▍      | 16715/48008 [2:23:56<4:14:52,  2.05it/s] 35%|███▍      | 16716/48008 [2:23:56<4:13:56,  2.05it/s] 35%|███▍      | 16717/48008 [2:23:57<4:13:26,  2.06it/s] 35%|███▍      | 16718/48008 [2:23:57<4:12:00,  2.07it/s] 35%|███▍      | 16719/48008 [2:23:58<4:11:43,  2.07it/s] 35%|███▍      | 16720/48008 [2:23:58<4:15:44,  2.04it/s] 35%|███▍      | 16721/48008 [2:23:59<4:14:52,  2.05it/s] 35%|███▍      | 16722/48008 [2:23:59<4:17:42,  2.02it/s] 35%|███▍      | 16723/48008 [2:24:00<4:19:15,  2.01it/s] 35%|███▍      | 16724/48008 [2:24:00<4:26:01,  1.96it/s] 35%|███▍      | 16725/48008 [2:24:01<4:21:37,  1.99it/s] 35%|███▍      | 16726/48008 [2:24:01<4:17:45,  2.02it/s] 35%|███▍      | 16727/48008 [2:24:02<4:06:02,  2.12it/s] 35%|███▍      | 16728/48008 [2:24:02<3:57:21,  2.20it/s] 35%|███▍      | 16729/48008 [2:24:03<3:51:26,  2.25it/s] 35%|███▍      | 16730/48008 [2:24:03<4:04:05,  2.14it/s] 35%|███▍      | 16731/48008 [2:24:04<4:09:54,  2.09it/s] 35%|███▍      | 16732/48008 [2:24:04<4:13:22,  2.06it/s] 35%|███▍      | 16733/48008 [2:24:05<5:13:48,  1.66it/s] 35%|███▍      | 16734/48008 [2:24:06<5:00:39,  1.73it/s] 35%|███▍      | 16735/48008 [2:24:06<4:46:13,  1.82it/s] 35%|███▍      | 16736/48008 [2:24:07<4:35:39,  1.89it/s] 35%|███▍      | 16737/48008 [2:24:07<4:27:42,  1.95it/s] 35%|███▍      | 16738/48008 [2:24:08<4:22:57,  1.98it/s] 35%|███▍      | 16739/48008 [2:24:08<4:09:18,  2.09it/s] 35%|███▍      | 16740/48008 [2:24:08<4:12:53,  2.06it/s] 35%|███▍      | 16741/48008 [2:24:09<4:16:03,  2.04it/s] 35%|███▍      | 16742/48008 [2:24:09<4:14:35,  2.05it/s] 35%|███▍      | 16743/48008 [2:24:10<4:13:41,  2.05it/s] 35%|███▍      | 16744/48008 [2:24:10<4:12:13,  2.07it/s] 35%|███▍      | 16745/48008 [2:24:11<4:12:27,  2.06it/s] 35%|███▍      | 16746/48008 [2:24:11<4:01:48,  2.15it/s] 35%|███▍      | 16747/48008 [2:24:12<4:08:35,  2.10it/s] 35%|███▍      | 16748/48008 [2:24:12<4:09:29,  2.09it/s] 35%|███▍      | 16749/48008 [2:24:13<4:13:46,  2.05it/s] 35%|███▍      | 16750/48008 [2:24:13<4:13:16,  2.06it/s]                                                         {'loss': 4.2389, 'grad_norm': 0.21772079169750214, 'learning_rate': 0.00013022412931178138, 'epoch': 0.35} 35%|███▍      | 16750/48008 [2:24:13<4:13:16,  2.06it/s]
 35%|███▍      | 16751/48008 [2:24:14<4:15:58,  2.04it/s] 35%|███▍      | 16752/48008 [2:24:14<3:59:34,  2.17it/s] 35%|███▍      | 16753/48008 [2:24:15<4:33:03,  1.91it/s] 35%|███▍      | 16754/48008 [2:24:15<4:30:54,  1.92it/s] 35%|███▍      | 16755/48008 [2:24:16<4:54:53,  1.77it/s] 35%|███▍      | 16756/48008 [2:24:17<4:47:55,  1.81it/s] 35%|███▍      | 16757/48008 [2:24:17<4:40:46,  1.86it/s] 35%|███▍      | 16758/48008 [2:24:18<4:32:22,  1.91it/s] 35%|███▍      | 16759/48008 [2:24:18<4:26:15,  1.96it/s] 35%|███▍      | 16760/48008 [2:24:19<4:25:41,  1.96it/s] 35%|███▍      | 16761/48008 [2:24:19<4:26:49,  1.95it/s] 35%|███▍      | 16762/48008 [2:24:20<4:25:44,  1.96it/s] 35%|███▍      | 16763/48008 [2:24:20<4:25:23,  1.96it/s] 35%|███▍      | 16764/48008 [2:24:21<4:24:14,  1.97it/s] 35%|███▍      | 16765/48008 [2:24:21<4:22:55,  1.98it/s] 35%|███▍      | 16766/48008 [2:24:21<4:08:59,  2.09it/s] 35%|███▍      | 16767/48008 [2:24:23<6:34:18,  1.32it/s] 35%|███▍      | 16768/48008 [2:24:23<5:54:29,  1.47it/s] 35%|███▍      | 16769/48008 [2:24:24<5:26:32,  1.59it/s] 35%|███▍      | 16770/48008 [2:24:24<5:03:43,  1.71it/s] 35%|███▍      | 16771/48008 [2:24:25<4:47:45,  1.81it/s] 35%|███▍      | 16772/48008 [2:24:25<4:40:40,  1.85it/s] 35%|███▍      | 16773/48008 [2:24:27<6:55:56,  1.25it/s] 35%|███▍      | 16774/48008 [2:24:27<6:12:48,  1.40it/s] 35%|███▍      | 16775/48008 [2:24:28<5:41:26,  1.52it/s] 35%|███▍      | 16776/48008 [2:24:28<5:14:26,  1.66it/s] 35%|███▍      | 16777/48008 [2:24:29<4:55:33,  1.76it/s] 35%|███▍      | 16778/48008 [2:24:29<5:13:02,  1.66it/s] 35%|███▍      | 16779/48008 [2:24:31<6:22:29,  1.36it/s] 35%|███▍      | 16780/48008 [2:24:31<5:43:17,  1.52it/s] 35%|███▍      | 16781/48008 [2:24:32<5:22:15,  1.61it/s] 35%|███▍      | 16782/48008 [2:24:32<5:00:57,  1.73it/s] 35%|███▍      | 16783/48008 [2:24:33<4:55:28,  1.76it/s] 35%|███▍      | 16784/48008 [2:24:33<5:13:30,  1.66it/s] 35%|███▍      | 16785/48008 [2:24:34<5:24:36,  1.60it/s] 35%|███▍      | 16786/48008 [2:24:34<5:02:25,  1.72it/s] 35%|███▍      | 16787/48008 [2:24:35<4:36:20,  1.88it/s] 35%|███▍      | 16788/48008 [2:24:35<4:31:40,  1.92it/s] 35%|███▍      | 16789/48008 [2:24:36<4:24:45,  1.97it/s] 35%|███▍      | 16790/48008 [2:24:36<4:10:53,  2.07it/s] 35%|███▍      | 16791/48008 [2:24:37<4:01:24,  2.16it/s] 35%|███▍      | 16792/48008 [2:24:37<4:09:08,  2.09it/s] 35%|███▍      | 16793/48008 [2:24:38<4:40:46,  1.85it/s] 35%|███▍      | 16794/48008 [2:24:38<4:38:28,  1.87it/s] 35%|███▍      | 16795/48008 [2:24:39<4:34:34,  1.89it/s] 35%|███▍      | 16796/48008 [2:24:39<4:17:34,  2.02it/s] 35%|███▍      | 16797/48008 [2:24:40<4:14:24,  2.04it/s] 35%|███▍      | 16798/48008 [2:24:40<4:17:03,  2.02it/s] 35%|███▍      | 16799/48008 [2:24:41<4:15:13,  2.04it/s] 35%|███▍      | 16800/48008 [2:24:41<4:16:59,  2.02it/s]                                                         {'loss': 4.2628, 'grad_norm': 0.11403652280569077, 'learning_rate': 0.0001300158306948842, 'epoch': 0.35}
 35%|███▍      | 16800/48008 [2:24:41<4:16:59,  2.02it/s] 35%|███▍      | 16801/48008 [2:24:42<4:14:49,  2.04it/s] 35%|███▍      | 16802/48008 [2:24:42<4:17:19,  2.02it/s] 35%|███▌      | 16803/48008 [2:24:43<4:21:35,  1.99it/s] 35%|███▌      | 16804/48008 [2:24:43<4:18:07,  2.01it/s] 35%|███▌      | 16805/48008 [2:24:44<4:16:17,  2.03it/s] 35%|███▌      | 16806/48008 [2:24:44<4:04:29,  2.13it/s] 35%|███▌      | 16807/48008 [2:24:45<4:06:21,  2.11it/s] 35%|███▌      | 16808/48008 [2:24:45<4:07:44,  2.10it/s] 35%|███▌      | 16809/48008 [2:24:46<4:12:57,  2.06it/s] 35%|███▌      | 16810/48008 [2:24:46<4:11:28,  2.07it/s] 35%|███▌      | 16811/48008 [2:24:47<4:16:47,  2.02it/s] 35%|███▌      | 16812/48008 [2:24:47<4:05:08,  2.12it/s] 35%|███▌      | 16813/48008 [2:24:47<4:06:22,  2.11it/s] 35%|███▌      | 16814/48008 [2:24:48<4:37:08,  1.88it/s] 35%|███▌      | 16815/48008 [2:24:49<4:28:43,  1.93it/s] 35%|███▌      | 16816/48008 [2:24:49<4:22:28,  1.98it/s] 35%|███▌      | 16817/48008 [2:24:50<4:19:30,  2.00it/s] 35%|███▌      | 16818/48008 [2:24:50<4:16:56,  2.02it/s] 35%|███▌      | 16819/48008 [2:24:51<4:14:22,  2.04it/s] 35%|███▌      | 16820/48008 [2:24:51<4:13:26,  2.05it/s] 35%|███▌      | 16821/48008 [2:24:51<4:01:22,  2.15it/s] 35%|███▌      | 16822/48008 [2:24:52<4:09:56,  2.08it/s] 35%|███▌      | 16823/48008 [2:24:52<4:10:18,  2.08it/s] 35%|███▌      | 16824/48008 [2:24:53<4:10:23,  2.08it/s] 35%|███▌      | 16825/48008 [2:24:53<4:10:25,  2.08it/s] 35%|███▌      | 16826/48008 [2:24:54<4:10:02,  2.08it/s] 35%|███▌      | 16827/48008 [2:24:54<4:12:56,  2.05it/s] 35%|███▌      | 16828/48008 [2:24:55<4:12:35,  2.06it/s] 35%|███▌      | 16829/48008 [2:24:55<4:11:28,  2.07it/s] 35%|███▌      | 16830/48008 [2:24:56<4:11:01,  2.07it/s] 35%|███▌      | 16831/48008 [2:24:57<5:11:30,  1.67it/s] 35%|███▌      | 16832/48008 [2:24:57<4:56:45,  1.75it/s] 35%|███▌      | 16833/48008 [2:24:58<4:49:29,  1.79it/s] 35%|███▌      | 16834/48008 [2:24:58<4:41:09,  1.85it/s] 35%|███▌      | 16835/48008 [2:24:59<4:31:55,  1.91it/s] 35%|███▌      | 16836/48008 [2:24:59<4:28:43,  1.93it/s] 35%|███▌      | 16837/48008 [2:25:00<4:27:02,  1.95it/s] 35%|███▌      | 16838/48008 [2:25:00<4:27:03,  1.95it/s] 35%|███▌      | 16839/48008 [2:25:01<4:11:46,  2.06it/s] 35%|███▌      | 16840/48008 [2:25:01<4:01:23,  2.15it/s] 35%|███▌      | 16841/48008 [2:25:02<4:03:45,  2.13it/s] 35%|███▌      | 16842/48008 [2:25:02<4:06:14,  2.11it/s] 35%|███▌      | 16843/48008 [2:25:03<4:08:04,  2.09it/s] 35%|███▌      | 16844/48008 [2:25:03<3:59:11,  2.17it/s] 35%|███▌      | 16845/48008 [2:25:03<3:47:00,  2.29it/s] 35%|███▌      | 16846/48008 [2:25:04<3:57:31,  2.19it/s] 35%|███▌      | 16847/48008 [2:25:04<4:05:00,  2.12it/s] 35%|███▌      | 16848/48008 [2:25:05<4:10:56,  2.07it/s] 35%|███▌      | 16849/48008 [2:25:05<4:00:32,  2.16it/s] 35%|███▌      | 16850/48008 [2:25:06<4:07:44,  2.10it/s]                                                         {'loss': 4.2287, 'grad_norm': 0.09563331305980682, 'learning_rate': 0.00012980753207798702, 'epoch': 0.35}
 35%|███▌      | 16850/48008 [2:25:06<4:07:44,  2.10it/s] 35%|███▌      | 16851/48008 [2:25:06<4:18:15,  2.01it/s] 35%|███▌      | 16852/48008 [2:25:07<4:18:50,  2.01it/s] 35%|███▌      | 16853/48008 [2:25:08<4:45:34,  1.82it/s] 35%|███▌      | 16854/48008 [2:25:08<5:06:02,  1.70it/s] 35%|███▌      | 16855/48008 [2:25:09<5:20:06,  1.62it/s] 35%|███▌      | 16856/48008 [2:25:09<4:50:28,  1.79it/s] 35%|███▌      | 16857/48008 [2:25:10<4:38:09,  1.87it/s] 35%|███▌      | 16858/48008 [2:25:10<4:29:38,  1.93it/s] 35%|███▌      | 16859/48008 [2:25:12<6:23:14,  1.35it/s] 35%|███▌      | 16860/48008 [2:25:12<5:49:04,  1.49it/s] 35%|███▌      | 16861/48008 [2:25:12<5:09:12,  1.68it/s] 35%|███▌      | 16862/48008 [2:25:13<4:50:41,  1.79it/s] 35%|███▌      | 16863/48008 [2:25:13<4:29:00,  1.93it/s] 35%|███▌      | 16864/48008 [2:25:14<4:29:25,  1.93it/s] 35%|███▌      | 16865/48008 [2:25:14<4:24:48,  1.96it/s] 35%|███▌      | 16866/48008 [2:25:15<4:21:48,  1.98it/s] 35%|███▌      | 16867/48008 [2:25:15<4:18:02,  2.01it/s] 35%|███▌      | 16868/48008 [2:25:16<4:21:21,  1.99it/s] 35%|███▌      | 16869/48008 [2:25:16<4:08:10,  2.09it/s] 35%|███▌      | 16870/48008 [2:25:17<3:59:39,  2.17it/s] 35%|███▌      | 16871/48008 [2:25:17<4:03:34,  2.13it/s] 35%|███▌      | 16872/48008 [2:25:18<4:10:39,  2.07it/s] 35%|███▌      | 16873/48008 [2:25:18<4:40:25,  1.85it/s] 35%|███▌      | 16874/48008 [2:25:19<4:37:23,  1.87it/s] 35%|███▌      | 16875/48008 [2:25:19<4:29:08,  1.93it/s] 35%|███▌      | 16876/48008 [2:25:20<4:23:02,  1.97it/s] 35%|███▌      | 16877/48008 [2:25:20<4:22:34,  1.98it/s] 35%|███▌      | 16878/48008 [2:25:21<4:19:28,  2.00it/s] 35%|███▌      | 16879/48008 [2:25:21<4:16:46,  2.02it/s] 35%|███▌      | 16880/48008 [2:25:22<4:18:53,  2.00it/s] 35%|███▌      | 16881/48008 [2:25:22<4:22:20,  1.98it/s] 35%|███▌      | 16882/48008 [2:25:23<4:21:44,  1.98it/s] 35%|███▌      | 16883/48008 [2:25:23<4:17:42,  2.01it/s] 35%|███▌      | 16884/48008 [2:25:24<4:19:20,  2.00it/s] 35%|███▌      | 16885/48008 [2:25:24<4:15:57,  2.03it/s] 35%|███▌      | 16886/48008 [2:25:26<6:13:58,  1.39it/s] 35%|███▌      | 16887/48008 [2:25:26<5:36:41,  1.54it/s] 35%|███▌      | 16888/48008 [2:25:27<5:10:30,  1.67it/s] 35%|███▌      | 16889/48008 [2:25:27<5:22:30,  1.61it/s] 35%|███▌      | 16890/48008 [2:25:28<4:50:34,  1.78it/s] 35%|███▌      | 16891/48008 [2:25:28<4:38:33,  1.86it/s] 35%|███▌      | 16892/48008 [2:25:29<4:20:10,  1.99it/s] 35%|███▌      | 16893/48008 [2:25:30<6:17:50,  1.37it/s] 35%|███▌      | 16894/48008 [2:25:30<5:39:53,  1.53it/s] 35%|███▌      | 16895/48008 [2:25:31<5:12:31,  1.66it/s] 35%|███▌      | 16896/48008 [2:25:31<4:54:24,  1.76it/s] 35%|███▌      | 16897/48008 [2:25:32<4:49:52,  1.79it/s] 35%|███▌      | 16898/48008 [2:25:32<4:37:41,  1.87it/s] 35%|███▌      | 16899/48008 [2:25:33<4:38:48,  1.86it/s] 35%|███▌      | 16900/48008 [2:25:33<4:35:47,  1.88it/s]                                                         {'loss': 4.3209, 'grad_norm': 0.12844185531139374, 'learning_rate': 0.00012959923346108983, 'epoch': 0.35}
 35%|███▌      | 16900/48008 [2:25:33<4:35:47,  1.88it/s] 35%|███▌      | 16901/48008 [2:25:34<4:28:59,  1.93it/s] 35%|███▌      | 16902/48008 [2:25:34<4:23:22,  1.97it/s] 35%|███▌      | 16903/48008 [2:25:35<4:19:40,  2.00it/s] 35%|███▌      | 16904/48008 [2:25:35<4:21:00,  1.99it/s] 35%|███▌      | 16905/48008 [2:25:36<4:17:54,  2.01it/s] 35%|███▌      | 16906/48008 [2:25:36<4:21:05,  1.99it/s] 35%|███▌      | 16907/48008 [2:25:37<4:17:34,  2.01it/s] 35%|███▌      | 16908/48008 [2:25:37<4:15:18,  2.03it/s] 35%|███▌      | 16909/48008 [2:25:38<4:14:03,  2.04it/s] 35%|███▌      | 16910/48008 [2:25:38<4:13:18,  2.05it/s] 35%|███▌      | 16911/48008 [2:25:39<4:15:49,  2.03it/s] 35%|███▌      | 16912/48008 [2:25:39<4:04:26,  2.12it/s] 35%|███▌      | 16913/48008 [2:25:40<4:09:50,  2.07it/s] 35%|███▌      | 16914/48008 [2:25:40<4:18:23,  2.01it/s] 35%|███▌      | 16915/48008 [2:25:41<4:46:28,  1.81it/s] 35%|███▌      | 16916/48008 [2:25:41<4:36:29,  1.87it/s] 35%|███▌      | 16917/48008 [2:25:42<4:35:21,  1.88it/s] 35%|███▌      | 16918/48008 [2:25:42<4:27:44,  1.94it/s] 35%|███▌      | 16919/48008 [2:25:43<4:27:38,  1.94it/s] 35%|███▌      | 16920/48008 [2:25:43<4:22:26,  1.97it/s] 35%|███▌      | 16921/48008 [2:25:44<4:27:32,  1.94it/s] 35%|███▌      | 16922/48008 [2:25:44<4:28:25,  1.93it/s] 35%|███▌      | 16923/48008 [2:25:45<4:13:25,  2.04it/s] 35%|███▌      | 16924/48008 [2:25:45<4:15:24,  2.03it/s] 35%|███▌      | 16925/48008 [2:25:46<4:45:08,  1.82it/s] 35%|███▌      | 16926/48008 [2:25:47<4:34:24,  1.89it/s] 35%|███▌      | 16927/48008 [2:25:47<4:34:15,  1.89it/s] 35%|███▌      | 16928/48008 [2:25:48<4:27:45,  1.93it/s] 35%|███▌      | 16929/48008 [2:25:48<4:23:05,  1.97it/s] 35%|███▌      | 16930/48008 [2:25:49<4:25:33,  1.95it/s] 35%|███▌      | 16931/48008 [2:25:49<4:20:27,  1.99it/s] 35%|███▌      | 16932/48008 [2:25:50<4:48:34,  1.79it/s] 35%|███▌      | 16933/48008 [2:25:50<4:40:14,  1.85it/s] 35%|███▌      | 16934/48008 [2:25:51<4:35:30,  1.88it/s] 35%|███▌      | 16935/48008 [2:25:51<4:18:14,  2.01it/s] 35%|███▌      | 16936/48008 [2:25:52<4:16:07,  2.02it/s] 35%|███▌      | 16937/48008 [2:25:52<4:14:01,  2.04it/s] 35%|███▌      | 16938/48008 [2:25:53<4:15:48,  2.02it/s] 35%|███▌      | 16939/48008 [2:25:53<4:14:46,  2.03it/s] 35%|███▌      | 16940/48008 [2:25:54<4:13:23,  2.04it/s] 35%|███▌      | 16941/48008 [2:25:54<4:11:33,  2.06it/s] 35%|███▌      | 16942/48008 [2:25:54<4:01:28,  2.14it/s] 35%|███▌      | 16943/48008 [2:25:55<4:07:31,  2.09it/s] 35%|███▌      | 16944/48008 [2:25:55<4:08:00,  2.09it/s] 35%|███▌      | 16945/48008 [2:25:56<4:08:29,  2.08it/s] 35%|███▌      | 16946/48008 [2:25:56<4:12:53,  2.05it/s] 35%|███▌      | 16947/48008 [2:25:57<4:11:57,  2.05it/s] 35%|███▌      | 16948/48008 [2:25:57<4:11:19,  2.06it/s] 35%|███▌      | 16949/48008 [2:25:58<4:16:56,  2.01it/s] 35%|███▌      | 16950/48008 [2:25:58<4:24:00,  1.96it/s]                                                         {'loss': 4.3068, 'grad_norm': 0.1808697134256363, 'learning_rate': 0.00012939093484419265, 'epoch': 0.35}
 35%|███▌      | 16950/48008 [2:25:58<4:24:00,  1.96it/s] 35%|███▌      | 16951/48008 [2:25:59<4:19:16,  2.00it/s] 35%|███▌      | 16952/48008 [2:25:59<4:19:01,  2.00it/s] 35%|███▌      | 16953/48008 [2:26:00<4:16:31,  2.02it/s] 35%|███▌      | 16954/48008 [2:26:00<4:23:37,  1.96it/s] 35%|███▌      | 16955/48008 [2:26:01<4:09:16,  2.08it/s] 35%|███▌      | 16956/48008 [2:26:01<4:12:33,  2.05it/s] 35%|███▌      | 16957/48008 [2:26:02<4:11:16,  2.06it/s] 35%|███▌      | 16958/48008 [2:26:02<4:10:57,  2.06it/s] 35%|███▌      | 16959/48008 [2:26:03<4:19:30,  1.99it/s] 35%|███▌      | 16960/48008 [2:26:03<4:20:33,  1.99it/s] 35%|███▌      | 16961/48008 [2:26:04<4:18:34,  2.00it/s] 35%|███▌      | 16962/48008 [2:26:04<4:24:41,  1.95it/s] 35%|███▌      | 16963/48008 [2:26:05<4:20:21,  1.99it/s] 35%|███▌      | 16964/48008 [2:26:05<4:17:56,  2.01it/s] 35%|███▌      | 16965/48008 [2:26:06<4:15:54,  2.02it/s] 35%|███▌      | 16966/48008 [2:26:06<4:04:16,  2.12it/s] 35%|███▌      | 16967/48008 [2:26:07<4:04:42,  2.11it/s] 35%|███▌      | 16968/48008 [2:26:07<4:06:10,  2.10it/s] 35%|███▌      | 16969/48008 [2:26:08<4:11:35,  2.06it/s] 35%|███▌      | 16970/48008 [2:26:08<4:13:54,  2.04it/s] 35%|███▌      | 16971/48008 [2:26:09<4:03:34,  2.12it/s] 35%|███▌      | 16972/48008 [2:26:09<4:06:23,  2.10it/s] 35%|███▌      | 16973/48008 [2:26:10<4:11:52,  2.05it/s] 35%|███▌      | 16974/48008 [2:26:10<4:01:35,  2.14it/s] 35%|███▌      | 16975/48008 [2:26:11<4:07:48,  2.09it/s] 35%|███▌      | 16976/48008 [2:26:11<4:13:08,  2.04it/s] 35%|███▌      | 16977/48008 [2:26:12<4:01:47,  2.14it/s] 35%|███▌      | 16978/48008 [2:26:12<3:53:39,  2.21it/s] 35%|███▌      | 16979/48008 [2:26:12<3:58:48,  2.17it/s] 35%|███▌      | 16980/48008 [2:26:13<4:01:59,  2.14it/s] 35%|███▌      | 16981/48008 [2:26:13<4:04:31,  2.11it/s] 35%|███▌      | 16982/48008 [2:26:14<3:56:18,  2.19it/s] 35%|███▌      | 16983/48008 [2:26:14<4:00:29,  2.15it/s] 35%|███▌      | 16984/48008 [2:26:15<4:03:10,  2.13it/s] 35%|███▌      | 16985/48008 [2:26:15<4:08:14,  2.08it/s] 35%|███▌      | 16986/48008 [2:26:16<4:12:11,  2.05it/s] 35%|███▌      | 16987/48008 [2:26:16<4:11:20,  2.06it/s] 35%|███▌      | 16988/48008 [2:26:17<4:14:01,  2.04it/s] 35%|███▌      | 16989/48008 [2:26:17<4:15:13,  2.03it/s] 35%|███▌      | 16990/48008 [2:26:18<4:19:40,  1.99it/s] 35%|███▌      | 16991/48008 [2:26:18<4:05:55,  2.10it/s] 35%|███▌      | 16992/48008 [2:26:19<3:57:18,  2.18it/s] 35%|███▌      | 16993/48008 [2:26:19<3:45:30,  2.29it/s] 35%|███▌      | 16994/48008 [2:26:20<3:52:25,  2.22it/s] 35%|███▌      | 16995/48008 [2:26:20<3:57:32,  2.18it/s] 35%|███▌      | 16996/48008 [2:26:21<4:09:57,  2.07it/s] 35%|███▌      | 16997/48008 [2:26:21<4:00:07,  2.15it/s] 35%|███▌      | 16998/48008 [2:26:21<3:52:53,  2.22it/s] 35%|███▌      | 16999/48008 [2:26:22<3:57:31,  2.18it/s] 35%|███▌      | 17000/48008 [2:26:22<4:09:40,  2.07it/s]                                                         {'loss': 4.2422, 'grad_norm': 0.11180918663740158, 'learning_rate': 0.00012918263622729544, 'epoch': 0.35}
 35%|███▌      | 17000/48008 [2:26:22<4:09:40,  2.07it/s] 35%|███▌      | 17001/48008 [2:26:23<4:15:32,  2.02it/s] 35%|███▌      | 17002/48008 [2:26:23<4:03:13,  2.12it/s] 35%|███▌      | 17003/48008 [2:26:24<4:13:26,  2.04it/s] 35%|███▌      | 17004/48008 [2:26:24<4:01:17,  2.14it/s] 35%|███▌      | 17005/48008 [2:26:25<4:06:36,  2.10it/s] 35%|███▌      | 17006/48008 [2:26:25<3:57:21,  2.18it/s] 35%|███▌      | 17007/48008 [2:26:26<4:04:27,  2.11it/s] 35%|███▌      | 17008/48008 [2:26:26<4:05:23,  2.11it/s] 35%|███▌      | 17009/48008 [2:26:27<4:06:27,  2.10it/s] 35%|███▌      | 17010/48008 [2:26:27<3:57:00,  2.18it/s] 35%|███▌      | 17011/48008 [2:26:28<4:00:03,  2.15it/s] 35%|███▌      | 17012/48008 [2:26:28<4:11:21,  2.06it/s] 35%|███▌      | 17013/48008 [2:26:29<4:10:11,  2.06it/s] 35%|███▌      | 17014/48008 [2:26:29<4:18:24,  2.00it/s] 35%|███▌      | 17015/48008 [2:26:30<4:15:03,  2.03it/s] 35%|███▌      | 17016/48008 [2:26:30<4:16:02,  2.02it/s] 35%|███▌      | 17017/48008 [2:26:31<4:14:33,  2.03it/s] 35%|███▌      | 17018/48008 [2:26:31<4:13:05,  2.04it/s] 35%|███▌      | 17019/48008 [2:26:32<4:42:34,  1.83it/s] 35%|███▌      | 17020/48008 [2:26:32<4:40:25,  1.84it/s] 35%|███▌      | 17021/48008 [2:26:33<4:37:26,  1.86it/s] 35%|███▌      | 17022/48008 [2:26:33<4:29:03,  1.92it/s] 35%|███▌      | 17023/48008 [2:26:34<5:26:12,  1.58it/s] 35%|███▌      | 17024/48008 [2:26:35<5:33:37,  1.55it/s] 35%|███▌      | 17025/48008 [2:26:35<4:58:02,  1.73it/s] 35%|███▌      | 17026/48008 [2:26:36<4:46:55,  1.80it/s] 35%|███▌      | 17027/48008 [2:26:36<4:41:55,  1.83it/s] 35%|███▌      | 17028/48008 [2:26:37<4:37:11,  1.86it/s] 35%|███▌      | 17029/48008 [2:26:37<4:37:32,  1.86it/s] 35%|███▌      | 17030/48008 [2:26:38<4:19:04,  1.99it/s] 35%|███▌      | 17031/48008 [2:26:39<6:14:13,  1.38it/s] 35%|███▌      | 17032/48008 [2:26:39<5:26:40,  1.58it/s] 35%|███▌      | 17033/48008 [2:26:40<5:04:09,  1.70it/s] 35%|███▌      | 17034/48008 [2:26:40<4:51:13,  1.77it/s] 35%|███▌      | 17035/48008 [2:26:41<4:28:51,  1.92it/s] 35%|███▌      | 17036/48008 [2:26:41<4:22:57,  1.96it/s] 35%|███▌      | 17037/48008 [2:26:42<4:18:23,  2.00it/s] 35%|███▌      | 17038/48008 [2:26:42<4:16:14,  2.01it/s] 35%|███▌      | 17039/48008 [2:26:43<4:17:04,  2.01it/s] 35%|███▌      | 17040/48008 [2:26:43<4:14:11,  2.03it/s] 35%|███▌      | 17041/48008 [2:26:44<4:13:07,  2.04it/s] 35%|███▌      | 17042/48008 [2:26:44<4:14:19,  2.03it/s] 36%|███▌      | 17043/48008 [2:26:45<4:02:41,  2.13it/s] 36%|███▌      | 17044/48008 [2:26:45<4:05:38,  2.10it/s] 36%|███▌      | 17045/48008 [2:26:46<4:10:31,  2.06it/s] 36%|███▌      | 17046/48008 [2:26:46<4:10:23,  2.06it/s] 36%|███▌      | 17047/48008 [2:26:47<4:09:23,  2.07it/s] 36%|███▌      | 17048/48008 [2:26:47<4:08:22,  2.08it/s] 36%|███▌      | 17049/48008 [2:26:48<4:07:41,  2.08it/s] 36%|███▌      | 17050/48008 [2:26:48<4:10:56,  2.06it/s]                                                         {'loss': 4.2802, 'grad_norm': 0.1755051165819168, 'learning_rate': 0.00012897433761039829, 'epoch': 0.36}
 36%|███▌      | 17050/48008 [2:26:48<4:10:56,  2.06it/s] 36%|███▌      | 17051/48008 [2:26:49<4:10:49,  2.06it/s] 36%|███▌      | 17052/48008 [2:26:49<4:14:11,  2.03it/s] 36%|███▌      | 17053/48008 [2:26:50<4:16:11,  2.01it/s] 36%|███▌      | 17054/48008 [2:26:50<4:13:35,  2.03it/s] 36%|███▌      | 17055/48008 [2:26:51<4:12:01,  2.05it/s] 36%|███▌      | 17056/48008 [2:26:51<4:10:04,  2.06it/s] 36%|███▌      | 17057/48008 [2:26:51<3:59:39,  2.15it/s] 36%|███▌      | 17058/48008 [2:26:52<4:02:08,  2.13it/s] 36%|███▌      | 17059/48008 [2:26:52<3:53:49,  2.21it/s] 36%|███▌      | 17060/48008 [2:26:53<3:58:40,  2.16it/s] 36%|███▌      | 17061/48008 [2:26:53<4:01:07,  2.14it/s] 36%|███▌      | 17062/48008 [2:26:54<4:09:57,  2.06it/s] 36%|███▌      | 17063/48008 [2:26:54<4:13:07,  2.04it/s] 36%|███▌      | 17064/48008 [2:26:55<4:01:04,  2.14it/s] 36%|███▌      | 17065/48008 [2:26:55<4:03:31,  2.12it/s] 36%|███▌      | 17066/48008 [2:26:56<4:13:46,  2.03it/s] 36%|███▌      | 17067/48008 [2:26:56<4:16:05,  2.01it/s] 36%|███▌      | 17068/48008 [2:26:57<4:17:01,  2.01it/s] 36%|███▌      | 17069/48008 [2:26:57<4:14:32,  2.03it/s] 36%|███▌      | 17070/48008 [2:26:58<4:12:02,  2.05it/s] 36%|███▌      | 17071/48008 [2:26:58<4:16:58,  2.01it/s] 36%|███▌      | 17072/48008 [2:26:59<4:22:58,  1.96it/s] 36%|███▌      | 17073/48008 [2:26:59<4:21:32,  1.97it/s] 36%|███▌      | 17074/48008 [2:27:00<4:20:59,  1.98it/s] 36%|███▌      | 17075/48008 [2:27:01<4:46:38,  1.80it/s] 36%|███▌      | 17076/48008 [2:27:01<4:43:52,  1.82it/s] 36%|███▌      | 17077/48008 [2:27:02<4:33:25,  1.89it/s] 36%|███▌      | 17078/48008 [2:27:02<4:25:28,  1.94it/s] 36%|███▌      | 17079/48008 [2:27:02<4:20:07,  1.98it/s] 36%|███▌      | 17080/48008 [2:27:03<4:06:11,  2.09it/s] 36%|███▌      | 17081/48008 [2:27:03<4:07:11,  2.09it/s] 36%|███▌      | 17082/48008 [2:27:04<4:07:25,  2.08it/s] 36%|███▌      | 17083/48008 [2:27:04<4:11:50,  2.05it/s] 36%|███▌      | 17084/48008 [2:27:05<4:14:32,  2.02it/s] 36%|███▌      | 17085/48008 [2:27:06<5:13:40,  1.64it/s] 36%|███▌      | 17086/48008 [2:27:06<4:59:53,  1.72it/s] 36%|███▌      | 17087/48008 [2:27:07<4:34:03,  1.88it/s] 36%|███▌      | 17088/48008 [2:27:07<4:16:33,  2.01it/s] 36%|███▌      | 17089/48008 [2:27:08<4:13:52,  2.03it/s] 36%|███▌      | 17090/48008 [2:27:08<4:18:55,  1.99it/s] 36%|███▌      | 17091/48008 [2:27:09<4:23:55,  1.95it/s] 36%|███▌      | 17092/48008 [2:27:09<4:22:43,  1.96it/s] 36%|███▌      | 17093/48008 [2:27:10<4:24:07,  1.95it/s] 36%|███▌      | 17094/48008 [2:27:10<4:19:20,  1.99it/s] 36%|███▌      | 17095/48008 [2:27:11<4:24:35,  1.95it/s] 36%|███▌      | 17096/48008 [2:27:11<4:21:04,  1.97it/s] 36%|███▌      | 17097/48008 [2:27:12<4:16:12,  2.01it/s] 36%|███▌      | 17098/48008 [2:27:12<4:20:02,  1.98it/s] 36%|███▌      | 17099/48008 [2:27:13<4:06:11,  2.09it/s] 36%|███▌      | 17100/48008 [2:27:14<6:04:53,  1.41it/s]                                                         {'loss': 4.2849, 'grad_norm': 0.28618356585502625, 'learning_rate': 0.00012876603899350108, 'epoch': 0.36}
 36%|███▌      | 17100/48008 [2:27:14<6:04:53,  1.41it/s] 36%|███▌      | 17101/48008 [2:27:14<5:29:55,  1.56it/s] 36%|███▌      | 17102/48008 [2:27:15<4:55:24,  1.74it/s] 36%|███▌      | 17103/48008 [2:27:15<4:47:34,  1.79it/s] 36%|███▌      | 17104/48008 [2:27:16<4:35:08,  1.87it/s] 36%|███▌      | 17105/48008 [2:27:16<4:27:01,  1.93it/s] 36%|███▌      | 17106/48008 [2:27:17<5:22:17,  1.60it/s] 36%|███▌      | 17107/48008 [2:27:18<5:03:22,  1.70it/s] 36%|███▌      | 17108/48008 [2:27:18<4:36:59,  1.86it/s] 36%|███▌      | 17109/48008 [2:27:19<4:28:17,  1.92it/s] 36%|███▌      | 17110/48008 [2:27:19<4:31:36,  1.90it/s] 36%|███▌      | 17111/48008 [2:27:20<4:24:48,  1.94it/s] 36%|███▌      | 17112/48008 [2:27:20<4:23:30,  1.95it/s] 36%|███▌      | 17113/48008 [2:27:20<4:09:55,  2.06it/s] 36%|███▌      | 17114/48008 [2:27:21<3:59:46,  2.15it/s] 36%|███▌      | 17115/48008 [2:27:21<4:03:17,  2.12it/s] 36%|███▌      | 17116/48008 [2:27:22<3:55:07,  2.19it/s] 36%|███▌      | 17117/48008 [2:27:22<4:02:56,  2.12it/s] 36%|███▌      | 17118/48008 [2:27:23<3:54:31,  2.20it/s] 36%|███▌      | 17119/48008 [2:27:23<3:58:54,  2.15it/s] 36%|███▌      | 17120/48008 [2:27:24<4:02:00,  2.13it/s] 36%|███▌      | 17121/48008 [2:27:24<3:54:04,  2.20it/s] 36%|███▌      | 17122/48008 [2:27:25<4:06:53,  2.08it/s] 36%|███▌      | 17123/48008 [2:27:25<4:07:45,  2.08it/s] 36%|███▌      | 17124/48008 [2:27:26<4:08:10,  2.07it/s] 36%|███▌      | 17125/48008 [2:27:26<3:58:14,  2.16it/s] 36%|███▌      | 17126/48008 [2:27:27<4:05:28,  2.10it/s] 36%|███▌      | 17127/48008 [2:27:27<3:56:46,  2.17it/s] 36%|███▌      | 17128/48008 [2:27:27<4:05:34,  2.10it/s] 36%|███▌      | 17129/48008 [2:27:28<3:56:19,  2.18it/s] 36%|███▌      | 17130/48008 [2:27:28<4:05:09,  2.10it/s] 36%|███▌      | 17131/48008 [2:27:29<3:51:18,  2.22it/s] 36%|███▌      | 17132/48008 [2:27:29<3:57:08,  2.17it/s] 36%|███▌      | 17133/48008 [2:27:30<4:08:38,  2.07it/s] 36%|███▌      | 17134/48008 [2:27:30<3:59:09,  2.15it/s] 36%|███▌      | 17135/48008 [2:27:31<3:52:08,  2.22it/s] 36%|███▌      | 17136/48008 [2:27:31<3:59:43,  2.15it/s] 36%|███▌      | 17137/48008 [2:27:32<4:01:40,  2.13it/s] 36%|███▌      | 17138/48008 [2:27:32<3:53:41,  2.20it/s] 36%|███▌      | 17139/48008 [2:27:33<4:04:35,  2.10it/s] 36%|███▌      | 17140/48008 [2:27:33<4:09:18,  2.06it/s] 36%|███▌      | 17141/48008 [2:27:33<3:58:20,  2.16it/s] 36%|███▌      | 17142/48008 [2:27:34<3:51:59,  2.22it/s] 36%|███▌      | 17143/48008 [2:27:34<3:57:10,  2.17it/s] 36%|███▌      | 17144/48008 [2:27:35<4:01:03,  2.13it/s] 36%|███▌      | 17145/48008 [2:27:35<3:53:34,  2.20it/s] 36%|███▌      | 17146/48008 [2:27:36<3:47:34,  2.26it/s] 36%|███▌      | 17147/48008 [2:27:36<3:53:48,  2.20it/s] 36%|███▌      | 17148/48008 [2:27:37<4:04:30,  2.10it/s] 36%|███▌      | 17149/48008 [2:27:37<4:08:23,  2.07it/s] 36%|███▌      | 17150/48008 [2:27:38<4:12:26,  2.04it/s]                                                         {'loss': 4.2281, 'grad_norm': 0.3516530990600586, 'learning_rate': 0.00012855774037660392, 'epoch': 0.36}
 36%|███▌      | 17150/48008 [2:27:38<4:12:26,  2.04it/s] 36%|███▌      | 17151/48008 [2:27:38<4:10:35,  2.05it/s] 36%|███▌      | 17152/48008 [2:27:39<4:18:18,  1.99it/s] 36%|███▌      | 17153/48008 [2:27:39<4:44:49,  1.81it/s] 36%|███▌      | 17154/48008 [2:27:40<4:33:26,  1.88it/s] 36%|███▌      | 17155/48008 [2:27:40<4:25:33,  1.94it/s] 36%|███▌      | 17156/48008 [2:27:41<4:28:12,  1.92it/s] 36%|███▌      | 17157/48008 [2:27:41<4:12:04,  2.04it/s] 36%|███▌      | 17158/48008 [2:27:42<4:14:21,  2.02it/s] 36%|███▌      | 17159/48008 [2:27:42<4:12:04,  2.04it/s] 36%|███▌      | 17160/48008 [2:27:43<4:10:20,  2.05it/s] 36%|███▌      | 17161/48008 [2:27:43<4:09:45,  2.06it/s] 36%|███▌      | 17162/48008 [2:27:44<4:12:51,  2.03it/s] 36%|███▌      | 17163/48008 [2:27:44<4:11:08,  2.05it/s] 36%|███▌      | 17164/48008 [2:27:45<3:59:11,  2.15it/s] 36%|███▌      | 17165/48008 [2:27:45<4:07:19,  2.08it/s] 36%|███▌      | 17166/48008 [2:27:46<5:46:22,  1.48it/s] 36%|███▌      | 17167/48008 [2:27:47<5:17:06,  1.62it/s] 36%|███▌      | 17168/48008 [2:27:47<4:55:48,  1.74it/s] 36%|███▌      | 17169/48008 [2:27:48<4:40:15,  1.83it/s] 36%|███▌      | 17170/48008 [2:27:48<4:34:18,  1.87it/s] 36%|███▌      | 17171/48008 [2:27:49<4:34:28,  1.87it/s] 36%|███▌      | 17172/48008 [2:27:49<4:25:55,  1.93it/s] 36%|███▌      | 17173/48008 [2:27:50<4:49:59,  1.77it/s] 36%|███▌      | 17174/48008 [2:27:50<4:26:57,  1.93it/s] 36%|███▌      | 17175/48008 [2:27:51<4:21:09,  1.97it/s] 36%|███▌      | 17176/48008 [2:27:52<5:17:56,  1.62it/s] 36%|███▌      | 17177/48008 [2:27:52<5:00:45,  1.71it/s] 36%|███▌      | 17178/48008 [2:27:53<4:48:42,  1.78it/s] 36%|███▌      | 17179/48008 [2:27:53<4:36:22,  1.86it/s] 36%|███▌      | 17180/48008 [2:27:54<4:31:36,  1.89it/s] 36%|███▌      | 17181/48008 [2:27:54<4:24:42,  1.94it/s] 36%|███▌      | 17182/48008 [2:27:55<4:09:16,  2.06it/s] 36%|███▌      | 17183/48008 [2:27:55<4:08:43,  2.07it/s] 36%|███▌      | 17184/48008 [2:27:56<4:08:04,  2.07it/s] 36%|███▌      | 17185/48008 [2:27:56<4:06:57,  2.08it/s] 36%|███▌      | 17186/48008 [2:27:57<4:06:59,  2.08it/s] 36%|███▌      | 17187/48008 [2:27:57<4:15:54,  2.01it/s] 36%|███▌      | 17188/48008 [2:27:58<4:16:46,  2.00it/s] 36%|███▌      | 17189/48008 [2:27:58<4:14:18,  2.02it/s] 36%|███▌      | 17190/48008 [2:27:59<4:18:00,  1.99it/s] 36%|███▌      | 17191/48008 [2:27:59<4:18:14,  1.99it/s] 36%|███▌      | 17192/48008 [2:28:00<4:23:22,  1.95it/s] 36%|███▌      | 17193/48008 [2:28:00<4:18:00,  1.99it/s] 36%|███▌      | 17194/48008 [2:28:01<4:22:53,  1.95it/s] 36%|███▌      | 17195/48008 [2:28:01<4:48:02,  1.78it/s] 36%|███▌      | 17196/48008 [2:28:02<4:39:23,  1.84it/s] 36%|███▌      | 17197/48008 [2:28:02<4:33:30,  1.88it/s] 36%|███▌      | 17198/48008 [2:28:03<4:15:31,  2.01it/s] 36%|███▌      | 17199/48008 [2:28:03<4:02:47,  2.11it/s] 36%|███▌      | 17200/48008 [2:28:04<4:07:04,  2.08it/s]                                                         {'loss': 4.3014, 'grad_norm': 0.5430124402046204, 'learning_rate': 0.0001283494417597067, 'epoch': 0.36}
 36%|███▌      | 17200/48008 [2:28:04<4:07:04,  2.08it/s] 36%|███▌      | 17201/48008 [2:28:04<4:06:43,  2.08it/s] 36%|███▌      | 17202/48008 [2:28:05<4:06:36,  2.08it/s] 36%|███▌      | 17203/48008 [2:28:05<4:06:21,  2.08it/s] 36%|███▌      | 17204/48008 [2:28:06<3:56:19,  2.17it/s] 36%|███▌      | 17205/48008 [2:28:06<3:59:06,  2.15it/s] 36%|███▌      | 17206/48008 [2:28:06<4:00:39,  2.13it/s] 36%|███▌      | 17207/48008 [2:28:07<4:02:22,  2.12it/s] 36%|███▌      | 17208/48008 [2:28:07<3:52:46,  2.21it/s] 36%|███▌      | 17209/48008 [2:28:08<4:01:22,  2.13it/s] 36%|███▌      | 17210/48008 [2:28:08<4:09:50,  2.05it/s] 36%|███▌      | 17211/48008 [2:28:09<4:07:59,  2.07it/s] 36%|███▌      | 17212/48008 [2:28:09<4:07:31,  2.07it/s] 36%|███▌      | 17213/48008 [2:28:10<4:13:12,  2.03it/s] 36%|███▌      | 17214/48008 [2:28:10<4:11:18,  2.04it/s] 36%|███▌      | 17215/48008 [2:28:11<3:59:38,  2.14it/s] 36%|███▌      | 17216/48008 [2:28:11<4:04:53,  2.10it/s] 36%|███▌      | 17217/48008 [2:28:12<3:55:12,  2.18it/s] 36%|███▌      | 17218/48008 [2:28:12<4:02:10,  2.12it/s] 36%|███▌      | 17219/48008 [2:28:13<4:03:41,  2.11it/s] 36%|███▌      | 17220/48008 [2:28:13<4:04:57,  2.09it/s] 36%|███▌      | 17221/48008 [2:28:14<4:05:19,  2.09it/s] 36%|███▌      | 17222/48008 [2:28:14<4:05:23,  2.09it/s] 36%|███▌      | 17223/48008 [2:28:14<3:50:21,  2.23it/s] 36%|███▌      | 17224/48008 [2:28:15<3:59:05,  2.15it/s] 36%|███▌      | 17225/48008 [2:28:15<4:01:01,  2.13it/s] 36%|███▌      | 17226/48008 [2:28:16<5:03:00,  1.69it/s] 36%|███▌      | 17227/48008 [2:28:17<4:35:57,  1.86it/s] 36%|███▌      | 17228/48008 [2:28:17<4:56:24,  1.73it/s] 36%|███▌      | 17229/48008 [2:28:18<4:31:27,  1.89it/s] 36%|███▌      | 17230/48008 [2:28:18<4:23:28,  1.95it/s] 36%|███▌      | 17231/48008 [2:28:19<4:17:54,  1.99it/s] 36%|███▌      | 17232/48008 [2:28:19<4:14:37,  2.01it/s] 36%|███▌      | 17233/48008 [2:28:20<4:12:28,  2.03it/s] 36%|███▌      | 17234/48008 [2:28:20<4:13:25,  2.02it/s] 36%|███▌      | 17235/48008 [2:28:21<4:17:23,  1.99it/s] 36%|███▌      | 17236/48008 [2:28:21<4:17:11,  1.99it/s] 36%|███▌      | 17237/48008 [2:28:22<4:13:43,  2.02it/s] 36%|███▌      | 17238/48008 [2:28:22<4:14:47,  2.01it/s] 36%|███▌      | 17239/48008 [2:28:23<4:12:09,  2.03it/s] 36%|███▌      | 17240/48008 [2:28:23<4:00:12,  2.13it/s] 36%|███▌      | 17241/48008 [2:28:24<4:05:12,  2.09it/s] 36%|███▌      | 17242/48008 [2:28:24<4:08:40,  2.06it/s] 36%|███▌      | 17243/48008 [2:28:25<3:57:46,  2.16it/s] 36%|███▌      | 17244/48008 [2:28:25<4:00:50,  2.13it/s] 36%|███▌      | 17245/48008 [2:28:26<4:02:30,  2.11it/s] 36%|███▌      | 17246/48008 [2:28:26<4:07:05,  2.07it/s] 36%|███▌      | 17247/48008 [2:28:27<4:06:32,  2.08it/s] 36%|███▌      | 17248/48008 [2:28:27<4:09:49,  2.05it/s] 36%|███▌      | 17249/48008 [2:28:28<4:11:45,  2.04it/s] 36%|███▌      | 17250/48008 [2:28:28<4:00:15,  2.13it/s]                                                         {'loss': 4.2583, 'grad_norm': 0.4987933039665222, 'learning_rate': 0.00012814114314280953, 'epoch': 0.36}
 36%|███▌      | 17250/48008 [2:28:28<4:00:15,  2.13it/s] 36%|███▌      | 17251/48008 [2:28:28<4:03:30,  2.11it/s] 36%|███▌      | 17252/48008 [2:28:29<4:04:12,  2.10it/s] 36%|███▌      | 17253/48008 [2:28:29<4:05:15,  2.09it/s] 36%|███▌      | 17254/48008 [2:28:30<3:56:43,  2.17it/s] 36%|███▌      | 17255/48008 [2:28:30<4:10:06,  2.05it/s] 36%|███▌      | 17256/48008 [2:28:31<4:39:09,  1.84it/s] 36%|███▌      | 17257/48008 [2:28:32<4:33:18,  1.88it/s] 36%|███▌      | 17258/48008 [2:28:32<4:24:52,  1.93it/s] 36%|███▌      | 17259/48008 [2:28:33<4:20:03,  1.97it/s] 36%|███▌      | 17260/48008 [2:28:33<4:06:24,  2.08it/s] 36%|███▌      | 17261/48008 [2:28:33<4:13:03,  2.03it/s] 36%|███▌      | 17262/48008 [2:28:34<5:11:40,  1.64it/s] 36%|███▌      | 17263/48008 [2:28:35<4:52:05,  1.75it/s] 36%|███▌      | 17264/48008 [2:28:35<4:28:46,  1.91it/s] 36%|███▌      | 17265/48008 [2:28:36<4:22:38,  1.95it/s] 36%|███▌      | 17266/48008 [2:28:36<4:17:43,  1.99it/s] 36%|███▌      | 17267/48008 [2:28:37<4:14:09,  2.02it/s] 36%|███▌      | 17268/48008 [2:28:37<4:12:44,  2.03it/s] 36%|███▌      | 17269/48008 [2:28:38<4:01:17,  2.12it/s] 36%|███▌      | 17270/48008 [2:28:38<4:06:22,  2.08it/s] 36%|███▌      | 17271/48008 [2:28:39<4:14:43,  2.01it/s] 36%|███▌      | 17272/48008 [2:28:39<4:15:32,  2.00it/s] 36%|███▌      | 17273/48008 [2:28:40<4:18:55,  1.98it/s] 36%|███▌      | 17274/48008 [2:28:40<4:19:16,  1.98it/s] 36%|███▌      | 17275/48008 [2:28:41<4:18:35,  1.98it/s] 36%|███▌      | 17276/48008 [2:28:41<4:14:56,  2.01it/s] 36%|███▌      | 17277/48008 [2:28:42<4:12:42,  2.03it/s] 36%|███▌      | 17278/48008 [2:28:42<4:14:07,  2.02it/s] 36%|███▌      | 17279/48008 [2:28:43<4:11:22,  2.04it/s] 36%|███▌      | 17280/48008 [2:28:44<6:08:28,  1.39it/s] 36%|███▌      | 17281/48008 [2:28:44<5:31:49,  1.54it/s] 36%|███▌      | 17282/48008 [2:28:45<5:05:32,  1.68it/s] 36%|███▌      | 17283/48008 [2:28:45<4:51:36,  1.76it/s] 36%|███▌      | 17284/48008 [2:28:46<4:37:48,  1.84it/s] 36%|███▌      | 17285/48008 [2:28:46<4:32:40,  1.88it/s] 36%|███▌      | 17286/48008 [2:28:47<4:14:51,  2.01it/s] 36%|███▌      | 17287/48008 [2:28:47<4:21:45,  1.96it/s] 36%|███▌      | 17288/48008 [2:28:48<4:06:47,  2.07it/s] 36%|███▌      | 17289/48008 [2:28:48<4:11:01,  2.04it/s] 36%|███▌      | 17290/48008 [2:28:49<4:09:51,  2.05it/s] 36%|███▌      | 17291/48008 [2:28:49<4:17:37,  1.99it/s] 36%|███▌      | 17292/48008 [2:28:50<4:20:55,  1.96it/s] 36%|███▌      | 17293/48008 [2:28:50<4:06:34,  2.08it/s] 36%|███▌      | 17294/48008 [2:28:51<4:09:40,  2.05it/s] 36%|███▌      | 17295/48008 [2:28:51<4:08:34,  2.06it/s] 36%|███▌      | 17296/48008 [2:28:52<4:08:46,  2.06it/s] 36%|███▌      | 17297/48008 [2:28:52<4:38:45,  1.84it/s] 36%|███▌      | 17298/48008 [2:28:53<4:34:48,  1.86it/s] 36%|███▌      | 17299/48008 [2:28:53<4:16:35,  1.99it/s] 36%|███▌      | 17300/48008 [2:28:54<4:12:56,  2.02it/s]                                                         {'loss': 4.2938, 'grad_norm': 0.3461304306983948, 'learning_rate': 0.00012793284452591234, 'epoch': 0.36} 36%|███▌      | 17300/48008 [2:28:54<4:12:56,  2.02it/s]
 36%|███▌      | 17301/48008 [2:28:54<4:20:01,  1.97it/s] 36%|███▌      | 17302/48008 [2:28:55<4:16:02,  2.00it/s] 36%|███▌      | 17303/48008 [2:28:55<4:13:24,  2.02it/s] 36%|███▌      | 17304/48008 [2:28:56<4:11:03,  2.04it/s] 36%|███▌      | 17305/48008 [2:28:56<4:09:21,  2.05it/s] 36%|███▌      | 17306/48008 [2:28:57<4:11:44,  2.03it/s] 36%|███▌      | 17307/48008 [2:28:57<4:13:17,  2.02it/s] 36%|███▌      | 17308/48008 [2:28:58<4:11:39,  2.03it/s] 36%|███▌      | 17309/48008 [2:28:58<4:09:38,  2.05it/s] 36%|███▌      | 17310/48008 [2:28:59<4:09:18,  2.05it/s] 36%|███▌      | 17311/48008 [2:28:59<4:14:47,  2.01it/s] 36%|███▌      | 17312/48008 [2:29:00<5:12:41,  1.64it/s] 36%|███▌      | 17313/48008 [2:29:01<4:59:09,  1.71it/s] 36%|███▌      | 17314/48008 [2:29:01<4:47:11,  1.78it/s] 36%|███▌      | 17315/48008 [2:29:01<4:24:51,  1.93it/s] 36%|███▌      | 17316/48008 [2:29:02<4:19:40,  1.97it/s] 36%|███▌      | 17317/48008 [2:29:02<4:16:20,  2.00it/s] 36%|███▌      | 17318/48008 [2:29:03<4:12:38,  2.02it/s] 36%|███▌      | 17319/48008 [2:29:03<4:11:00,  2.04it/s] 36%|███▌      | 17320/48008 [2:29:04<4:13:31,  2.02it/s] 36%|███▌      | 17321/48008 [2:29:04<4:15:29,  2.00it/s] 36%|███▌      | 17322/48008 [2:29:05<4:12:02,  2.03it/s] 36%|███▌      | 17323/48008 [2:29:05<4:00:11,  2.13it/s] 36%|███▌      | 17324/48008 [2:29:06<4:08:06,  2.06it/s] 36%|███▌      | 17325/48008 [2:29:06<4:07:29,  2.07it/s] 36%|███▌      | 17326/48008 [2:29:07<3:57:01,  2.16it/s] 36%|███▌      | 17327/48008 [2:29:07<3:59:33,  2.13it/s] 36%|███▌      | 17328/48008 [2:29:08<4:00:44,  2.12it/s] 36%|███▌      | 17329/48008 [2:29:08<4:05:23,  2.08it/s] 36%|███▌      | 17330/48008 [2:29:09<3:55:33,  2.17it/s] 36%|███▌      | 17331/48008 [2:29:09<4:01:42,  2.12it/s] 36%|███▌      | 17332/48008 [2:29:10<4:08:16,  2.06it/s] 36%|███▌      | 17333/48008 [2:29:10<4:07:13,  2.07it/s] 36%|███▌      | 17334/48008 [2:29:11<4:07:01,  2.07it/s] 36%|███▌      | 17335/48008 [2:29:11<4:06:54,  2.07it/s] 36%|███▌      | 17336/48008 [2:29:12<4:06:14,  2.08it/s] 36%|███▌      | 17337/48008 [2:29:12<4:05:55,  2.08it/s] 36%|███▌      | 17338/48008 [2:29:13<4:06:04,  2.08it/s] 36%|███▌      | 17339/48008 [2:29:13<4:14:49,  2.01it/s] 36%|███▌      | 17340/48008 [2:29:14<4:18:27,  1.98it/s] 36%|███▌      | 17341/48008 [2:29:14<4:13:42,  2.01it/s] 36%|███▌      | 17342/48008 [2:29:15<4:14:27,  2.01it/s] 36%|███▌      | 17343/48008 [2:29:16<6:09:05,  1.38it/s] 36%|███▌      | 17344/48008 [2:29:16<5:40:23,  1.50it/s] 36%|███▌      | 17345/48008 [2:29:17<5:11:55,  1.64it/s] 36%|███▌      | 17346/48008 [2:29:17<4:54:47,  1.73it/s] 36%|███▌      | 17347/48008 [2:29:18<4:39:16,  1.83it/s] 36%|███▌      | 17348/48008 [2:29:18<4:28:37,  1.90it/s] 36%|███▌      | 17349/48008 [2:29:19<4:25:48,  1.92it/s] 36%|███▌      | 17350/48008 [2:29:19<4:22:57,  1.94it/s]                                                         {'loss': 4.2707, 'grad_norm': 0.3450263440608978, 'learning_rate': 0.00012772454590901516, 'epoch': 0.36} 36%|███▌      | 17350/48008 [2:29:19<4:22:57,  1.94it/s]
 36%|███▌      | 17351/48008 [2:29:20<4:17:36,  1.98it/s] 36%|███▌      | 17352/48008 [2:29:20<4:19:44,  1.97it/s] 36%|███▌      | 17353/48008 [2:29:21<4:15:47,  2.00it/s] 36%|███▌      | 17354/48008 [2:29:21<4:13:12,  2.02it/s] 36%|███▌      | 17355/48008 [2:29:22<4:14:42,  2.01it/s] 36%|███▌      | 17356/48008 [2:29:22<4:15:53,  2.00it/s] 36%|███▌      | 17357/48008 [2:29:23<4:02:39,  2.11it/s] 36%|███▌      | 17358/48008 [2:29:23<4:12:41,  2.02it/s] 36%|███▌      | 17359/48008 [2:29:24<4:09:55,  2.04it/s] 36%|███▌      | 17360/48008 [2:29:24<4:13:53,  2.01it/s] 36%|███▌      | 17361/48008 [2:29:25<4:11:29,  2.03it/s] 36%|███▌      | 17362/48008 [2:29:25<4:13:10,  2.02it/s] 36%|███▌      | 17363/48008 [2:29:26<4:19:13,  1.97it/s] 36%|███▌      | 17364/48008 [2:29:26<4:05:06,  2.08it/s] 36%|███▌      | 17365/48008 [2:29:27<4:05:00,  2.08it/s] 36%|███▌      | 17366/48008 [2:29:27<4:05:49,  2.08it/s] 36%|███▌      | 17367/48008 [2:29:28<4:09:40,  2.05it/s] 36%|███▌      | 17368/48008 [2:29:28<4:11:10,  2.03it/s] 36%|███▌      | 17369/48008 [2:29:29<3:59:44,  2.13it/s] 36%|███▌      | 17370/48008 [2:29:29<4:01:37,  2.11it/s] 36%|███▌      | 17371/48008 [2:29:29<4:03:35,  2.10it/s] 36%|███▌      | 17372/48008 [2:29:30<4:07:24,  2.06it/s] 36%|███▌      | 17373/48008 [2:29:31<4:36:34,  1.85it/s] 36%|███▌      | 17374/48008 [2:29:31<4:26:32,  1.92it/s] 36%|███▌      | 17375/48008 [2:29:32<4:20:01,  1.96it/s] 36%|███▌      | 17376/48008 [2:29:32<4:15:02,  2.00it/s] 36%|███▌      | 17377/48008 [2:29:33<4:18:46,  1.97it/s] 36%|███▌      | 17378/48008 [2:29:33<5:15:13,  1.62it/s] 36%|███▌      | 17379/48008 [2:29:34<4:54:36,  1.73it/s] 36%|███▌      | 17380/48008 [2:29:34<4:39:31,  1.83it/s] 36%|███▌      | 17381/48008 [2:29:35<4:39:01,  1.83it/s] 36%|███▌      | 17382/48008 [2:29:35<4:29:38,  1.89it/s] 36%|███▌      | 17383/48008 [2:29:36<4:28:23,  1.90it/s] 36%|███▌      | 17384/48008 [2:29:37<4:26:54,  1.91it/s] 36%|███▌      | 17385/48008 [2:29:37<4:23:34,  1.94it/s] 36%|███▌      | 17386/48008 [2:29:38<4:26:47,  1.91it/s] 36%|███▌      | 17387/48008 [2:29:38<4:20:04,  1.96it/s] 36%|███▌      | 17388/48008 [2:29:39<4:15:29,  2.00it/s] 36%|███▌      | 17389/48008 [2:29:39<4:02:38,  2.10it/s] 36%|███▌      | 17390/48008 [2:29:39<4:09:55,  2.04it/s] 36%|███▌      | 17391/48008 [2:29:40<4:08:42,  2.05it/s] 36%|███▌      | 17392/48008 [2:29:40<4:11:04,  2.03it/s] 36%|███▌      | 17393/48008 [2:29:41<4:14:58,  2.00it/s] 36%|███▌      | 17394/48008 [2:29:41<4:12:13,  2.02it/s] 36%|███▌      | 17395/48008 [2:29:42<3:59:37,  2.13it/s] 36%|███▌      | 17396/48008 [2:29:42<4:01:27,  2.11it/s] 36%|███▌      | 17397/48008 [2:29:43<5:02:22,  1.69it/s] 36%|███▌      | 17398/48008 [2:29:44<4:45:01,  1.79it/s] 36%|███▌      | 17399/48008 [2:29:44<4:23:07,  1.94it/s] 36%|███▌      | 17400/48008 [2:29:45<4:47:25,  1.77it/s]                                                         {'loss': 4.2633, 'grad_norm': 0.3160783350467682, 'learning_rate': 0.000127516247292118, 'epoch': 0.36}
 36%|███▌      | 17400/48008 [2:29:45<4:47:25,  1.77it/s] 36%|███▌      | 17401/48008 [2:29:45<4:38:20,  1.83it/s] 36%|███▌      | 17402/48008 [2:29:46<4:27:56,  1.90it/s] 36%|███▋      | 17403/48008 [2:29:46<4:21:19,  1.95it/s] 36%|███▋      | 17404/48008 [2:29:47<4:16:39,  1.99it/s] 36%|███▋      | 17405/48008 [2:29:48<6:12:30,  1.37it/s] 36%|███▋      | 17406/48008 [2:29:49<6:03:29,  1.40it/s] 36%|███▋      | 17407/48008 [2:29:49<5:17:42,  1.61it/s] 36%|███▋      | 17408/48008 [2:29:50<4:55:41,  1.72it/s] 36%|███▋      | 17409/48008 [2:29:50<4:30:25,  1.89it/s] 36%|███▋      | 17410/48008 [2:29:50<4:23:19,  1.94it/s] 36%|███▋      | 17411/48008 [2:29:51<4:16:59,  1.98it/s] 36%|███▋      | 17412/48008 [2:29:52<4:43:51,  1.80it/s] 36%|███▋      | 17413/48008 [2:29:52<4:32:50,  1.87it/s] 36%|███▋      | 17414/48008 [2:29:53<4:14:34,  2.00it/s] 36%|███▋      | 17415/48008 [2:29:53<4:11:55,  2.02it/s] 36%|███▋      | 17416/48008 [2:29:53<4:08:55,  2.05it/s] 36%|███▋      | 17417/48008 [2:29:54<4:16:36,  1.99it/s] 36%|███▋      | 17418/48008 [2:29:55<4:16:47,  1.99it/s] 36%|███▋      | 17419/48008 [2:29:55<4:13:35,  2.01it/s] 36%|███▋      | 17420/48008 [2:29:56<4:17:02,  1.98it/s] 36%|███▋      | 17421/48008 [2:29:56<4:13:17,  2.01it/s] 36%|███▋      | 17422/48008 [2:29:56<4:11:14,  2.03it/s] 36%|███▋      | 17423/48008 [2:29:57<4:19:07,  1.97it/s] 36%|███▋      | 17424/48008 [2:29:58<4:17:58,  1.98it/s] 36%|███▋      | 17425/48008 [2:29:58<4:13:35,  2.01it/s] 36%|███▋      | 17426/48008 [2:29:59<4:20:37,  1.96it/s] 36%|███▋      | 17427/48008 [2:29:59<4:05:52,  2.07it/s] 36%|███▋      | 17428/48008 [2:29:59<4:11:35,  2.03it/s] 36%|███▋      | 17429/48008 [2:30:00<4:16:06,  1.99it/s] 36%|███▋      | 17430/48008 [2:30:00<4:12:22,  2.02it/s] 36%|███▋      | 17431/48008 [2:30:01<4:10:33,  2.03it/s] 36%|███▋      | 17432/48008 [2:30:01<4:12:14,  2.02it/s] 36%|███▋      | 17433/48008 [2:30:02<4:10:52,  2.03it/s] 36%|███▋      | 17434/48008 [2:30:02<4:12:54,  2.01it/s] 36%|███▋      | 17435/48008 [2:30:03<4:14:29,  2.00it/s] 36%|███▋      | 17436/48008 [2:30:03<4:11:51,  2.02it/s] 36%|███▋      | 17437/48008 [2:30:04<4:18:47,  1.97it/s] 36%|███▋      | 17438/48008 [2:30:04<4:05:39,  2.07it/s] 36%|███▋      | 17439/48008 [2:30:05<4:05:41,  2.07it/s] 36%|███▋      | 17440/48008 [2:30:05<4:05:14,  2.08it/s] 36%|███▋      | 17441/48008 [2:30:06<4:04:55,  2.08it/s] 36%|███▋      | 17442/48008 [2:30:06<3:54:50,  2.17it/s] 36%|███▋      | 17443/48008 [2:30:07<3:58:46,  2.13it/s] 36%|███▋      | 17444/48008 [2:30:07<4:03:31,  2.09it/s] 36%|███▋      | 17445/48008 [2:30:08<4:10:13,  2.04it/s] 36%|███▋      | 17446/48008 [2:30:08<4:08:54,  2.05it/s] 36%|███▋      | 17447/48008 [2:30:09<4:07:56,  2.05it/s] 36%|███▋      | 17448/48008 [2:30:09<4:07:05,  2.06it/s] 36%|███▋      | 17449/48008 [2:30:10<4:09:41,  2.04it/s] 36%|███▋      | 17450/48008 [2:30:10<4:14:46,  2.00it/s]                                                         {'loss': 4.2739, 'grad_norm': 0.31894996762275696, 'learning_rate': 0.0001273079486752208, 'epoch': 0.36} 36%|███▋      | 17450/48008 [2:30:10<4:14:46,  2.00it/s]
 36%|███▋      | 17451/48008 [2:30:11<4:12:28,  2.02it/s] 36%|███▋      | 17452/48008 [2:30:11<4:14:15,  2.00it/s] 36%|███▋      | 17453/48008 [2:30:12<4:11:46,  2.02it/s] 36%|███▋      | 17454/48008 [2:30:13<5:10:07,  1.64it/s] 36%|███▋      | 17455/48008 [2:30:13<4:50:58,  1.75it/s] 36%|███▋      | 17456/48008 [2:30:14<4:36:43,  1.84it/s] 36%|███▋      | 17457/48008 [2:30:14<4:32:50,  1.87it/s] 36%|███▋      | 17458/48008 [2:30:15<4:24:24,  1.93it/s] 36%|███▋      | 17459/48008 [2:30:15<4:21:48,  1.94it/s] 36%|███▋      | 17460/48008 [2:30:16<4:23:18,  1.93it/s] 36%|███▋      | 17461/48008 [2:30:16<4:17:53,  1.97it/s] 36%|███▋      | 17462/48008 [2:30:17<4:13:44,  2.01it/s] 36%|███▋      | 17463/48008 [2:30:17<4:20:10,  1.96it/s] 36%|███▋      | 17464/48008 [2:30:18<4:14:47,  2.00it/s] 36%|███▋      | 17465/48008 [2:30:18<4:15:09,  2.00it/s] 36%|███▋      | 17466/48008 [2:30:19<4:12:04,  2.02it/s] 36%|███▋      | 17467/48008 [2:30:19<4:09:27,  2.04it/s] 36%|███▋      | 17468/48008 [2:30:19<4:08:36,  2.05it/s] 36%|███▋      | 17469/48008 [2:30:20<4:07:49,  2.05it/s] 36%|███▋      | 17470/48008 [2:30:20<4:07:00,  2.06it/s] 36%|███▋      | 17471/48008 [2:30:21<4:14:49,  2.00it/s] 36%|███▋      | 17472/48008 [2:30:22<4:18:09,  1.97it/s] 36%|███▋      | 17473/48008 [2:30:22<4:20:25,  1.95it/s] 36%|███▋      | 17474/48008 [2:30:23<4:20:03,  1.96it/s] 36%|███▋      | 17475/48008 [2:30:23<4:04:56,  2.08it/s] 36%|███▋      | 17476/48008 [2:30:23<4:05:22,  2.07it/s] 36%|███▋      | 17477/48008 [2:30:24<3:55:31,  2.16it/s] 36%|███▋      | 17478/48008 [2:30:24<4:01:04,  2.11it/s] 36%|███▋      | 17479/48008 [2:30:25<4:05:32,  2.07it/s] 36%|███▋      | 17480/48008 [2:30:25<4:09:11,  2.04it/s] 36%|███▋      | 17481/48008 [2:30:26<4:13:47,  2.00it/s] 36%|███▋      | 17482/48008 [2:30:26<4:11:39,  2.02it/s] 36%|███▋      | 17483/48008 [2:30:27<4:15:28,  1.99it/s] 36%|███▋      | 17484/48008 [2:30:27<4:02:15,  2.10it/s] 36%|███▋      | 17485/48008 [2:30:28<4:12:13,  2.02it/s] 36%|███▋      | 17486/48008 [2:30:28<4:19:25,  1.96it/s] 36%|███▋      | 17487/48008 [2:30:29<4:20:45,  1.95it/s] 36%|███▋      | 17488/48008 [2:30:29<4:15:09,  1.99it/s] 36%|███▋      | 17489/48008 [2:30:30<4:15:26,  1.99it/s] 36%|███▋      | 17490/48008 [2:30:30<4:15:13,  1.99it/s] 36%|███▋      | 17491/48008 [2:30:31<4:11:43,  2.02it/s] 36%|███▋      | 17492/48008 [2:30:31<4:13:05,  2.01it/s] 36%|███▋      | 17493/48008 [2:30:32<4:15:04,  1.99it/s] 36%|███▋      | 17494/48008 [2:30:32<4:11:59,  2.02it/s] 36%|███▋      | 17495/48008 [2:30:33<4:09:44,  2.04it/s] 36%|███▋      | 17496/48008 [2:30:33<4:13:38,  2.00it/s] 36%|███▋      | 17497/48008 [2:30:34<4:14:27,  2.00it/s] 36%|███▋      | 17498/48008 [2:30:34<4:11:43,  2.02it/s] 36%|███▋      | 17499/48008 [2:30:35<4:39:00,  1.82it/s] 36%|███▋      | 17500/48008 [2:30:36<4:33:12,  1.86it/s]                                                         {'loss': 4.3509, 'grad_norm': 0.26247215270996094, 'learning_rate': 0.00012709965005832361, 'epoch': 0.36}
 36%|███▋      | 17500/48008 [2:30:36<4:33:12,  1.86it/s] 36%|███▋      | 17501/48008 [2:30:36<4:28:22,  1.89it/s] 36%|███▋      | 17502/48008 [2:30:37<4:24:08,  1.92it/s] 36%|███▋      | 17503/48008 [2:30:37<4:21:59,  1.94it/s] 36%|███▋      | 17504/48008 [2:30:38<4:16:57,  1.98it/s] 36%|███▋      | 17505/48008 [2:30:38<4:42:12,  1.80it/s] 36%|███▋      | 17506/48008 [2:30:39<4:31:27,  1.87it/s] 36%|███▋      | 17507/48008 [2:30:39<4:12:51,  2.01it/s] 36%|███▋      | 17508/48008 [2:30:40<4:16:18,  1.98it/s] 36%|███▋      | 17509/48008 [2:30:40<4:12:30,  2.01it/s] 36%|███▋      | 17510/48008 [2:30:41<4:13:27,  2.01it/s] 36%|███▋      | 17511/48008 [2:30:41<4:11:24,  2.02it/s] 36%|███▋      | 17512/48008 [2:30:42<4:13:24,  2.01it/s] 36%|███▋      | 17513/48008 [2:30:42<4:10:03,  2.03it/s] 36%|███▋      | 17514/48008 [2:30:43<4:07:27,  2.05it/s] 36%|███▋      | 17515/48008 [2:30:43<4:06:44,  2.06it/s] 36%|███▋      | 17516/48008 [2:30:44<4:34:48,  1.85it/s] 36%|███▋      | 17517/48008 [2:30:44<4:24:57,  1.92it/s] 36%|███▋      | 17518/48008 [2:30:45<4:19:13,  1.96it/s] 36%|███▋      | 17519/48008 [2:30:45<4:20:42,  1.95it/s] 36%|███▋      | 17520/48008 [2:30:46<4:16:03,  1.98it/s] 36%|███▋      | 17521/48008 [2:30:46<4:41:58,  1.80it/s] 36%|███▋      | 17522/48008 [2:30:47<4:34:48,  1.85it/s] 37%|███▋      | 17523/48008 [2:30:47<4:15:55,  1.99it/s] 37%|███▋      | 17524/48008 [2:30:48<4:17:40,  1.97it/s] 37%|███▋      | 17525/48008 [2:30:48<4:19:32,  1.96it/s] 37%|███▋      | 17526/48008 [2:30:49<4:14:36,  2.00it/s] 37%|███▋      | 17527/48008 [2:30:49<4:15:02,  1.99it/s] 37%|███▋      | 17528/48008 [2:30:50<4:15:35,  1.99it/s] 37%|███▋      | 17529/48008 [2:30:50<4:21:08,  1.95it/s] 37%|███▋      | 17530/48008 [2:30:51<4:15:36,  1.99it/s] 37%|███▋      | 17531/48008 [2:30:51<4:18:02,  1.97it/s] 37%|███▋      | 17532/48008 [2:30:52<4:19:22,  1.96it/s] 37%|███▋      | 17533/48008 [2:30:52<4:15:26,  1.99it/s] 37%|███▋      | 17534/48008 [2:30:53<4:20:28,  1.95it/s] 37%|███▋      | 17535/48008 [2:30:53<4:23:41,  1.93it/s] 37%|███▋      | 17536/48008 [2:30:54<4:22:01,  1.94it/s] 37%|███▋      | 17537/48008 [2:30:54<4:19:34,  1.96it/s] 37%|███▋      | 17538/48008 [2:30:55<4:44:17,  1.79it/s] 37%|███▋      | 17539/48008 [2:30:56<4:32:02,  1.87it/s] 37%|███▋      | 17540/48008 [2:30:56<4:28:56,  1.89it/s] 37%|███▋      | 17541/48008 [2:30:57<4:21:08,  1.94it/s] 37%|███▋      | 17542/48008 [2:30:57<4:06:09,  2.06it/s] 37%|███▋      | 17543/48008 [2:30:57<4:05:25,  2.07it/s] 37%|███▋      | 17544/48008 [2:30:58<4:04:23,  2.08it/s] 37%|███▋      | 17545/48008 [2:30:58<4:10:01,  2.03it/s] 37%|███▋      | 17546/48008 [2:30:59<4:07:59,  2.05it/s] 37%|███▋      | 17547/48008 [2:30:59<4:12:32,  2.01it/s] 37%|███▋      | 17548/48008 [2:31:00<4:10:15,  2.03it/s] 37%|███▋      | 17549/48008 [2:31:00<4:08:02,  2.05it/s] 37%|███▋      | 17550/48008 [2:31:01<4:12:43,  2.01it/s]                                                         {'loss': 4.2869, 'grad_norm': 0.2495969831943512, 'learning_rate': 0.00012689135144142643, 'epoch': 0.37} 37%|███▋      | 17550/48008 [2:31:01<4:12:43,  2.01it/s]
 37%|███▋      | 17551/48008 [2:31:01<4:18:38,  1.96it/s] 37%|███▋      | 17552/48008 [2:31:02<4:23:34,  1.93it/s] 37%|███▋      | 17553/48008 [2:31:02<4:17:54,  1.97it/s] 37%|███▋      | 17554/48008 [2:31:04<6:10:52,  1.37it/s] 37%|███▋      | 17555/48008 [2:31:04<5:41:27,  1.49it/s] 37%|███▋      | 17556/48008 [2:31:05<5:42:07,  1.48it/s] 37%|███▋      | 17557/48008 [2:31:05<5:13:12,  1.62it/s] 37%|███▋      | 17558/48008 [2:31:06<4:52:04,  1.74it/s] 37%|███▋      | 17559/48008 [2:31:06<4:47:16,  1.77it/s] 37%|███▋      | 17560/48008 [2:31:07<4:40:39,  1.81it/s] 37%|███▋      | 17561/48008 [2:31:08<4:35:51,  1.84it/s] 37%|███▋      | 17562/48008 [2:31:08<4:55:44,  1.72it/s] 37%|███▋      | 17563/48008 [2:31:09<4:43:45,  1.79it/s] 37%|███▋      | 17564/48008 [2:31:09<4:30:59,  1.87it/s] 37%|███▋      | 17565/48008 [2:31:10<4:28:55,  1.89it/s] 37%|███▋      | 17566/48008 [2:31:10<4:21:04,  1.94it/s] 37%|███▋      | 17567/48008 [2:31:11<4:05:38,  2.07it/s] 37%|███▋      | 17568/48008 [2:31:11<4:05:35,  2.07it/s] 37%|███▋      | 17569/48008 [2:31:12<5:04:52,  1.66it/s] 37%|███▋      | 17570/48008 [2:31:12<4:49:59,  1.75it/s] 37%|███▋      | 17571/48008 [2:31:13<4:39:29,  1.82it/s] 37%|███▋      | 17572/48008 [2:31:13<4:37:34,  1.83it/s] 37%|███▋      | 17573/48008 [2:31:14<4:33:44,  1.85it/s] 37%|███▋      | 17574/48008 [2:31:14<4:28:08,  1.89it/s] 37%|███▋      | 17575/48008 [2:31:15<4:26:54,  1.90it/s] 37%|███▋      | 17576/48008 [2:31:16<4:26:18,  1.90it/s] 37%|███▋      | 17577/48008 [2:31:16<4:23:07,  1.93it/s] 37%|███▋      | 17578/48008 [2:31:17<4:17:13,  1.97it/s] 37%|███▋      | 17579/48008 [2:31:17<4:19:00,  1.96it/s] 37%|███▋      | 17580/48008 [2:31:18<4:18:15,  1.96it/s] 37%|███▋      | 17581/48008 [2:31:18<4:23:37,  1.92it/s] 37%|███▋      | 17582/48008 [2:31:19<4:18:12,  1.96it/s] 37%|███▋      | 17583/48008 [2:31:19<4:17:08,  1.97it/s] 37%|███▋      | 17584/48008 [2:31:20<4:16:23,  1.98it/s] 37%|███▋      | 17585/48008 [2:31:20<4:02:20,  2.09it/s] 37%|███▋      | 17586/48008 [2:31:20<3:53:11,  2.17it/s] 37%|███▋      | 17587/48008 [2:31:21<3:56:34,  2.14it/s] 37%|███▋      | 17588/48008 [2:31:21<4:02:54,  2.09it/s] 37%|███▋      | 17589/48008 [2:31:22<4:06:44,  2.05it/s] 37%|███▋      | 17590/48008 [2:31:22<4:08:45,  2.04it/s] 37%|███▋      | 17591/48008 [2:31:23<4:14:14,  1.99it/s] 37%|███▋      | 17592/48008 [2:31:23<4:11:56,  2.01it/s] 37%|███▋      | 17593/48008 [2:31:24<4:14:53,  1.99it/s] 37%|███▋      | 17594/48008 [2:31:24<4:11:52,  2.01it/s] 37%|███▋      | 17595/48008 [2:31:25<4:09:22,  2.03it/s] 37%|███▋      | 17596/48008 [2:31:25<4:11:17,  2.02it/s] 37%|███▋      | 17597/48008 [2:31:26<4:08:58,  2.04it/s] 37%|███▋      | 17598/48008 [2:31:26<4:15:43,  1.98it/s] 37%|███▋      | 17599/48008 [2:31:27<4:15:52,  1.98it/s] 37%|███▋      | 17600/48008 [2:31:27<4:16:29,  1.98it/s]                                                         {'loss': 4.3716, 'grad_norm': 0.2503868043422699, 'learning_rate': 0.00012668305282452925, 'epoch': 0.37}
 37%|███▋      | 17600/48008 [2:31:27<4:16:29,  1.98it/s] 37%|███▋      | 17601/48008 [2:31:28<4:13:09,  2.00it/s] 37%|███▋      | 17602/48008 [2:31:28<4:00:07,  2.11it/s] 37%|███▋      | 17603/48008 [2:31:29<4:04:13,  2.07it/s] 37%|███▋      | 17604/48008 [2:31:29<4:05:11,  2.07it/s] 37%|███▋      | 17605/48008 [2:31:30<4:14:21,  1.99it/s] 37%|███▋      | 17606/48008 [2:31:30<4:12:24,  2.01it/s] 37%|███▋      | 17607/48008 [2:31:31<4:10:01,  2.03it/s] 37%|███▋      | 17608/48008 [2:31:31<4:08:40,  2.04it/s] 37%|███▋      | 17609/48008 [2:31:32<4:07:31,  2.05it/s] 37%|███▋      | 17610/48008 [2:31:32<4:12:01,  2.01it/s] 37%|███▋      | 17611/48008 [2:31:33<4:10:38,  2.02it/s] 37%|███▋      | 17612/48008 [2:31:33<4:08:24,  2.04it/s] 37%|███▋      | 17613/48008 [2:31:34<4:06:30,  2.06it/s] 37%|███▋      | 17614/48008 [2:31:34<4:08:24,  2.04it/s] 37%|███▋      | 17615/48008 [2:31:35<4:07:11,  2.05it/s] 37%|███▋      | 17616/48008 [2:31:35<4:10:06,  2.03it/s] 37%|███▋      | 17617/48008 [2:31:36<4:17:07,  1.97it/s] 37%|███▋      | 17618/48008 [2:31:36<4:13:39,  2.00it/s] 37%|███▋      | 17619/48008 [2:31:37<4:13:44,  2.00it/s] 37%|███▋      | 17620/48008 [2:31:37<4:11:15,  2.02it/s] 37%|███▋      | 17621/48008 [2:31:38<4:17:39,  1.97it/s] 37%|███▋      | 17622/48008 [2:31:38<4:13:46,  2.00it/s] 37%|███▋      | 17623/48008 [2:31:39<4:00:45,  2.10it/s] 37%|███▋      | 17624/48008 [2:31:39<4:09:55,  2.03it/s] 37%|███▋      | 17625/48008 [2:31:40<4:13:40,  2.00it/s] 37%|███▋      | 17626/48008 [2:31:40<4:16:25,  1.97it/s] 37%|███▋      | 17627/48008 [2:31:41<4:12:53,  2.00it/s] 37%|███▋      | 17628/48008 [2:31:41<4:10:16,  2.02it/s] 37%|███▋      | 17629/48008 [2:31:42<4:37:47,  1.82it/s] 37%|███▋      | 17630/48008 [2:31:42<4:17:55,  1.96it/s] 37%|███▋      | 17631/48008 [2:31:43<4:03:26,  2.08it/s] 37%|███▋      | 17632/48008 [2:31:43<4:02:43,  2.09it/s] 37%|███▋      | 17633/48008 [2:31:44<4:12:05,  2.01it/s] 37%|███▋      | 17634/48008 [2:31:44<4:16:05,  1.98it/s] 37%|███▋      | 17635/48008 [2:31:45<4:12:58,  2.00it/s] 37%|███▋      | 17636/48008 [2:31:45<4:13:27,  2.00it/s] 37%|███▋      | 17637/48008 [2:31:46<4:10:14,  2.02it/s] 37%|███▋      | 17638/48008 [2:31:46<3:53:30,  2.17it/s] 37%|███▋      | 17639/48008 [2:31:47<3:55:54,  2.15it/s] 37%|███▋      | 17640/48008 [2:31:47<3:48:33,  2.21it/s] 37%|███▋      | 17641/48008 [2:31:48<3:53:24,  2.17it/s] 37%|███▋      | 17642/48008 [2:31:48<3:56:44,  2.14it/s] 37%|███▋      | 17643/48008 [2:31:48<3:49:32,  2.20it/s] 37%|███▋      | 17644/48008 [2:31:49<3:59:36,  2.11it/s] 37%|███▋      | 17645/48008 [2:31:49<4:01:45,  2.09it/s] 37%|███▋      | 17646/48008 [2:31:50<3:51:48,  2.18it/s] 37%|███▋      | 17647/48008 [2:31:51<4:56:28,  1.71it/s] 37%|███▋      | 17648/48008 [2:31:51<4:45:12,  1.77it/s] 37%|███▋      | 17649/48008 [2:31:52<4:22:35,  1.93it/s] 37%|███▋      | 17650/48008 [2:31:52<4:17:55,  1.96it/s]                                                          37%|███▋      | 17650/48008 [2:31:52<4:17:55,  1.96it/s]{'loss': 4.2754, 'grad_norm': 0.2756505012512207, 'learning_rate': 0.00012647475420763207, 'epoch': 0.37}
 37%|███▋      | 17651/48008 [2:31:53<4:04:04,  2.07it/s] 37%|███▋      | 17652/48008 [2:31:53<4:13:11,  2.00it/s] 37%|███▋      | 17653/48008 [2:31:54<4:10:13,  2.02it/s] 37%|███▋      | 17654/48008 [2:31:54<4:14:06,  1.99it/s] 37%|███▋      | 17655/48008 [2:31:55<4:01:10,  2.10it/s] 37%|███▋      | 17656/48008 [2:31:55<4:06:41,  2.05it/s] 37%|███▋      | 17657/48008 [2:31:56<4:05:20,  2.06it/s] 37%|███▋      | 17658/48008 [2:31:56<3:55:12,  2.15it/s] 37%|███▋      | 17659/48008 [2:31:56<4:04:07,  2.07it/s] 37%|███▋      | 17660/48008 [2:31:57<4:05:11,  2.06it/s] 37%|███▋      | 17661/48008 [2:31:57<4:05:14,  2.06it/s] 37%|███▋      | 17662/48008 [2:31:58<4:13:11,  2.00it/s] 37%|███▋      | 17663/48008 [2:31:58<4:14:04,  1.99it/s] 37%|███▋      | 17664/48008 [2:31:59<4:01:01,  2.10it/s] 37%|███▋      | 17665/48008 [2:31:59<4:01:42,  2.09it/s] 37%|███▋      | 17666/48008 [2:32:00<4:09:25,  2.03it/s] 37%|███▋      | 17667/48008 [2:32:00<3:57:59,  2.12it/s] 37%|███▋      | 17668/48008 [2:32:01<4:08:22,  2.04it/s] 37%|███▋      | 17669/48008 [2:32:01<4:09:55,  2.02it/s] 37%|███▋      | 17670/48008 [2:32:02<4:12:50,  2.00it/s] 37%|███▋      | 17671/48008 [2:32:02<4:00:25,  2.10it/s] 37%|███▋      | 17672/48008 [2:32:03<3:51:08,  2.19it/s] 37%|███▋      | 17673/48008 [2:32:03<3:45:47,  2.24it/s] 37%|███▋      | 17674/48008 [2:32:04<3:42:40,  2.27it/s] 37%|███▋      | 17675/48008 [2:32:04<3:52:02,  2.18it/s] 37%|███▋      | 17676/48008 [2:32:05<3:57:56,  2.12it/s] 37%|███▋      | 17677/48008 [2:32:05<4:05:03,  2.06it/s] 37%|███▋      | 17678/48008 [2:32:06<4:11:32,  2.01it/s] 37%|███▋      | 17679/48008 [2:32:06<4:38:41,  1.81it/s] 37%|███▋      | 17680/48008 [2:32:07<4:33:43,  1.85it/s] 37%|███▋      | 17681/48008 [2:32:07<4:24:33,  1.91it/s] 37%|███▋      | 17682/48008 [2:32:08<4:49:07,  1.75it/s] 37%|███▋      | 17683/48008 [2:32:08<4:35:00,  1.84it/s] 37%|███▋      | 17684/48008 [2:32:09<4:16:27,  1.97it/s] 37%|███▋      | 17685/48008 [2:32:09<4:13:23,  1.99it/s] 37%|███▋      | 17686/48008 [2:32:10<4:13:57,  1.99it/s] 37%|███▋      | 17687/48008 [2:32:10<4:16:26,  1.97it/s] 37%|███▋      | 17688/48008 [2:32:11<4:02:37,  2.08it/s] 37%|███▋      | 17689/48008 [2:32:11<4:03:22,  2.08it/s] 37%|███▋      | 17690/48008 [2:32:12<4:06:57,  2.05it/s] 37%|███▋      | 17691/48008 [2:32:12<3:56:44,  2.13it/s] 37%|███▋      | 17692/48008 [2:32:13<4:04:23,  2.07it/s] 37%|███▋      | 17693/48008 [2:32:13<4:04:00,  2.07it/s] 37%|███▋      | 17694/48008 [2:32:14<4:10:22,  2.02it/s] 37%|███▋      | 17695/48008 [2:32:14<3:58:12,  2.12it/s] 37%|███▋      | 17696/48008 [2:32:15<4:00:12,  2.10it/s] 37%|███▋      | 17697/48008 [2:32:15<3:52:05,  2.18it/s] 37%|███▋      | 17698/48008 [2:32:16<3:55:42,  2.14it/s] 37%|███▋      | 17699/48008 [2:32:16<4:28:07,  1.88it/s] 37%|███▋      | 17700/48008 [2:32:17<4:24:22,  1.91it/s]                                                         {'loss': 4.2608, 'grad_norm': 0.190337136387825, 'learning_rate': 0.00012626645559073488, 'epoch': 0.37}
 37%|███▋      | 17700/48008 [2:32:17<4:24:22,  1.91it/s] 37%|███▋      | 17701/48008 [2:32:17<4:24:09,  1.91it/s] 37%|███▋      | 17702/48008 [2:32:18<4:18:03,  1.96it/s] 37%|███▋      | 17703/48008 [2:32:18<4:14:00,  1.99it/s] 37%|███▋      | 17704/48008 [2:32:19<4:10:57,  2.01it/s] 37%|███▋      | 17705/48008 [2:32:19<4:11:20,  2.01it/s] 37%|███▋      | 17706/48008 [2:32:20<4:37:36,  1.82it/s] 37%|███▋      | 17707/48008 [2:32:20<4:28:26,  1.88it/s] 37%|███▋      | 17708/48008 [2:32:21<4:10:58,  2.01it/s] 37%|███▋      | 17709/48008 [2:32:21<4:08:27,  2.03it/s] 37%|███▋      | 17710/48008 [2:32:22<3:57:18,  2.13it/s] 37%|███▋      | 17711/48008 [2:32:22<3:58:38,  2.12it/s] 37%|███▋      | 17712/48008 [2:32:23<4:09:27,  2.02it/s] 37%|███▋      | 17713/48008 [2:32:23<4:10:42,  2.01it/s] 37%|███▋      | 17714/48008 [2:32:24<4:11:53,  2.00it/s] 37%|███▋      | 17715/48008 [2:32:24<4:12:15,  2.00it/s] 37%|███▋      | 17716/48008 [2:32:25<4:38:39,  1.81it/s] 37%|███▋      | 17717/48008 [2:32:25<4:30:35,  1.87it/s] 37%|███▋      | 17718/48008 [2:32:26<4:21:51,  1.93it/s] 37%|███▋      | 17719/48008 [2:32:26<4:16:06,  1.97it/s] 37%|███▋      | 17720/48008 [2:32:28<6:10:30,  1.36it/s] 37%|███▋      | 17721/48008 [2:32:28<5:38:35,  1.49it/s] 37%|███▋      | 17722/48008 [2:32:29<5:13:31,  1.61it/s] 37%|███▋      | 17723/48008 [2:32:29<4:51:53,  1.73it/s] 37%|███▋      | 17724/48008 [2:32:30<4:43:17,  1.78it/s] 37%|███▋      | 17725/48008 [2:32:30<4:31:03,  1.86it/s] 37%|███▋      | 17726/48008 [2:32:31<4:25:43,  1.90it/s] 37%|███▋      | 17727/48008 [2:32:31<4:09:56,  2.02it/s] 37%|███▋      | 17728/48008 [2:32:32<4:14:35,  1.98it/s] 37%|███▋      | 17729/48008 [2:32:32<4:11:02,  2.01it/s] 37%|███▋      | 17730/48008 [2:32:33<4:08:33,  2.03it/s] 37%|███▋      | 17731/48008 [2:32:33<4:10:05,  2.02it/s] 37%|███▋      | 17732/48008 [2:32:33<3:57:41,  2.12it/s] 37%|███▋      | 17733/48008 [2:32:34<3:59:15,  2.11it/s] 37%|███▋      | 17734/48008 [2:32:35<5:02:01,  1.67it/s] 37%|███▋      | 17735/48008 [2:32:35<4:50:29,  1.74it/s] 37%|███▋      | 17736/48008 [2:32:36<4:26:59,  1.89it/s] 37%|███▋      | 17737/48008 [2:32:36<4:19:36,  1.94it/s] 37%|███▋      | 17738/48008 [2:32:37<4:18:17,  1.95it/s] 37%|███▋      | 17739/48008 [2:32:37<4:21:54,  1.93it/s] 37%|███▋      | 17740/48008 [2:32:38<4:19:40,  1.94it/s] 37%|███▋      | 17741/48008 [2:32:38<4:23:06,  1.92it/s] 37%|███▋      | 17742/48008 [2:32:39<4:06:32,  2.05it/s] 37%|███▋      | 17743/48008 [2:32:39<4:05:46,  2.05it/s] 37%|███▋      | 17744/48008 [2:32:40<4:10:28,  2.01it/s] 37%|███▋      | 17745/48008 [2:32:40<4:08:11,  2.03it/s] 37%|███▋      | 17746/48008 [2:32:41<3:56:40,  2.13it/s] 37%|███▋      | 17747/48008 [2:32:41<3:48:43,  2.21it/s] 37%|███▋      | 17748/48008 [2:32:42<3:53:16,  2.16it/s] 37%|███▋      | 17749/48008 [2:32:42<4:58:20,  1.69it/s] 37%|███▋      | 17750/48008 [2:32:43<4:45:46,  1.76it/s]                                                         {'loss': 4.2939, 'grad_norm': 0.15398381650447845, 'learning_rate': 0.0001260581569738377, 'epoch': 0.37}
 37%|███▋      | 17750/48008 [2:32:43<4:45:46,  1.76it/s] 37%|███▋      | 17751/48008 [2:32:43<4:23:16,  1.92it/s] 37%|███▋      | 17752/48008 [2:32:44<4:17:11,  1.96it/s] 37%|███▋      | 17753/48008 [2:32:44<4:12:38,  2.00it/s] 37%|███▋      | 17754/48008 [2:32:45<4:18:30,  1.95it/s] 37%|███▋      | 17755/48008 [2:32:45<4:19:49,  1.94it/s] 37%|███▋      | 17756/48008 [2:32:46<4:18:05,  1.95it/s] 37%|███▋      | 17757/48008 [2:32:46<4:16:51,  1.96it/s] 37%|███▋      | 17758/48008 [2:32:47<4:15:37,  1.97it/s] 37%|███▋      | 17759/48008 [2:32:47<4:15:37,  1.97it/s] 37%|███▋      | 17760/48008 [2:32:48<4:17:43,  1.96it/s] 37%|███▋      | 17761/48008 [2:32:48<4:13:22,  1.99it/s] 37%|███▋      | 17762/48008 [2:32:49<4:11:44,  2.00it/s] 37%|███▋      | 17763/48008 [2:32:50<4:38:22,  1.81it/s] 37%|███▋      | 17764/48008 [2:32:50<4:17:42,  1.96it/s] 37%|███▋      | 17765/48008 [2:32:50<4:14:11,  1.98it/s] 37%|███▋      | 17766/48008 [2:32:51<4:19:30,  1.94it/s] 37%|███▋      | 17767/48008 [2:32:52<4:45:29,  1.77it/s] 37%|███▋      | 17768/48008 [2:32:52<4:33:04,  1.85it/s] 37%|███▋      | 17769/48008 [2:32:53<4:22:59,  1.92it/s] 37%|███▋      | 17770/48008 [2:32:53<4:06:19,  2.05it/s] 37%|███▋      | 17771/48008 [2:32:54<4:08:36,  2.03it/s] 37%|███▋      | 17772/48008 [2:32:54<3:57:14,  2.12it/s] 37%|███▋      | 17773/48008 [2:32:54<3:59:11,  2.11it/s] 37%|███▋      | 17774/48008 [2:32:55<4:02:00,  2.08it/s] 37%|███▋      | 17775/48008 [2:32:55<4:04:43,  2.06it/s] 37%|███▋      | 17776/48008 [2:32:56<4:08:56,  2.02it/s] 37%|███▋      | 17777/48008 [2:32:56<3:52:33,  2.17it/s] 37%|███▋      | 17778/48008 [2:32:57<3:55:32,  2.14it/s] 37%|███▋      | 17779/48008 [2:32:58<4:27:06,  1.89it/s] 37%|███▋      | 17780/48008 [2:32:58<4:18:52,  1.95it/s] 37%|███▋      | 17781/48008 [2:32:58<4:13:57,  1.98it/s] 37%|███▋      | 17782/48008 [2:32:59<4:13:08,  1.99it/s] 37%|███▋      | 17783/48008 [2:32:59<4:13:30,  1.99it/s] 37%|███▋      | 17784/48008 [2:33:00<4:10:22,  2.01it/s] 37%|███▋      | 17785/48008 [2:33:00<4:16:33,  1.96it/s] 37%|███▋      | 17786/48008 [2:33:01<4:17:49,  1.95it/s] 37%|███▋      | 17787/48008 [2:33:02<4:15:49,  1.97it/s] 37%|███▋      | 17788/48008 [2:33:02<4:01:37,  2.08it/s] 37%|███▋      | 17789/48008 [2:33:02<4:10:48,  2.01it/s] 37%|███▋      | 17790/48008 [2:33:03<4:14:33,  1.98it/s] 37%|███▋      | 17791/48008 [2:33:03<4:12:33,  1.99it/s] 37%|███▋      | 17792/48008 [2:33:04<4:09:33,  2.02it/s] 37%|███▋      | 17793/48008 [2:33:04<4:07:17,  2.04it/s] 37%|███▋      | 17794/48008 [2:33:05<4:11:41,  2.00it/s] 37%|███▋      | 17795/48008 [2:33:05<4:09:07,  2.02it/s] 37%|███▋      | 17796/48008 [2:33:06<4:07:14,  2.04it/s] 37%|███▋      | 17797/48008 [2:33:06<4:09:16,  2.02it/s] 37%|███▋      | 17798/48008 [2:33:07<3:56:54,  2.13it/s] 37%|███▋      | 17799/48008 [2:33:08<5:57:16,  1.41it/s] 37%|███▋      | 17800/48008 [2:33:09<5:22:58,  1.56it/s]                                                         {'loss': 4.2601, 'grad_norm': 0.13040754199028015, 'learning_rate': 0.00012584985835694052, 'epoch': 0.37}
 37%|███▋      | 17800/48008 [2:33:09<5:22:58,  1.56it/s] 37%|███▋      | 17801/48008 [2:33:10<6:54:45,  1.21it/s] 37%|███▋      | 17802/48008 [2:33:10<5:52:46,  1.43it/s] 37%|███▋      | 17803/48008 [2:33:11<5:19:08,  1.58it/s] 37%|███▋      | 17804/48008 [2:33:11<5:00:57,  1.67it/s] 37%|███▋      | 17805/48008 [2:33:12<4:33:13,  1.84it/s] 37%|███▋      | 17806/48008 [2:33:12<4:23:51,  1.91it/s] 37%|███▋      | 17807/48008 [2:33:13<4:18:13,  1.95it/s] 37%|███▋      | 17808/48008 [2:33:14<6:09:39,  1.36it/s] 37%|███▋      | 17809/48008 [2:33:14<5:31:27,  1.52it/s] 37%|███▋      | 17810/48008 [2:33:15<5:04:31,  1.65it/s] 37%|███▋      | 17811/48008 [2:33:15<4:45:59,  1.76it/s] 37%|███▋      | 17812/48008 [2:33:16<4:36:23,  1.82it/s] 37%|███▋      | 17813/48008 [2:33:16<4:29:57,  1.86it/s] 37%|███▋      | 17814/48008 [2:33:17<4:21:23,  1.93it/s] 37%|███▋      | 17815/48008 [2:33:18<5:34:49,  1.50it/s] 37%|███▋      | 17816/48008 [2:33:18<5:15:06,  1.60it/s] 37%|███▋      | 17817/48008 [2:33:19<5:21:52,  1.56it/s] 37%|███▋      | 17818/48008 [2:33:20<5:01:42,  1.67it/s] 37%|███▋      | 17819/48008 [2:33:20<4:46:28,  1.76it/s] 37%|███▋      | 17820/48008 [2:33:21<5:01:33,  1.67it/s] 37%|███▋      | 17821/48008 [2:33:21<4:46:50,  1.75it/s] 37%|███▋      | 17822/48008 [2:33:22<4:23:20,  1.91it/s] 37%|███▋      | 17823/48008 [2:33:22<4:25:40,  1.89it/s] 37%|███▋      | 17824/48008 [2:33:23<4:22:08,  1.92it/s] 37%|███▋      | 17825/48008 [2:33:23<4:15:25,  1.97it/s] 37%|███▋      | 17826/48008 [2:33:24<4:01:29,  2.08it/s] 37%|███▋      | 17827/48008 [2:33:24<4:05:00,  2.05it/s] 37%|███▋      | 17828/48008 [2:33:25<4:04:03,  2.06it/s] 37%|███▋      | 17829/48008 [2:33:25<4:11:35,  2.00it/s] 37%|███▋      | 17830/48008 [2:33:26<4:08:47,  2.02it/s] 37%|███▋      | 17831/48008 [2:33:26<4:09:54,  2.01it/s] 37%|███▋      | 17832/48008 [2:33:27<4:06:44,  2.04it/s] 37%|███▋      | 17833/48008 [2:33:27<4:13:58,  1.98it/s] 37%|███▋      | 17834/48008 [2:33:27<4:00:21,  2.09it/s] 37%|███▋      | 17835/48008 [2:33:28<3:51:19,  2.17it/s] 37%|███▋      | 17836/48008 [2:33:28<3:54:23,  2.15it/s] 37%|███▋      | 17837/48008 [2:33:29<3:56:54,  2.12it/s] 37%|███▋      | 17838/48008 [2:33:29<3:57:35,  2.12it/s] 37%|███▋      | 17839/48008 [2:33:30<4:02:18,  2.08it/s] 37%|███▋      | 17840/48008 [2:33:30<4:02:10,  2.08it/s] 37%|███▋      | 17841/48008 [2:33:31<4:07:41,  2.03it/s] 37%|███▋      | 17842/48008 [2:33:31<4:06:23,  2.04it/s] 37%|███▋      | 17843/48008 [2:33:32<4:08:57,  2.02it/s] 37%|███▋      | 17844/48008 [2:33:33<5:06:26,  1.64it/s] 37%|███▋      | 17845/48008 [2:33:33<4:37:16,  1.81it/s] 37%|███▋      | 17846/48008 [2:33:34<4:25:34,  1.89it/s] 37%|███▋      | 17847/48008 [2:33:34<4:18:11,  1.95it/s] 37%|███▋      | 17848/48008 [2:33:35<4:13:39,  1.98it/s] 37%|███▋      | 17849/48008 [2:33:35<4:00:14,  2.09it/s] 37%|███▋      | 17850/48008 [2:33:35<4:05:02,  2.05it/s]                                                         {'loss': 4.3023, 'grad_norm': 0.12220761179924011, 'learning_rate': 0.00012564155974004334, 'epoch': 0.37}
 37%|███▋      | 17850/48008 [2:33:35<4:05:02,  2.05it/s] 37%|███▋      | 17851/48008 [2:33:36<3:54:30,  2.14it/s] 37%|███▋      | 17852/48008 [2:33:36<4:00:40,  2.09it/s] 37%|███▋      | 17853/48008 [2:33:37<3:50:57,  2.18it/s] 37%|███▋      | 17854/48008 [2:33:37<3:56:50,  2.12it/s] 37%|███▋      | 17855/48008 [2:33:38<4:03:14,  2.07it/s] 37%|███▋      | 17856/48008 [2:33:38<4:02:55,  2.07it/s] 37%|███▋      | 17857/48008 [2:33:39<4:05:52,  2.04it/s] 37%|███▋      | 17858/48008 [2:33:39<4:03:48,  2.06it/s] 37%|███▋      | 17859/48008 [2:33:40<4:11:44,  2.00it/s] 37%|███▋      | 17860/48008 [2:33:40<4:14:03,  1.98it/s] 37%|███▋      | 17861/48008 [2:33:41<4:09:50,  2.01it/s] 37%|███▋      | 17862/48008 [2:33:42<5:06:49,  1.64it/s] 37%|███▋      | 17863/48008 [2:33:42<4:55:28,  1.70it/s] 37%|███▋      | 17864/48008 [2:33:43<5:38:25,  1.48it/s] 37%|███▋      | 17865/48008 [2:33:44<5:09:45,  1.62it/s] 37%|███▋      | 17866/48008 [2:33:44<4:49:21,  1.74it/s] 37%|███▋      | 17867/48008 [2:33:45<4:35:08,  1.83it/s] 37%|███▋      | 17868/48008 [2:33:45<5:24:38,  1.55it/s] 37%|███▋      | 17869/48008 [2:33:46<5:05:41,  1.64it/s] 37%|███▋      | 17870/48008 [2:33:46<4:52:32,  1.72it/s] 37%|███▋      | 17871/48008 [2:33:47<5:07:20,  1.63it/s] 37%|███▋      | 17872/48008 [2:33:48<4:46:40,  1.75it/s] 37%|███▋      | 17873/48008 [2:33:48<4:33:32,  1.84it/s] 37%|███▋      | 17874/48008 [2:33:49<4:14:00,  1.98it/s] 37%|███▋      | 17875/48008 [2:33:49<4:13:15,  1.98it/s] 37%|███▋      | 17876/48008 [2:33:50<4:14:00,  1.98it/s] 37%|███▋      | 17877/48008 [2:33:50<4:15:30,  1.97it/s] 37%|███▋      | 17878/48008 [2:33:51<4:10:41,  2.00it/s] 37%|███▋      | 17879/48008 [2:33:51<3:58:06,  2.11it/s] 37%|███▋      | 17880/48008 [2:33:51<3:58:44,  2.10it/s] 37%|███▋      | 17881/48008 [2:33:52<3:59:33,  2.10it/s] 37%|███▋      | 17882/48008 [2:33:52<4:00:26,  2.09it/s] 37%|███▋      | 17883/48008 [2:33:53<3:59:51,  2.09it/s] 37%|███▋      | 17884/48008 [2:33:53<3:49:53,  2.18it/s] 37%|███▋      | 17885/48008 [2:33:54<3:53:30,  2.15it/s] 37%|███▋      | 17886/48008 [2:33:54<3:45:43,  2.22it/s] 37%|███▋      | 17887/48008 [2:33:55<3:50:37,  2.18it/s] 37%|███▋      | 17888/48008 [2:33:55<3:54:04,  2.14it/s] 37%|███▋      | 17889/48008 [2:33:56<3:56:11,  2.13it/s] 37%|███▋      | 17890/48008 [2:33:56<4:05:52,  2.04it/s] 37%|███▋      | 17891/48008 [2:33:57<3:54:04,  2.14it/s] 37%|███▋      | 17892/48008 [2:33:57<3:59:35,  2.09it/s] 37%|███▋      | 17893/48008 [2:33:57<3:50:41,  2.18it/s] 37%|███▋      | 17894/48008 [2:33:58<3:54:01,  2.14it/s] 37%|███▋      | 17895/48008 [2:33:58<3:55:54,  2.13it/s] 37%|███▋      | 17896/48008 [2:34:00<5:53:50,  1.42it/s] 37%|███▋      | 17897/48008 [2:34:00<5:19:44,  1.57it/s] 37%|███▋      | 17898/48008 [2:34:01<4:56:07,  1.69it/s] 37%|███▋      | 17899/48008 [2:34:01<4:39:33,  1.80it/s] 37%|███▋      | 17900/48008 [2:34:02<4:33:37,  1.83it/s]                                                         {'loss': 4.2713, 'grad_norm': 0.11480822414159775, 'learning_rate': 0.00012543326112314615, 'epoch': 0.37}
 37%|███▋      | 17900/48008 [2:34:02<4:33:37,  1.83it/s] 37%|███▋      | 17901/48008 [2:34:03<5:24:34,  1.55it/s] 37%|███▋      | 17902/48008 [2:34:03<5:05:12,  1.64it/s] 37%|███▋      | 17903/48008 [2:34:04<4:54:58,  1.70it/s] 37%|███▋      | 17904/48008 [2:34:04<4:37:57,  1.81it/s] 37%|███▋      | 17905/48008 [2:34:05<4:36:04,  1.82it/s] 37%|███▋      | 17906/48008 [2:34:05<4:26:09,  1.88it/s] 37%|███▋      | 17907/48008 [2:34:05<4:03:16,  2.06it/s] 37%|███▋      | 17908/48008 [2:34:06<4:02:56,  2.07it/s] 37%|███▋      | 17909/48008 [2:34:06<4:05:11,  2.05it/s] 37%|███▋      | 17910/48008 [2:34:07<4:03:15,  2.06it/s] 37%|███▋      | 17911/48008 [2:34:07<3:52:47,  2.15it/s] 37%|███▋      | 17912/48008 [2:34:09<5:51:05,  1.43it/s] 37%|███▋      | 17913/48008 [2:34:10<7:58:39,  1.05it/s] 37%|███▋      | 17914/48008 [2:34:11<6:36:58,  1.26it/s] 37%|███▋      | 17915/48008 [2:34:11<5:49:46,  1.43it/s] 37%|███▋      | 17916/48008 [2:34:12<5:19:52,  1.57it/s] 37%|███▋      | 17917/48008 [2:34:12<4:56:18,  1.69it/s] 37%|███▋      | 17918/48008 [2:34:13<4:39:40,  1.79it/s] 37%|███▋      | 17919/48008 [2:34:14<6:40:03,  1.25it/s] 37%|███▋      | 17920/48008 [2:34:14<5:52:02,  1.42it/s] 37%|███▋      | 17921/48008 [2:34:15<5:22:18,  1.56it/s] 37%|███▋      | 17922/48008 [2:34:15<5:03:37,  1.65it/s] 37%|███▋      | 17923/48008 [2:34:16<4:45:01,  1.76it/s] 37%|███▋      | 17924/48008 [2:34:16<4:32:05,  1.84it/s] 37%|███▋      | 17925/48008 [2:34:17<5:46:23,  1.45it/s] 37%|███▋      | 17926/48008 [2:34:18<5:18:39,  1.57it/s] 37%|███▋      | 17927/48008 [2:34:18<4:45:51,  1.75it/s] 37%|███▋      | 17928/48008 [2:34:20<6:29:08,  1.29it/s] 37%|███▋      | 17929/48008 [2:34:20<5:47:20,  1.44it/s] 37%|███▋      | 17930/48008 [2:34:20<5:05:41,  1.64it/s] 37%|███▋      | 17931/48008 [2:34:21<4:46:23,  1.75it/s] 37%|███▋      | 17932/48008 [2:34:21<4:32:50,  1.84it/s] 37%|███▋      | 17933/48008 [2:34:22<4:28:51,  1.86it/s] 37%|███▋      | 17934/48008 [2:34:22<4:20:10,  1.93it/s] 37%|███▋      | 17935/48008 [2:34:23<4:04:47,  2.05it/s] 37%|███▋      | 17936/48008 [2:34:23<4:03:48,  2.06it/s] 37%|███▋      | 17937/48008 [2:34:24<3:52:53,  2.15it/s] 37%|███▋      | 17938/48008 [2:34:24<3:55:28,  2.13it/s] 37%|███▋      | 17939/48008 [2:34:25<3:46:54,  2.21it/s] 37%|███▋      | 17940/48008 [2:34:25<3:56:23,  2.12it/s] 37%|███▋      | 17941/48008 [2:34:26<4:01:18,  2.08it/s] 37%|███▋      | 17942/48008 [2:34:26<4:09:56,  2.00it/s] 37%|███▋      | 17943/48008 [2:34:27<4:07:15,  2.03it/s] 37%|███▋      | 17944/48008 [2:34:27<4:04:49,  2.05it/s] 37%|███▋      | 17945/48008 [2:34:28<3:53:51,  2.14it/s] 37%|███▋      | 17946/48008 [2:34:28<3:45:26,  2.22it/s] 37%|███▋      | 17947/48008 [2:34:28<3:40:12,  2.28it/s] 37%|███▋      | 17948/48008 [2:34:29<3:49:36,  2.18it/s] 37%|███▋      | 17949/48008 [2:34:29<3:54:00,  2.14it/s] 37%|███▋      | 17950/48008 [2:34:30<3:59:12,  2.09it/s]                                                         {'loss': 4.2342, 'grad_norm': 0.11464491486549377, 'learning_rate': 0.00012522496250624894, 'epoch': 0.37} 37%|███▋      | 17950/48008 [2:34:30<3:59:12,  2.09it/s]
 37%|███▋      | 17951/48008 [2:34:30<4:03:30,  2.06it/s] 37%|███▋      | 17952/48008 [2:34:31<4:09:17,  2.01it/s] 37%|███▋      | 17953/48008 [2:34:31<4:10:20,  2.00it/s] 37%|███▋      | 17954/48008 [2:34:32<4:13:42,  1.97it/s] 37%|███▋      | 17955/48008 [2:34:32<4:15:10,  1.96it/s] 37%|███▋      | 17956/48008 [2:34:33<4:14:43,  1.97it/s] 37%|███▋      | 17957/48008 [2:34:33<4:00:29,  2.08it/s] 37%|███▋      | 17958/48008 [2:34:34<4:01:21,  2.08it/s] 37%|███▋      | 17959/48008 [2:34:35<4:29:44,  1.86it/s] 37%|███▋      | 17960/48008 [2:34:35<4:10:59,  2.00it/s] 37%|███▋      | 17961/48008 [2:34:35<4:11:26,  1.99it/s] 37%|███▋      | 17962/48008 [2:34:36<4:09:05,  2.01it/s] 37%|███▋      | 17963/48008 [2:34:36<4:06:20,  2.03it/s] 37%|███▋      | 17964/48008 [2:34:37<4:04:40,  2.05it/s] 37%|███▋      | 17965/48008 [2:34:37<4:03:48,  2.05it/s] 37%|███▋      | 17966/48008 [2:34:38<4:06:27,  2.03it/s] 37%|███▋      | 17967/48008 [2:34:38<4:04:49,  2.05it/s] 37%|███▋      | 17968/48008 [2:34:39<4:03:23,  2.06it/s] 37%|███▋      | 17969/48008 [2:34:39<3:47:17,  2.20it/s] 37%|███▋      | 17970/48008 [2:34:40<3:50:58,  2.17it/s] 37%|███▋      | 17971/48008 [2:34:40<3:53:30,  2.14it/s] 37%|███▋      | 17972/48008 [2:34:41<3:46:13,  2.21it/s] 37%|███▋      | 17973/48008 [2:34:41<3:56:26,  2.12it/s] 37%|███▋      | 17974/48008 [2:34:42<5:52:39,  1.42it/s] 37%|███▋      | 17975/48008 [2:34:43<5:09:00,  1.62it/s] 37%|███▋      | 17976/48008 [2:34:43<4:48:52,  1.73it/s] 37%|███▋      | 17977/48008 [2:34:44<4:33:57,  1.83it/s] 37%|███▋      | 17978/48008 [2:34:44<4:28:03,  1.87it/s] 37%|███▋      | 17979/48008 [2:34:45<4:19:56,  1.93it/s] 37%|███▋      | 17980/48008 [2:34:45<4:17:32,  1.94it/s] 37%|███▋      | 17981/48008 [2:34:46<4:12:42,  1.98it/s] 37%|███▋      | 17982/48008 [2:34:46<4:18:22,  1.94it/s] 37%|███▋      | 17983/48008 [2:34:47<4:12:31,  1.98it/s] 37%|███▋      | 17984/48008 [2:34:47<3:59:11,  2.09it/s] 37%|███▋      | 17985/48008 [2:34:48<3:59:37,  2.09it/s] 37%|███▋      | 17986/48008 [2:34:48<3:49:36,  2.18it/s] 37%|███▋      | 17987/48008 [2:34:48<3:43:22,  2.24it/s] 37%|███▋      | 17988/48008 [2:34:49<3:52:46,  2.15it/s] 37%|███▋      | 17989/48008 [2:34:49<3:55:08,  2.13it/s] 37%|███▋      | 17990/48008 [2:34:50<4:02:14,  2.07it/s] 37%|███▋      | 17991/48008 [2:34:50<4:05:28,  2.04it/s] 37%|███▋      | 17992/48008 [2:34:51<4:04:13,  2.05it/s] 37%|███▋      | 17993/48008 [2:34:51<4:03:28,  2.05it/s] 37%|███▋      | 17994/48008 [2:34:52<4:03:00,  2.06it/s] 37%|███▋      | 17995/48008 [2:34:52<4:10:45,  1.99it/s] 37%|███▋      | 17996/48008 [2:34:53<4:07:17,  2.02it/s] 37%|███▋      | 17997/48008 [2:34:53<4:04:49,  2.04it/s] 37%|███▋      | 17998/48008 [2:34:54<4:03:09,  2.06it/s] 37%|███▋      | 17999/48008 [2:34:54<4:11:36,  1.99it/s] 37%|███▋      | 18000/48008 [2:34:55<4:08:06,  2.02it/s]                                                         {'loss': 4.2393, 'grad_norm': 0.14234371483325958, 'learning_rate': 0.0001250166638893518, 'epoch': 0.37}
 37%|███▋      | 18000/48008 [2:34:55<4:08:06,  2.02it/s] 37%|███▋      | 18001/48008 [2:34:55<4:05:49,  2.03it/s] 37%|███▋      | 18002/48008 [2:34:56<4:07:33,  2.02it/s] 38%|███▊      | 18003/48008 [2:34:56<4:05:07,  2.04it/s] 38%|███▊      | 18004/48008 [2:34:57<4:12:23,  1.98it/s] 38%|███▊      | 18005/48008 [2:34:57<3:59:07,  2.09it/s] 38%|███▊      | 18006/48008 [2:34:58<3:58:44,  2.09it/s] 38%|███▊      | 18007/48008 [2:34:58<4:02:53,  2.06it/s] 38%|███▊      | 18008/48008 [2:34:59<3:52:24,  2.15it/s] 38%|███▊      | 18009/48008 [2:34:59<3:44:06,  2.23it/s] 38%|███▊      | 18010/48008 [2:35:00<3:54:30,  2.13it/s] 38%|███▊      | 18011/48008 [2:35:00<3:58:55,  2.09it/s] 38%|███▊      | 18012/48008 [2:35:01<4:27:38,  1.87it/s] 38%|███▊      | 18013/48008 [2:35:01<4:22:34,  1.90it/s] 38%|███▊      | 18014/48008 [2:35:02<4:06:11,  2.03it/s] 38%|███▊      | 18015/48008 [2:35:02<4:07:44,  2.02it/s] 38%|███▊      | 18016/48008 [2:35:03<4:05:31,  2.04it/s] 38%|███▊      | 18017/48008 [2:35:03<4:10:13,  2.00it/s] 38%|███▊      | 18018/48008 [2:35:04<3:57:14,  2.11it/s] 38%|███▊      | 18019/48008 [2:35:04<4:04:15,  2.05it/s] 38%|███▊      | 18020/48008 [2:35:05<4:02:37,  2.06it/s] 38%|███▊      | 18021/48008 [2:35:05<4:32:15,  1.84it/s] 38%|███▊      | 18022/48008 [2:35:06<4:31:59,  1.84it/s] 38%|███▊      | 18023/48008 [2:35:06<4:12:39,  1.98it/s] 38%|███▊      | 18024/48008 [2:35:07<4:14:36,  1.96it/s] 38%|███▊      | 18025/48008 [2:35:07<4:10:06,  2.00it/s] 38%|███▊      | 18026/48008 [2:35:08<4:10:21,  2.00it/s] 38%|███▊      | 18027/48008 [2:35:08<4:07:19,  2.02it/s] 38%|███▊      | 18028/48008 [2:35:09<3:55:45,  2.12it/s] 38%|███▊      | 18029/48008 [2:35:09<3:57:13,  2.11it/s] 38%|███▊      | 18030/48008 [2:35:10<3:48:31,  2.19it/s] 38%|███▊      | 18031/48008 [2:35:10<3:54:46,  2.13it/s] 38%|███▊      | 18032/48008 [2:35:11<3:46:04,  2.21it/s] 38%|███▊      | 18033/48008 [2:35:11<3:54:35,  2.13it/s] 38%|███▊      | 18034/48008 [2:35:12<3:56:28,  2.11it/s] 38%|███▊      | 18035/48008 [2:35:12<3:47:37,  2.19it/s] 38%|███▊      | 18036/48008 [2:35:12<4:00:25,  2.08it/s] 38%|███▊      | 18037/48008 [2:35:13<4:09:37,  2.00it/s] 38%|███▊      | 18038/48008 [2:35:13<3:56:51,  2.11it/s] 38%|███▊      | 18039/48008 [2:35:14<3:57:34,  2.10it/s] 38%|███▊      | 18040/48008 [2:35:14<4:06:25,  2.03it/s] 38%|███▊      | 18041/48008 [2:35:15<4:07:45,  2.02it/s] 38%|███▊      | 18042/48008 [2:35:15<4:05:20,  2.04it/s] 38%|███▊      | 18043/48008 [2:35:16<4:06:57,  2.02it/s] 38%|███▊      | 18044/48008 [2:35:16<4:07:55,  2.01it/s] 38%|███▊      | 18045/48008 [2:35:17<4:05:28,  2.03it/s] 38%|███▊      | 18046/48008 [2:35:17<4:06:26,  2.03it/s] 38%|███▊      | 18047/48008 [2:35:18<4:07:20,  2.02it/s] 38%|███▊      | 18048/48008 [2:35:18<4:05:20,  2.04it/s] 38%|███▊      | 18049/48008 [2:35:19<4:03:10,  2.05it/s] 38%|███▊      | 18050/48008 [2:35:20<5:02:28,  1.65it/s]                                                         {'loss': 4.2599, 'grad_norm': 0.12220574170351028, 'learning_rate': 0.00012480836527245458, 'epoch': 0.38}
 38%|███▊      | 18050/48008 [2:35:20<5:02:28,  1.65it/s] 38%|███▊      | 18051/48008 [2:35:20<4:44:24,  1.76it/s] 38%|███▊      | 18052/48008 [2:35:21<4:31:46,  1.84it/s] 38%|███▊      | 18053/48008 [2:35:21<4:07:14,  2.02it/s] 38%|███▊      | 18054/48008 [2:35:22<4:34:31,  1.82it/s] 38%|███▊      | 18055/48008 [2:35:22<4:27:28,  1.87it/s] 38%|███▊      | 18056/48008 [2:35:23<4:18:47,  1.93it/s] 38%|███▊      | 18057/48008 [2:35:23<4:03:16,  2.05it/s] 38%|███▊      | 18058/48008 [2:35:24<4:02:10,  2.06it/s] 38%|███▊      | 18059/48008 [2:35:24<4:00:42,  2.07it/s] 38%|███▊      | 18060/48008 [2:35:25<3:50:19,  2.17it/s] 38%|███▊      | 18061/48008 [2:35:25<3:56:51,  2.11it/s] 38%|███▊      | 18062/48008 [2:35:26<4:27:25,  1.87it/s] 38%|███▊      | 18063/48008 [2:35:26<4:09:05,  2.00it/s] 38%|███▊      | 18064/48008 [2:35:27<4:05:50,  2.03it/s] 38%|███▊      | 18065/48008 [2:35:27<4:09:38,  2.00it/s] 38%|███▊      | 18066/48008 [2:35:28<4:06:41,  2.02it/s] 38%|███▊      | 18067/48008 [2:35:28<4:04:53,  2.04it/s] 38%|███▊      | 18068/48008 [2:35:29<4:06:39,  2.02it/s] 38%|███▊      | 18069/48008 [2:35:29<4:04:09,  2.04it/s] 38%|███▊      | 18070/48008 [2:35:29<3:53:42,  2.13it/s] 38%|███▊      | 18071/48008 [2:35:30<3:55:48,  2.12it/s] 38%|███▊      | 18072/48008 [2:35:30<3:57:19,  2.10it/s] 38%|███▊      | 18073/48008 [2:35:31<3:48:29,  2.18it/s] 38%|███▊      | 18074/48008 [2:35:31<3:42:11,  2.25it/s] 38%|███▊      | 18075/48008 [2:35:32<3:51:04,  2.16it/s] 38%|███▊      | 18076/48008 [2:35:32<3:57:32,  2.10it/s] 38%|███▊      | 18077/48008 [2:35:33<3:58:42,  2.09it/s] 38%|███▊      | 18078/48008 [2:35:33<3:58:37,  2.09it/s] 38%|███▊      | 18079/48008 [2:35:34<3:58:59,  2.09it/s] 38%|███▊      | 18080/48008 [2:35:34<3:49:28,  2.17it/s] 38%|███▊      | 18081/48008 [2:35:35<3:55:17,  2.12it/s] 38%|███▊      | 18082/48008 [2:35:35<3:59:08,  2.09it/s] 38%|███▊      | 18083/48008 [2:35:36<3:59:57,  2.08it/s] 38%|███▊      | 18084/48008 [2:35:36<4:02:58,  2.05it/s] 38%|███▊      | 18085/48008 [2:35:37<3:52:06,  2.15it/s] 38%|███▊      | 18086/48008 [2:35:37<3:54:17,  2.13it/s] 38%|███▊      | 18087/48008 [2:35:38<3:58:48,  2.09it/s] 38%|███▊      | 18088/48008 [2:35:38<4:02:38,  2.06it/s] 38%|███▊      | 18089/48008 [2:35:39<4:05:59,  2.03it/s] 38%|███▊      | 18090/48008 [2:35:39<4:12:22,  1.98it/s] 38%|███▊      | 18091/48008 [2:35:40<3:58:40,  2.09it/s] 38%|███▊      | 18092/48008 [2:35:40<4:27:10,  1.87it/s] 38%|███▊      | 18093/48008 [2:35:41<4:47:19,  1.74it/s] 38%|███▊      | 18094/48008 [2:35:41<4:41:07,  1.77it/s] 38%|███▊      | 18095/48008 [2:35:42<4:31:48,  1.83it/s] 38%|███▊      | 18096/48008 [2:35:42<4:11:59,  1.98it/s] 38%|███▊      | 18097/48008 [2:35:43<4:08:15,  2.01it/s] 38%|███▊      | 18098/48008 [2:35:43<3:55:40,  2.12it/s] 38%|███▊      | 18099/48008 [2:35:44<4:04:58,  2.03it/s] 38%|███▊      | 18100/48008 [2:35:44<4:08:32,  2.01it/s]                                                         {'loss': 4.233, 'grad_norm': 0.12724879384040833, 'learning_rate': 0.00012460006665555742, 'epoch': 0.38}
 38%|███▊      | 18100/48008 [2:35:44<4:08:32,  2.01it/s] 38%|███▊      | 18101/48008 [2:35:45<4:11:57,  1.98it/s] 38%|███▊      | 18102/48008 [2:35:45<4:15:03,  1.95it/s] 38%|███▊      | 18103/48008 [2:35:46<4:39:50,  1.78it/s] 38%|███▊      | 18104/48008 [2:35:46<4:18:00,  1.93it/s] 38%|███▊      | 18105/48008 [2:35:47<4:11:53,  1.98it/s] 38%|███▊      | 18106/48008 [2:35:47<4:08:14,  2.01it/s] 38%|███▊      | 18107/48008 [2:35:48<3:56:01,  2.11it/s] 38%|███▊      | 18108/48008 [2:35:48<3:47:47,  2.19it/s] 38%|███▊      | 18109/48008 [2:35:49<3:50:33,  2.16it/s] 38%|███▊      | 18110/48008 [2:35:49<3:53:24,  2.13it/s] 38%|███▊      | 18111/48008 [2:35:50<4:01:33,  2.06it/s] 38%|███▊      | 18112/48008 [2:35:50<4:00:57,  2.07it/s] 38%|███▊      | 18113/48008 [2:35:51<4:29:23,  1.85it/s] 38%|███▊      | 18114/48008 [2:35:51<4:19:38,  1.92it/s] 38%|███▊      | 18115/48008 [2:35:52<4:19:12,  1.92it/s] 38%|███▊      | 18116/48008 [2:35:52<4:16:31,  1.94it/s] 38%|███▊      | 18117/48008 [2:35:53<4:17:24,  1.94it/s] 38%|███▊      | 18118/48008 [2:35:53<4:11:06,  1.98it/s] 38%|███▊      | 18119/48008 [2:35:54<4:15:42,  1.95it/s] 38%|███▊      | 18120/48008 [2:35:54<4:10:44,  1.99it/s] 38%|███▊      | 18121/48008 [2:35:55<4:07:28,  2.01it/s] 38%|███▊      | 18122/48008 [2:35:55<4:05:08,  2.03it/s] 38%|███▊      | 18123/48008 [2:35:56<4:03:31,  2.05it/s] 38%|███▊      | 18124/48008 [2:35:56<4:02:22,  2.05it/s] 38%|███▊      | 18125/48008 [2:35:57<4:01:21,  2.06it/s] 38%|███▊      | 18126/48008 [2:35:57<3:45:32,  2.21it/s] 38%|███▊      | 18127/48008 [2:35:58<3:58:24,  2.09it/s] 38%|███▊      | 18128/48008 [2:35:58<3:58:37,  2.09it/s] 38%|███▊      | 18129/48008 [2:35:59<3:58:19,  2.09it/s] 38%|███▊      | 18130/48008 [2:35:59<4:03:56,  2.04it/s] 38%|███▊      | 18131/48008 [2:36:00<4:02:38,  2.05it/s] 38%|███▊      | 18132/48008 [2:36:01<5:56:37,  1.40it/s] 38%|███▊      | 18133/48008 [2:36:01<5:24:46,  1.53it/s] 38%|███▊      | 18134/48008 [2:36:02<5:58:11,  1.39it/s] 38%|███▊      | 18135/48008 [2:36:03<5:22:17,  1.54it/s] 38%|███▊      | 18136/48008 [2:36:03<4:47:24,  1.73it/s] 38%|███▊      | 18137/48008 [2:36:04<4:32:38,  1.83it/s] 38%|███▊      | 18138/48008 [2:36:04<4:50:48,  1.71it/s] 38%|███▊      | 18139/48008 [2:36:05<4:25:09,  1.88it/s] 38%|███▊      | 18140/48008 [2:36:05<4:16:32,  1.94it/s] 38%|███▊      | 18141/48008 [2:36:06<4:16:41,  1.94it/s] 38%|███▊      | 18142/48008 [2:36:06<4:11:13,  1.98it/s] 38%|███▊      | 18143/48008 [2:36:07<3:58:07,  2.09it/s] 38%|███▊      | 18144/48008 [2:36:07<4:06:51,  2.02it/s] 38%|███▊      | 18145/48008 [2:36:08<4:05:09,  2.03it/s] 38%|███▊      | 18146/48008 [2:36:08<5:02:23,  1.65it/s] 38%|███▊      | 18147/48008 [2:36:09<4:51:20,  1.71it/s] 38%|███▊      | 18148/48008 [2:36:09<4:38:52,  1.78it/s] 38%|███▊      | 18149/48008 [2:36:10<4:26:45,  1.87it/s] 38%|███▊      | 18150/48008 [2:36:10<4:18:28,  1.93it/s]                                                         {'loss': 4.2786, 'grad_norm': 0.11262819170951843, 'learning_rate': 0.00012439176803866024, 'epoch': 0.38}
 38%|███▊      | 18150/48008 [2:36:10<4:18:28,  1.93it/s] 38%|███▊      | 18151/48008 [2:36:11<4:19:00,  1.92it/s] 38%|███▊      | 18152/48008 [2:36:11<4:03:26,  2.04it/s] 38%|███▊      | 18153/48008 [2:36:12<4:10:49,  1.98it/s] 38%|███▊      | 18154/48008 [2:36:12<4:10:24,  1.99it/s] 38%|███▊      | 18155/48008 [2:36:13<3:56:52,  2.10it/s] 38%|███▊      | 18156/48008 [2:36:13<3:47:35,  2.19it/s] 38%|███▊      | 18157/48008 [2:36:14<3:56:15,  2.11it/s] 38%|███▊      | 18158/48008 [2:36:14<3:56:44,  2.10it/s] 38%|███▊      | 18159/48008 [2:36:16<5:52:27,  1.41it/s] 38%|███▊      | 18160/48008 [2:36:16<5:27:28,  1.52it/s] 38%|███▊      | 18161/48008 [2:36:17<5:00:32,  1.66it/s] 38%|███▊      | 18162/48008 [2:36:17<4:45:22,  1.74it/s] 38%|███▊      | 18163/48008 [2:36:18<4:31:00,  1.84it/s] 38%|███▊      | 18164/48008 [2:36:18<4:24:12,  1.88it/s] 38%|███▊      | 18165/48008 [2:36:18<4:16:18,  1.94it/s] 38%|███▊      | 18166/48008 [2:36:19<4:11:14,  1.98it/s] 38%|███▊      | 18167/48008 [2:36:19<4:06:54,  2.01it/s] 38%|███▊      | 18168/48008 [2:36:20<4:04:19,  2.04it/s] 38%|███▊      | 18169/48008 [2:36:20<4:05:59,  2.02it/s] 38%|███▊      | 18170/48008 [2:36:21<4:03:44,  2.04it/s] 38%|███▊      | 18171/48008 [2:36:21<4:11:34,  1.98it/s] 38%|███▊      | 18172/48008 [2:36:22<4:07:44,  2.01it/s] 38%|███▊      | 18173/48008 [2:36:22<4:13:51,  1.96it/s] 38%|███▊      | 18174/48008 [2:36:24<6:04:27,  1.36it/s] 38%|███▊      | 18175/48008 [2:36:25<7:21:49,  1.13it/s] 38%|███▊      | 18176/48008 [2:36:25<6:24:02,  1.29it/s] 38%|███▊      | 18177/48008 [2:36:27<7:35:23,  1.09it/s] 38%|███▊      | 18178/48008 [2:36:27<6:30:41,  1.27it/s] 38%|███▊      | 18179/48008 [2:36:28<5:45:10,  1.44it/s] 38%|███▊      | 18180/48008 [2:36:28<5:13:22,  1.59it/s] 38%|███▊      | 18181/48008 [2:36:29<4:57:12,  1.67it/s] 38%|███▊      | 18182/48008 [2:36:29<4:41:04,  1.77it/s] 38%|███▊      | 18183/48008 [2:36:30<4:28:24,  1.85it/s] 38%|███▊      | 18184/48008 [2:36:30<4:19:43,  1.91it/s] 38%|███▊      | 18185/48008 [2:36:31<4:12:49,  1.97it/s] 38%|███▊      | 18186/48008 [2:36:31<4:08:47,  2.00it/s] 38%|███▊      | 18187/48008 [2:36:32<4:05:50,  2.02it/s] 38%|███▊      | 18188/48008 [2:36:32<4:03:35,  2.04it/s] 38%|███▊      | 18189/48008 [2:36:33<4:01:58,  2.05it/s] 38%|███▊      | 18190/48008 [2:36:33<4:01:38,  2.06it/s] 38%|███▊      | 18191/48008 [2:36:34<4:03:54,  2.04it/s] 38%|███▊      | 18192/48008 [2:36:35<5:58:19,  1.39it/s] 38%|███▊      | 18193/48008 [2:36:35<5:28:51,  1.51it/s] 38%|███▊      | 18194/48008 [2:36:36<5:11:07,  1.60it/s] 38%|███▊      | 18195/48008 [2:36:36<4:52:37,  1.70it/s] 38%|███▊      | 18196/48008 [2:36:37<4:26:27,  1.86it/s] 38%|███▊      | 18197/48008 [2:36:37<4:07:59,  2.00it/s] 38%|███▊      | 18198/48008 [2:36:38<4:04:52,  2.03it/s] 38%|███▊      | 18199/48008 [2:36:38<4:08:36,  2.00it/s] 38%|███▊      | 18200/48008 [2:36:39<4:05:26,  2.02it/s]                                                         {'loss': 4.2862, 'grad_norm': 0.12906953692436218, 'learning_rate': 0.00012418346942176303, 'epoch': 0.38}
 38%|███▊      | 18200/48008 [2:36:39<4:05:26,  2.02it/s] 38%|███▊      | 18201/48008 [2:36:39<4:06:56,  2.01it/s] 38%|███▊      | 18202/48008 [2:36:40<4:04:01,  2.04it/s] 38%|███▊      | 18203/48008 [2:36:40<4:02:54,  2.04it/s] 38%|███▊      | 18204/48008 [2:36:41<3:52:09,  2.14it/s] 38%|███▊      | 18205/48008 [2:36:41<3:44:11,  2.22it/s] 38%|███▊      | 18206/48008 [2:36:42<4:17:25,  1.93it/s] 38%|███▊      | 18207/48008 [2:36:42<4:11:01,  1.98it/s] 38%|███▊      | 18208/48008 [2:36:43<4:10:36,  1.98it/s] 38%|███▊      | 18209/48008 [2:36:43<4:12:50,  1.96it/s] 38%|███▊      | 18210/48008 [2:36:44<4:14:10,  1.95it/s] 38%|███▊      | 18211/48008 [2:36:44<4:12:39,  1.97it/s] 38%|███▊      | 18212/48008 [2:36:45<4:12:18,  1.97it/s] 38%|███▊      | 18213/48008 [2:36:45<4:07:49,  2.00it/s] 38%|███▊      | 18214/48008 [2:36:46<4:08:09,  2.00it/s] 38%|███▊      | 18215/48008 [2:36:46<4:05:57,  2.02it/s] 38%|███▊      | 18216/48008 [2:36:47<4:33:05,  1.82it/s] 38%|███▊      | 18217/48008 [2:36:47<4:22:47,  1.89it/s] 38%|███▊      | 18218/48008 [2:36:48<4:20:43,  1.90it/s] 38%|███▊      | 18219/48008 [2:36:48<4:17:36,  1.93it/s] 38%|███▊      | 18220/48008 [2:36:49<4:17:45,  1.93it/s] 38%|███▊      | 18221/48008 [2:36:49<4:14:51,  1.95it/s] 38%|███▊      | 18222/48008 [2:36:50<4:00:09,  2.07it/s] 38%|███▊      | 18223/48008 [2:36:50<4:03:14,  2.04it/s] 38%|███▊      | 18224/48008 [2:36:51<4:07:08,  2.01it/s] 38%|███▊      | 18225/48008 [2:36:51<4:04:40,  2.03it/s] 38%|███▊      | 18226/48008 [2:36:52<4:08:22,  2.00it/s] 38%|███▊      | 18227/48008 [2:36:52<4:34:04,  1.81it/s] 38%|███▊      | 18228/48008 [2:36:53<4:23:27,  1.88it/s] 38%|███▊      | 18229/48008 [2:36:53<4:19:33,  1.91it/s] 38%|███▊      | 18230/48008 [2:36:54<4:02:54,  2.04it/s] 38%|███▊      | 18231/48008 [2:36:54<3:51:32,  2.14it/s] 38%|███▊      | 18232/48008 [2:36:55<5:47:32,  1.43it/s] 38%|███▊      | 18233/48008 [2:36:56<5:17:42,  1.56it/s] 38%|███▊      | 18234/48008 [2:36:56<4:59:05,  1.66it/s] 38%|███▊      | 18235/48008 [2:36:57<4:49:05,  1.72it/s] 38%|███▊      | 18236/48008 [2:36:58<5:32:12,  1.49it/s] 38%|███▊      | 18237/48008 [2:36:58<5:09:53,  1.60it/s] 38%|███▊      | 18238/48008 [2:36:59<4:48:43,  1.72it/s] 38%|███▊      | 18239/48008 [2:36:59<4:38:53,  1.78it/s] 38%|███▊      | 18240/48008 [2:37:00<4:32:30,  1.82it/s] 38%|███▊      | 18241/48008 [2:37:00<4:12:38,  1.96it/s] 38%|███▊      | 18242/48008 [2:37:01<4:13:39,  1.96it/s] 38%|███▊      | 18243/48008 [2:37:01<4:09:12,  1.99it/s] 38%|███▊      | 18244/48008 [2:37:02<3:56:23,  2.10it/s] 38%|███▊      | 18245/48008 [2:37:02<3:57:36,  2.09it/s] 38%|███▊      | 18246/48008 [2:37:03<3:57:26,  2.09it/s] 38%|███▊      | 18247/48008 [2:37:03<3:47:54,  2.18it/s] 38%|███▊      | 18248/48008 [2:37:04<3:51:04,  2.15it/s] 38%|███▊      | 18249/48008 [2:37:04<3:56:20,  2.10it/s] 38%|███▊      | 18250/48008 [2:37:05<4:00:20,  2.06it/s]                                                         {'loss': 4.3163, 'grad_norm': 0.09847180545330048, 'learning_rate': 0.00012397517080486587, 'epoch': 0.38}
 38%|███▊      | 18250/48008 [2:37:05<4:00:20,  2.06it/s] 38%|███▊      | 18251/48008 [2:37:05<4:03:22,  2.04it/s] 38%|███▊      | 18252/48008 [2:37:06<4:30:08,  1.84it/s] 38%|███▊      | 18253/48008 [2:37:06<4:26:06,  1.86it/s] 38%|███▊      | 18254/48008 [2:37:07<5:17:30,  1.56it/s] 38%|███▊      | 18255/48008 [2:37:08<4:54:30,  1.68it/s] 38%|███▊      | 18256/48008 [2:37:08<4:40:30,  1.77it/s] 38%|███▊      | 18257/48008 [2:37:09<4:27:28,  1.85it/s] 38%|███▊      | 18258/48008 [2:37:09<4:24:14,  1.88it/s] 38%|███▊      | 18259/48008 [2:37:10<4:07:09,  2.01it/s] 38%|███▊      | 18260/48008 [2:37:10<4:04:26,  2.03it/s] 38%|███▊      | 18261/48008 [2:37:11<4:06:24,  2.01it/s] 38%|███▊      | 18262/48008 [2:37:11<4:07:39,  2.00it/s] 38%|███▊      | 18263/48008 [2:37:12<4:33:36,  1.81it/s] 38%|███▊      | 18264/48008 [2:37:12<4:22:37,  1.89it/s] 38%|███▊      | 18265/48008 [2:37:13<4:14:37,  1.95it/s] 38%|███▊      | 18266/48008 [2:37:13<4:08:56,  1.99it/s] 38%|███▊      | 18267/48008 [2:37:14<4:13:52,  1.95it/s] 38%|███▊      | 18268/48008 [2:37:14<4:15:36,  1.94it/s] 38%|███▊      | 18269/48008 [2:37:15<3:55:36,  2.10it/s] 38%|███▊      | 18270/48008 [2:37:15<3:59:07,  2.07it/s] 38%|███▊      | 18271/48008 [2:37:16<4:07:37,  2.00it/s] 38%|███▊      | 18272/48008 [2:37:16<4:04:28,  2.03it/s] 38%|███▊      | 18273/48008 [2:37:17<4:02:40,  2.04it/s] 38%|███▊      | 18274/48008 [2:37:18<5:57:05,  1.39it/s] 38%|███▊      | 18275/48008 [2:37:18<5:11:38,  1.59it/s] 38%|███▊      | 18276/48008 [2:37:19<4:39:54,  1.77it/s] 38%|███▊      | 18277/48008 [2:37:19<4:27:40,  1.85it/s] 38%|███▊      | 18278/48008 [2:37:20<4:18:57,  1.91it/s] 38%|███▊      | 18279/48008 [2:37:20<4:15:56,  1.94it/s] 38%|███▊      | 18280/48008 [2:37:21<4:38:50,  1.78it/s] 38%|███▊      | 18281/48008 [2:37:21<4:29:54,  1.84it/s] 38%|███▊      | 18282/48008 [2:37:22<4:20:28,  1.90it/s] 38%|███▊      | 18283/48008 [2:37:22<4:13:15,  1.96it/s] 38%|███▊      | 18284/48008 [2:37:23<4:12:00,  1.97it/s] 38%|███▊      | 18285/48008 [2:37:23<3:57:58,  2.08it/s] 38%|███▊      | 18286/48008 [2:37:24<4:03:30,  2.03it/s] 38%|███▊      | 18287/48008 [2:37:24<3:52:07,  2.13it/s] 38%|███▊      | 18288/48008 [2:37:25<4:02:42,  2.04it/s] 38%|███▊      | 18289/48008 [2:37:25<4:10:02,  1.98it/s] 38%|███▊      | 18290/48008 [2:37:26<4:12:07,  1.96it/s] 38%|███▊      | 18291/48008 [2:37:26<4:07:36,  2.00it/s] 38%|███▊      | 18292/48008 [2:37:27<4:10:26,  1.98it/s] 38%|███▊      | 18293/48008 [2:37:27<4:12:09,  1.96it/s] 38%|███▊      | 18294/48008 [2:37:28<4:07:54,  2.00it/s] 38%|███▊      | 18295/48008 [2:37:28<3:54:57,  2.11it/s] 38%|███▊      | 18296/48008 [2:37:29<3:55:33,  2.10it/s] 38%|███▊      | 18297/48008 [2:37:29<4:01:19,  2.05it/s] 38%|███▊      | 18298/48008 [2:37:30<4:03:03,  2.04it/s] 38%|███▊      | 18299/48008 [2:37:30<4:30:10,  1.83it/s] 38%|███▊      | 18300/48008 [2:37:31<4:21:01,  1.90it/s]                                                         {'loss': 4.2822, 'grad_norm': 0.11494582891464233, 'learning_rate': 0.00012376687218796867, 'epoch': 0.38}
 38%|███▊      | 18300/48008 [2:37:31<4:21:01,  1.90it/s] 38%|███▊      | 18301/48008 [2:37:31<4:14:14,  1.95it/s] 38%|███▊      | 18302/48008 [2:37:32<3:59:30,  2.07it/s] 38%|███▊      | 18303/48008 [2:37:32<3:59:52,  2.06it/s] 38%|███▊      | 18304/48008 [2:37:33<5:53:59,  1.40it/s] 38%|███▊      | 18305/48008 [2:37:34<5:09:14,  1.60it/s] 38%|███▊      | 18306/48008 [2:37:34<4:47:21,  1.72it/s] 38%|███▊      | 18307/48008 [2:37:36<6:26:33,  1.28it/s] 38%|███▊      | 18308/48008 [2:37:36<5:42:00,  1.45it/s] 38%|███▊      | 18309/48008 [2:37:37<5:39:36,  1.46it/s] 38%|███▊      | 18310/48008 [2:37:37<5:14:34,  1.57it/s] 38%|███▊      | 18311/48008 [2:37:38<4:51:53,  1.70it/s] 38%|███▊      | 18312/48008 [2:37:38<4:20:34,  1.90it/s] 38%|███▊      | 18313/48008 [2:37:39<4:17:21,  1.92it/s] 38%|███▊      | 18314/48008 [2:37:39<4:14:51,  1.94it/s] 38%|███▊      | 18315/48008 [2:37:40<4:09:37,  1.98it/s] 38%|███▊      | 18316/48008 [2:37:40<4:09:25,  1.98it/s] 38%|███▊      | 18317/48008 [2:37:41<4:34:08,  1.81it/s] 38%|███▊      | 18318/48008 [2:37:41<4:28:51,  1.84it/s] 38%|███▊      | 18319/48008 [2:37:42<4:19:21,  1.91it/s] 38%|███▊      | 18320/48008 [2:37:42<4:18:28,  1.91it/s] 38%|███▊      | 18321/48008 [2:37:43<4:15:36,  1.94it/s] 38%|███▊      | 18322/48008 [2:37:43<4:15:23,  1.94it/s] 38%|███▊      | 18323/48008 [2:37:44<4:13:07,  1.95it/s] 38%|███▊      | 18324/48008 [2:37:44<3:58:53,  2.07it/s] 38%|███▊      | 18325/48008 [2:37:45<3:48:50,  2.16it/s] 38%|███▊      | 18326/48008 [2:37:45<3:51:09,  2.14it/s] 38%|███▊      | 18327/48008 [2:37:46<3:58:35,  2.07it/s] 38%|███▊      | 18328/48008 [2:37:46<4:04:13,  2.03it/s] 38%|███▊      | 18329/48008 [2:37:47<4:05:25,  2.02it/s] 38%|███▊      | 18330/48008 [2:37:47<4:03:10,  2.03it/s] 38%|███▊      | 18331/48008 [2:37:48<4:04:37,  2.02it/s] 38%|███▊      | 18332/48008 [2:37:48<4:07:30,  2.00it/s] 38%|███▊      | 18333/48008 [2:37:49<4:08:14,  1.99it/s] 38%|███▊      | 18334/48008 [2:37:49<4:04:32,  2.02it/s] 38%|███▊      | 18335/48008 [2:37:50<4:05:55,  2.01it/s] 38%|███▊      | 18336/48008 [2:37:50<4:03:21,  2.03it/s] 38%|███▊      | 18337/48008 [2:37:51<4:01:47,  2.05it/s] 38%|███▊      | 18338/48008 [2:37:51<4:06:01,  2.01it/s] 38%|███▊      | 18339/48008 [2:37:52<4:06:52,  2.00it/s] 38%|███▊      | 18340/48008 [2:37:52<4:03:47,  2.03it/s] 38%|███▊      | 18341/48008 [2:37:53<4:01:52,  2.04it/s] 38%|███▊      | 18342/48008 [2:37:53<4:00:36,  2.05it/s] 38%|███▊      | 18343/48008 [2:37:54<4:08:31,  1.99it/s] 38%|███▊      | 18344/48008 [2:37:54<4:08:35,  1.99it/s] 38%|███▊      | 18345/48008 [2:37:55<4:05:24,  2.01it/s] 38%|███▊      | 18346/48008 [2:37:55<4:02:14,  2.04it/s] 38%|███▊      | 18347/48008 [2:37:56<4:00:31,  2.06it/s] 38%|███▊      | 18348/48008 [2:37:56<3:49:59,  2.15it/s] 38%|███▊      | 18349/48008 [2:37:56<3:57:40,  2.08it/s] 38%|███▊      | 18350/48008 [2:37:57<3:57:41,  2.08it/s]                                                         {'loss': 4.3024, 'grad_norm': 0.11101099848747253, 'learning_rate': 0.0001235585735710715, 'epoch': 0.38} 38%|███▊      | 18350/48008 [2:37:57<3:57:41,  2.08it/s]
 38%|███▊      | 18351/48008 [2:37:57<3:57:27,  2.08it/s] 38%|███▊      | 18352/48008 [2:37:58<4:05:51,  2.01it/s] 38%|███▊      | 18353/48008 [2:37:58<3:53:43,  2.11it/s] 38%|███▊      | 18354/48008 [2:37:59<4:00:33,  2.05it/s] 38%|███▊      | 18355/48008 [2:37:59<4:02:51,  2.03it/s] 38%|███▊      | 18356/48008 [2:38:00<4:09:22,  1.98it/s] 38%|███▊      | 18357/48008 [2:38:00<3:56:01,  2.09it/s] 38%|███▊      | 18358/48008 [2:38:01<3:56:12,  2.09it/s] 38%|███▊      | 18359/48008 [2:38:01<3:46:29,  2.18it/s] 38%|███▊      | 18360/48008 [2:38:02<3:54:54,  2.10it/s] 38%|███▊      | 18361/48008 [2:38:02<3:54:56,  2.10it/s] 38%|███▊      | 18362/48008 [2:38:03<3:54:57,  2.10it/s] 38%|███▊      | 18363/48008 [2:38:03<3:55:02,  2.10it/s] 38%|███▊      | 18364/48008 [2:38:04<3:45:39,  2.19it/s] 38%|███▊      | 18365/48008 [2:38:04<3:52:49,  2.12it/s] 38%|███▊      | 18366/48008 [2:38:05<3:44:24,  2.20it/s] 38%|███▊      | 18367/48008 [2:38:05<3:48:07,  2.17it/s] 38%|███▊      | 18368/48008 [2:38:06<3:57:09,  2.08it/s] 38%|███▊      | 18369/48008 [2:38:06<4:03:09,  2.03it/s] 38%|███▊      | 18370/48008 [2:38:07<5:54:57,  1.39it/s] 38%|███▊      | 18371/48008 [2:38:08<5:19:24,  1.55it/s] 38%|███▊      | 18372/48008 [2:38:08<4:58:31,  1.65it/s] 38%|███▊      | 18373/48008 [2:38:09<4:30:19,  1.83it/s] 38%|███▊      | 18374/48008 [2:38:09<4:20:19,  1.90it/s] 38%|███▊      | 18375/48008 [2:38:10<4:03:30,  2.03it/s] 38%|███▊      | 18376/48008 [2:38:10<3:51:56,  2.13it/s] 38%|███▊      | 18377/48008 [2:38:10<3:43:51,  2.21it/s] 38%|███▊      | 18378/48008 [2:38:11<3:50:40,  2.14it/s] 38%|███▊      | 18379/48008 [2:38:11<3:42:29,  2.22it/s] 38%|███▊      | 18380/48008 [2:38:12<3:50:38,  2.14it/s] 38%|███▊      | 18381/48008 [2:38:12<3:56:24,  2.09it/s] 38%|███▊      | 18382/48008 [2:38:13<3:56:26,  2.09it/s] 38%|███▊      | 18383/48008 [2:38:13<3:56:22,  2.09it/s] 38%|███▊      | 18384/48008 [2:38:14<3:59:23,  2.06it/s] 38%|███▊      | 18385/48008 [2:38:14<3:58:51,  2.07it/s] 38%|███▊      | 18386/48008 [2:38:15<4:01:31,  2.04it/s] 38%|███▊      | 18387/48008 [2:38:15<3:50:19,  2.14it/s] 38%|███▊      | 18388/48008 [2:38:16<3:52:37,  2.12it/s] 38%|███▊      | 18389/48008 [2:38:16<3:53:40,  2.11it/s] 38%|███▊      | 18390/48008 [2:38:17<3:54:48,  2.10it/s] 38%|███▊      | 18391/48008 [2:38:17<3:45:22,  2.19it/s] 38%|███▊      | 18392/48008 [2:38:18<3:52:38,  2.12it/s] 38%|███▊      | 18393/48008 [2:38:18<3:43:47,  2.21it/s] 38%|███▊      | 18394/48008 [2:38:19<3:56:31,  2.09it/s] 38%|███▊      | 18395/48008 [2:38:19<3:46:43,  2.18it/s] 38%|███▊      | 18396/48008 [2:38:19<3:52:52,  2.12it/s] 38%|███▊      | 18397/48008 [2:38:20<3:54:11,  2.11it/s] 38%|███▊      | 18398/48008 [2:38:20<3:58:11,  2.07it/s] 38%|███▊      | 18399/48008 [2:38:21<4:26:35,  1.85it/s] 38%|███▊      | 18400/48008 [2:38:22<4:17:35,  1.92it/s]                                                         {'loss': 4.2048, 'grad_norm': 0.11951960623264313, 'learning_rate': 0.0001233502749541743, 'epoch': 0.38}
 38%|███▊      | 18400/48008 [2:38:22<4:17:35,  1.92it/s] 38%|███▊      | 18401/48008 [2:38:22<4:17:13,  1.92it/s] 38%|███▊      | 18402/48008 [2:38:23<4:13:54,  1.94it/s] 38%|███▊      | 18403/48008 [2:38:23<4:08:37,  1.98it/s] 38%|███▊      | 18404/48008 [2:38:24<4:33:49,  1.80it/s] 38%|███▊      | 18405/48008 [2:38:24<4:21:51,  1.88it/s] 38%|███▊      | 18406/48008 [2:38:25<4:17:45,  1.91it/s] 38%|███▊      | 18407/48008 [2:38:25<4:11:31,  1.96it/s] 38%|███▊      | 18408/48008 [2:38:26<4:10:16,  1.97it/s] 38%|███▊      | 18409/48008 [2:38:26<4:11:45,  1.96it/s] 38%|███▊      | 18410/48008 [2:38:27<6:00:37,  1.37it/s] 38%|███▊      | 18411/48008 [2:38:28<5:13:48,  1.57it/s] 38%|███▊      | 18412/48008 [2:38:28<4:40:50,  1.76it/s] 38%|███▊      | 18413/48008 [2:38:29<4:30:58,  1.82it/s] 38%|███▊      | 18414/48008 [2:38:29<4:21:16,  1.89it/s] 38%|███▊      | 18415/48008 [2:38:30<4:19:52,  1.90it/s] 38%|███▊      | 18416/48008 [2:38:30<4:18:24,  1.91it/s] 38%|███▊      | 18417/48008 [2:38:31<5:10:24,  1.59it/s] 38%|███▊      | 18418/48008 [2:38:32<4:48:14,  1.71it/s] 38%|███▊      | 18419/48008 [2:38:32<4:40:30,  1.76it/s] 38%|███▊      | 18420/48008 [2:38:33<4:31:00,  1.82it/s] 38%|███▊      | 18421/48008 [2:38:33<4:20:25,  1.89it/s] 38%|███▊      | 18422/48008 [2:38:34<5:12:23,  1.58it/s] 38%|███▊      | 18423/48008 [2:38:35<4:49:12,  1.70it/s] 38%|███▊      | 18424/48008 [2:38:35<4:24:16,  1.87it/s] 38%|███▊      | 18425/48008 [2:38:35<4:21:31,  1.89it/s] 38%|███▊      | 18426/48008 [2:38:36<4:14:01,  1.94it/s] 38%|███▊      | 18427/48008 [2:38:36<4:12:42,  1.95it/s] 38%|███▊      | 18428/48008 [2:38:37<4:08:31,  1.98it/s] 38%|███▊      | 18429/48008 [2:38:37<4:04:53,  2.01it/s] 38%|███▊      | 18430/48008 [2:38:38<4:02:37,  2.03it/s] 38%|███▊      | 18431/48008 [2:38:38<3:51:14,  2.13it/s] 38%|███▊      | 18432/48008 [2:38:39<3:52:31,  2.12it/s] 38%|███▊      | 18433/48008 [2:38:39<3:59:46,  2.06it/s] 38%|███▊      | 18434/48008 [2:38:40<3:58:45,  2.06it/s] 38%|███▊      | 18435/48008 [2:38:40<3:49:10,  2.15it/s] 38%|███▊      | 18436/48008 [2:38:41<4:00:36,  2.05it/s] 38%|███▊      | 18437/48008 [2:38:41<3:59:58,  2.05it/s] 38%|███▊      | 18438/48008 [2:38:42<3:59:19,  2.06it/s] 38%|███▊      | 18439/48008 [2:38:42<3:58:47,  2.06it/s] 38%|███▊      | 18440/48008 [2:38:43<4:01:46,  2.04it/s] 38%|███▊      | 18441/48008 [2:38:43<3:51:10,  2.13it/s] 38%|███▊      | 18442/48008 [2:38:44<3:56:56,  2.08it/s] 38%|███▊      | 18443/48008 [2:38:44<4:02:53,  2.03it/s] 38%|███▊      | 18444/48008 [2:38:45<4:04:00,  2.02it/s] 38%|███▊      | 18445/48008 [2:38:45<4:05:23,  2.01it/s] 38%|███▊      | 18446/48008 [2:38:46<3:53:28,  2.11it/s] 38%|███▊      | 18447/48008 [2:38:46<3:53:58,  2.11it/s] 38%|███▊      | 18448/48008 [2:38:47<3:54:24,  2.10it/s] 38%|███▊      | 18449/48008 [2:38:47<3:54:40,  2.10it/s] 38%|███▊      | 18450/48008 [2:38:48<3:55:48,  2.09it/s]                                                         {'loss': 4.2307, 'grad_norm': 0.11137427389621735, 'learning_rate': 0.00012314197633727714, 'epoch': 0.38}
 38%|███▊      | 18450/48008 [2:38:48<3:55:48,  2.09it/s] 38%|███▊      | 18451/48008 [2:38:48<4:54:20,  1.67it/s] 38%|███▊      | 18452/48008 [2:38:49<4:40:32,  1.76it/s] 38%|███▊      | 18453/48008 [2:38:49<4:27:28,  1.84it/s] 38%|███▊      | 18454/48008 [2:38:50<4:27:39,  1.84it/s] 38%|███▊      | 18455/48008 [2:38:51<4:47:17,  1.71it/s] 38%|███▊      | 18456/48008 [2:38:51<4:31:34,  1.81it/s] 38%|███▊      | 18457/48008 [2:38:52<4:50:40,  1.69it/s] 38%|███▊      | 18458/48008 [2:38:52<4:34:26,  1.79it/s] 38%|███▊      | 18459/48008 [2:38:53<4:51:34,  1.69it/s] 38%|███▊      | 18460/48008 [2:38:53<4:35:10,  1.79it/s] 38%|███▊      | 18461/48008 [2:38:54<4:29:22,  1.83it/s] 38%|███▊      | 18462/48008 [2:38:54<4:19:16,  1.90it/s] 38%|███▊      | 18463/48008 [2:38:55<4:13:06,  1.95it/s] 38%|███▊      | 18464/48008 [2:38:56<4:37:06,  1.78it/s] 38%|███▊      | 18465/48008 [2:38:56<4:33:36,  1.80it/s] 38%|███▊      | 18466/48008 [2:38:57<4:13:02,  1.95it/s] 38%|███▊      | 18467/48008 [2:38:57<4:11:15,  1.96it/s] 38%|███▊      | 18468/48008 [2:38:57<4:07:00,  1.99it/s] 38%|███▊      | 18469/48008 [2:38:58<4:04:43,  2.01it/s] 38%|███▊      | 18470/48008 [2:38:58<4:05:39,  2.00it/s] 38%|███▊      | 18471/48008 [2:38:59<3:48:06,  2.16it/s] 38%|███▊      | 18472/48008 [2:38:59<3:59:20,  2.06it/s] 38%|███▊      | 18473/48008 [2:39:00<3:59:21,  2.06it/s] 38%|███▊      | 18474/48008 [2:39:00<3:58:15,  2.07it/s] 38%|███▊      | 18475/48008 [2:39:01<3:57:34,  2.07it/s] 38%|███▊      | 18476/48008 [2:39:01<4:00:04,  2.05it/s] 38%|███▊      | 18477/48008 [2:39:02<3:59:10,  2.06it/s] 38%|███▊      | 18478/48008 [2:39:02<3:58:20,  2.06it/s] 38%|███▊      | 18479/48008 [2:39:03<4:01:45,  2.04it/s] 38%|███▊      | 18480/48008 [2:39:03<3:59:44,  2.05it/s] 38%|███▊      | 18481/48008 [2:39:04<3:59:12,  2.06it/s] 38%|███▊      | 18482/48008 [2:39:04<4:01:22,  2.04it/s] 38%|███▊      | 18483/48008 [2:39:05<3:59:54,  2.05it/s] 39%|███▊      | 18484/48008 [2:39:05<3:58:45,  2.06it/s] 39%|███▊      | 18485/48008 [2:39:06<3:57:59,  2.07it/s] 39%|███▊      | 18486/48008 [2:39:06<3:57:43,  2.07it/s] 39%|███▊      | 18487/48008 [2:39:07<4:00:26,  2.05it/s] 39%|███▊      | 18488/48008 [2:39:07<4:05:00,  2.01it/s] 39%|███▊      | 18489/48008 [2:39:08<5:00:37,  1.64it/s] 39%|███▊      | 18490/48008 [2:39:09<4:41:28,  1.75it/s] 39%|███▊      | 18491/48008 [2:39:09<4:28:06,  1.83it/s] 39%|███▊      | 18492/48008 [2:39:10<4:18:43,  1.90it/s] 39%|███▊      | 18493/48008 [2:39:10<4:15:59,  1.92it/s] 39%|███▊      | 18494/48008 [2:39:11<4:15:41,  1.92it/s] 39%|███▊      | 18495/48008 [2:39:11<4:12:53,  1.95it/s] 39%|███▊      | 18496/48008 [2:39:12<4:08:29,  1.98it/s] 39%|███▊      | 18497/48008 [2:39:12<3:54:57,  2.09it/s] 39%|███▊      | 18498/48008 [2:39:13<4:24:00,  1.86it/s] 39%|███▊      | 18499/48008 [2:39:13<4:15:33,  1.92it/s] 39%|███▊      | 18500/48008 [2:39:14<4:10:02,  1.97it/s]                                                         {'loss': 4.2635, 'grad_norm': 0.10684935748577118, 'learning_rate': 0.00012293367772037993, 'epoch': 0.39}
 39%|███▊      | 18500/48008 [2:39:14<4:10:02,  1.97it/s] 39%|███▊      | 18501/48008 [2:39:14<4:06:13,  2.00it/s] 39%|███▊      | 18502/48008 [2:39:15<4:11:52,  1.95it/s] 39%|███▊      | 18503/48008 [2:39:15<3:57:36,  2.07it/s] 39%|███▊      | 18504/48008 [2:39:15<3:47:18,  2.16it/s] 39%|███▊      | 18505/48008 [2:39:16<3:50:15,  2.14it/s] 39%|███▊      | 18506/48008 [2:39:17<4:50:34,  1.69it/s] 39%|███▊      | 18507/48008 [2:39:17<4:37:42,  1.77it/s] 39%|███▊      | 18508/48008 [2:39:18<4:24:57,  1.86it/s] 39%|███▊      | 18509/48008 [2:39:18<4:20:12,  1.89it/s] 39%|███▊      | 18510/48008 [2:39:19<4:13:19,  1.94it/s] 39%|███▊      | 18511/48008 [2:39:19<4:08:27,  1.98it/s] 39%|███▊      | 18512/48008 [2:39:20<4:04:52,  2.01it/s] 39%|███▊      | 18513/48008 [2:39:21<5:01:07,  1.63it/s] 39%|███▊      | 18514/48008 [2:39:21<4:41:30,  1.75it/s] 39%|███▊      | 18515/48008 [2:39:22<4:33:53,  1.79it/s] 39%|███▊      | 18516/48008 [2:39:22<4:22:34,  1.87it/s] 39%|███▊      | 18517/48008 [2:39:23<4:43:50,  1.73it/s] 39%|███▊      | 18518/48008 [2:39:23<4:30:20,  1.82it/s] 39%|███▊      | 18519/48008 [2:39:24<4:20:10,  1.89it/s] 39%|███▊      | 18520/48008 [2:39:24<4:18:32,  1.90it/s] 39%|███▊      | 18521/48008 [2:39:25<5:09:36,  1.59it/s] 39%|███▊      | 18522/48008 [2:39:26<4:47:33,  1.71it/s] 39%|███▊      | 18523/48008 [2:39:26<5:00:40,  1.63it/s] 39%|███▊      | 18524/48008 [2:39:27<4:31:34,  1.81it/s] 39%|███▊      | 18525/48008 [2:39:27<4:24:17,  1.86it/s] 39%|███▊      | 18526/48008 [2:39:28<4:06:06,  2.00it/s] 39%|███▊      | 18527/48008 [2:39:28<4:08:45,  1.98it/s] 39%|███▊      | 18528/48008 [2:39:29<4:10:38,  1.96it/s] 39%|███▊      | 18529/48008 [2:39:29<4:12:12,  1.95it/s] 39%|███▊      | 18530/48008 [2:39:30<4:07:25,  1.99it/s] 39%|███▊      | 18531/48008 [2:39:30<3:54:13,  2.10it/s] 39%|███▊      | 18532/48008 [2:39:30<3:45:33,  2.18it/s] 39%|███▊      | 18533/48008 [2:39:31<3:54:22,  2.10it/s] 39%|███▊      | 18534/48008 [2:39:31<3:54:30,  2.09it/s] 39%|███▊      | 18535/48008 [2:39:32<3:45:25,  2.18it/s] 39%|███▊      | 18536/48008 [2:39:32<3:48:39,  2.15it/s] 39%|███▊      | 18537/48008 [2:39:33<3:50:47,  2.13it/s] 39%|███▊      | 18538/48008 [2:39:33<3:58:00,  2.06it/s] 39%|███▊      | 18539/48008 [2:39:34<4:00:38,  2.04it/s] 39%|███▊      | 18540/48008 [2:39:34<4:02:38,  2.02it/s] 39%|███▊      | 18541/48008 [2:39:35<4:08:42,  1.97it/s] 39%|███▊      | 18542/48008 [2:39:35<3:54:46,  2.09it/s] 39%|███▊      | 18543/48008 [2:39:36<3:58:41,  2.06it/s] 39%|███▊      | 18544/48008 [2:39:36<4:03:08,  2.02it/s] 39%|███▊      | 18545/48008 [2:39:37<4:06:42,  1.99it/s] 39%|███▊      | 18546/48008 [2:39:37<4:07:15,  1.99it/s] 39%|███▊      | 18547/48008 [2:39:38<4:03:43,  2.01it/s] 39%|███▊      | 18548/48008 [2:39:38<4:00:53,  2.04it/s] 39%|███▊      | 18549/48008 [2:39:39<3:59:27,  2.05it/s] 39%|███▊      | 18550/48008 [2:39:40<4:27:27,  1.84it/s]                                                         {'loss': 4.2784, 'grad_norm': 0.13331910967826843, 'learning_rate': 0.00012272537910348275, 'epoch': 0.39}
 39%|███▊      | 18550/48008 [2:39:40<4:27:27,  1.84it/s] 39%|███▊      | 18551/48008 [2:39:40<4:08:32,  1.98it/s] 39%|███▊      | 18552/48008 [2:39:40<4:04:45,  2.01it/s] 39%|███▊      | 18553/48008 [2:39:41<4:01:33,  2.03it/s] 39%|███▊      | 18554/48008 [2:39:41<3:50:08,  2.13it/s] 39%|███▊      | 18555/48008 [2:39:42<3:57:32,  2.07it/s] 39%|███▊      | 18556/48008 [2:39:42<3:57:24,  2.07it/s] 39%|███▊      | 18557/48008 [2:39:43<4:06:08,  1.99it/s] 39%|███▊      | 18558/48008 [2:39:43<4:03:09,  2.02it/s] 39%|███▊      | 18559/48008 [2:39:44<4:01:07,  2.04it/s] 39%|███▊      | 18560/48008 [2:39:44<4:02:39,  2.02it/s] 39%|███▊      | 18561/48008 [2:39:45<4:03:59,  2.01it/s] 39%|███▊      | 18562/48008 [2:39:46<6:13:46,  1.31it/s] 39%|███▊      | 18563/48008 [2:39:47<5:32:09,  1.48it/s] 39%|███▊      | 18564/48008 [2:39:48<6:01:36,  1.36it/s] 39%|███▊      | 18565/48008 [2:39:48<5:27:12,  1.50it/s] 39%|███▊      | 18566/48008 [2:39:49<5:02:53,  1.62it/s] 39%|███▊      | 18567/48008 [2:39:49<5:11:06,  1.58it/s] 39%|███▊      | 18568/48008 [2:39:51<7:00:09,  1.17it/s] 39%|███▊      | 18569/48008 [2:39:51<5:55:01,  1.38it/s] 39%|███▊      | 18570/48008 [2:39:52<5:23:03,  1.52it/s] 39%|███▊      | 18571/48008 [2:39:52<4:56:29,  1.65it/s] 39%|███▊      | 18572/48008 [2:39:52<4:37:58,  1.76it/s] 39%|███▊      | 18573/48008 [2:39:53<4:33:35,  1.79it/s] 39%|███▊      | 18574/48008 [2:39:54<5:50:22,  1.40it/s] 39%|███▊      | 18575/48008 [2:39:55<5:16:10,  1.55it/s] 39%|███▊      | 18576/48008 [2:39:55<4:51:44,  1.68it/s] 39%|███▊      | 18577/48008 [2:39:56<4:34:24,  1.79it/s] 39%|███▊      | 18578/48008 [2:39:56<4:28:41,  1.83it/s] 39%|███▊      | 18579/48008 [2:39:57<4:24:29,  1.85it/s] 39%|███▊      | 18580/48008 [2:39:57<4:21:14,  1.88it/s] 39%|███▊      | 18581/48008 [2:39:58<4:17:09,  1.91it/s] 39%|███▊      | 18582/48008 [2:39:58<4:00:51,  2.04it/s] 39%|███▊      | 18583/48008 [2:39:59<4:07:31,  1.98it/s] 39%|███▊      | 18584/48008 [2:39:59<4:07:39,  1.98it/s] 39%|███▊      | 18585/48008 [2:40:00<4:03:42,  2.01it/s] 39%|███▊      | 18586/48008 [2:40:00<4:06:53,  1.99it/s] 39%|███▊      | 18587/48008 [2:40:01<4:06:54,  1.99it/s] 39%|███▊      | 18588/48008 [2:40:01<4:07:11,  1.98it/s] 39%|███▊      | 18589/48008 [2:40:02<4:08:45,  1.97it/s] 39%|███▊      | 18590/48008 [2:40:02<4:04:31,  2.01it/s] 39%|███▊      | 18591/48008 [2:40:03<4:01:38,  2.03it/s] 39%|███▊      | 18592/48008 [2:40:03<4:05:47,  1.99it/s] 39%|███▊      | 18593/48008 [2:40:04<4:02:51,  2.02it/s] 39%|███▊      | 18594/48008 [2:40:04<4:58:53,  1.64it/s] 39%|███▊      | 18595/48008 [2:40:05<4:40:02,  1.75it/s] 39%|███▊      | 18596/48008 [2:40:05<4:26:47,  1.84it/s] 39%|███▊      | 18597/48008 [2:40:06<4:22:46,  1.87it/s] 39%|███▊      | 18598/48008 [2:40:06<4:17:34,  1.90it/s] 39%|███▊      | 18599/48008 [2:40:07<4:38:43,  1.76it/s] 39%|███▊      | 18600/48008 [2:40:08<4:54:13,  1.67it/s]                                                         {'loss': 4.2708, 'grad_norm': 0.10445896536111832, 'learning_rate': 0.00012251708048658557, 'epoch': 0.39} 39%|███▊      | 18600/48008 [2:40:08<4:54:13,  1.67it/s]
 39%|███▊      | 18601/48008 [2:40:08<4:26:45,  1.84it/s] 39%|███▊      | 18602/48008 [2:40:09<4:17:08,  1.91it/s] 39%|███▊      | 18603/48008 [2:40:09<4:10:32,  1.96it/s] 39%|███▉      | 18604/48008 [2:40:10<4:11:19,  1.95it/s] 39%|███▉      | 18605/48008 [2:40:10<4:09:51,  1.96it/s] 39%|███▉      | 18606/48008 [2:40:11<4:08:41,  1.97it/s] 39%|███▉      | 18607/48008 [2:40:11<4:12:54,  1.94it/s] 39%|███▉      | 18608/48008 [2:40:12<4:15:54,  1.91it/s] 39%|███▉      | 18609/48008 [2:40:12<4:09:28,  1.96it/s] 39%|███▉      | 18610/48008 [2:40:13<4:08:39,  1.97it/s] 39%|███▉      | 18611/48008 [2:40:13<4:04:40,  2.00it/s] 39%|███▉      | 18612/48008 [2:40:14<4:01:55,  2.03it/s] 39%|███▉      | 18613/48008 [2:40:14<4:00:38,  2.04it/s] 39%|███▉      | 18614/48008 [2:40:15<4:02:58,  2.02it/s] 39%|███▉      | 18615/48008 [2:40:15<3:52:07,  2.11it/s] 39%|███▉      | 18616/48008 [2:40:15<3:43:30,  2.19it/s] 39%|███▉      | 18617/48008 [2:40:16<3:56:17,  2.07it/s] 39%|███▉      | 18618/48008 [2:40:16<3:56:29,  2.07it/s] 39%|███▉      | 18619/48008 [2:40:17<3:55:32,  2.08it/s] 39%|███▉      | 18620/48008 [2:40:17<3:59:53,  2.04it/s] 39%|███▉      | 18621/48008 [2:40:18<4:02:10,  2.02it/s] 39%|███▉      | 18622/48008 [2:40:18<3:59:38,  2.04it/s] 39%|███▉      | 18623/48008 [2:40:19<4:06:54,  1.98it/s] 39%|███▉      | 18624/48008 [2:40:19<4:03:21,  2.01it/s] 39%|███▉      | 18625/48008 [2:40:20<4:04:35,  2.00it/s] 39%|███▉      | 18626/48008 [2:40:20<3:51:58,  2.11it/s] 39%|███▉      | 18627/48008 [2:40:21<3:52:40,  2.10it/s] 39%|███▉      | 18628/48008 [2:40:21<3:58:58,  2.05it/s] 39%|███▉      | 18629/48008 [2:40:22<3:57:40,  2.06it/s] 39%|███▉      | 18630/48008 [2:40:22<3:47:32,  2.15it/s] 39%|███▉      | 18631/48008 [2:40:23<3:39:58,  2.23it/s] 39%|███▉      | 18632/48008 [2:40:23<4:12:32,  1.94it/s] 39%|███▉      | 18633/48008 [2:40:24<4:10:33,  1.95it/s] 39%|███▉      | 18634/48008 [2:40:24<3:56:01,  2.07it/s] 39%|███▉      | 18635/48008 [2:40:25<3:56:01,  2.07it/s] 39%|███▉      | 18636/48008 [2:40:25<4:03:53,  2.01it/s] 39%|███▉      | 18637/48008 [2:40:26<4:04:07,  2.01it/s] 39%|███▉      | 18638/48008 [2:40:26<4:01:48,  2.02it/s] 39%|███▉      | 18639/48008 [2:40:27<3:59:48,  2.04it/s] 39%|███▉      | 18640/48008 [2:40:27<3:58:29,  2.05it/s] 39%|███▉      | 18641/48008 [2:40:28<3:57:13,  2.06it/s] 39%|███▉      | 18642/48008 [2:40:28<3:56:34,  2.07it/s] 39%|███▉      | 18643/48008 [2:40:29<3:56:17,  2.07it/s] 39%|███▉      | 18644/48008 [2:40:29<3:56:08,  2.07it/s] 39%|███▉      | 18645/48008 [2:40:30<3:55:51,  2.07it/s] 39%|███▉      | 18646/48008 [2:40:31<5:49:00,  1.40it/s] 39%|███▉      | 18647/48008 [2:40:31<5:15:00,  1.55it/s] 39%|███▉      | 18648/48008 [2:40:32<4:50:57,  1.68it/s] 39%|███▉      | 18649/48008 [2:40:32<4:39:41,  1.75it/s] 39%|███▉      | 18650/48008 [2:40:33<4:32:24,  1.80it/s]                                                         {'loss': 4.2379, 'grad_norm': 0.30058175325393677, 'learning_rate': 0.0001223087818696884, 'epoch': 0.39}
 39%|███▉      | 18650/48008 [2:40:33<4:32:24,  1.80it/s] 39%|███▉      | 18651/48008 [2:40:33<4:27:12,  1.83it/s] 39%|███▉      | 18652/48008 [2:40:34<4:23:42,  1.86it/s] 39%|███▉      | 18653/48008 [2:40:34<4:14:48,  1.92it/s] 39%|███▉      | 18654/48008 [2:40:35<3:59:44,  2.04it/s] 39%|███▉      | 18655/48008 [2:40:36<4:56:29,  1.65it/s] 39%|███▉      | 18656/48008 [2:40:36<4:38:11,  1.76it/s] 39%|███▉      | 18657/48008 [2:40:37<4:15:28,  1.91it/s] 39%|███▉      | 18658/48008 [2:40:37<3:59:53,  2.04it/s] 39%|███▉      | 18659/48008 [2:40:38<4:01:46,  2.02it/s] 39%|███▉      | 18660/48008 [2:40:38<3:59:36,  2.04it/s] 39%|███▉      | 18661/48008 [2:40:39<4:03:32,  2.01it/s] 39%|███▉      | 18662/48008 [2:40:39<3:51:24,  2.11it/s] 39%|███▉      | 18663/48008 [2:40:39<3:42:44,  2.20it/s] 39%|███▉      | 18664/48008 [2:40:40<3:37:02,  2.25it/s] 39%|███▉      | 18665/48008 [2:40:40<3:32:42,  2.30it/s] 39%|███▉      | 18666/48008 [2:40:41<3:39:28,  2.23it/s] 39%|███▉      | 18667/48008 [2:40:41<3:49:40,  2.13it/s] 39%|███▉      | 18668/48008 [2:40:42<3:54:55,  2.08it/s] 39%|███▉      | 18669/48008 [2:40:42<3:54:06,  2.09it/s] 39%|███▉      | 18670/48008 [2:40:43<3:54:36,  2.08it/s] 39%|███▉      | 18671/48008 [2:40:43<3:45:08,  2.17it/s] 39%|███▉      | 18672/48008 [2:40:44<3:51:46,  2.11it/s] 39%|███▉      | 18673/48008 [2:40:44<3:43:12,  2.19it/s] 39%|███▉      | 18674/48008 [2:40:45<3:52:33,  2.10it/s] 39%|███▉      | 18675/48008 [2:40:45<3:53:13,  2.10it/s] 39%|███▉      | 18676/48008 [2:40:45<3:43:48,  2.18it/s] 39%|███▉      | 18677/48008 [2:40:46<3:52:42,  2.10it/s] 39%|███▉      | 18678/48008 [2:40:46<3:53:19,  2.10it/s] 39%|███▉      | 18679/48008 [2:40:47<3:53:47,  2.09it/s] 39%|███▉      | 18680/48008 [2:40:47<3:53:53,  2.09it/s] 39%|███▉      | 18681/48008 [2:40:48<3:57:49,  2.06it/s] 39%|███▉      | 18682/48008 [2:40:48<3:47:22,  2.15it/s] 39%|███▉      | 18683/48008 [2:40:49<3:49:22,  2.13it/s] 39%|███▉      | 18684/48008 [2:40:49<3:41:17,  2.21it/s] 39%|███▉      | 18685/48008 [2:40:50<3:35:45,  2.27it/s] 39%|███▉      | 18686/48008 [2:40:50<3:44:13,  2.18it/s] 39%|███▉      | 18687/48008 [2:40:51<3:50:30,  2.12it/s] 39%|███▉      | 18688/48008 [2:40:51<3:51:31,  2.11it/s] 39%|███▉      | 18689/48008 [2:40:51<3:42:50,  2.19it/s] 39%|███▉      | 18690/48008 [2:40:52<3:46:09,  2.16it/s] 39%|███▉      | 18691/48008 [2:40:53<5:41:11,  1.43it/s] 39%|███▉      | 18692/48008 [2:40:54<5:37:47,  1.45it/s] 39%|███▉      | 18693/48008 [2:40:54<5:06:44,  1.59it/s] 39%|███▉      | 18694/48008 [2:40:55<4:35:31,  1.77it/s] 39%|███▉      | 18695/48008 [2:40:55<4:13:39,  1.93it/s] 39%|███▉      | 18696/48008 [2:40:56<4:07:45,  1.97it/s] 39%|███▉      | 18697/48008 [2:40:56<4:09:16,  1.96it/s] 39%|███▉      | 18698/48008 [2:40:57<3:55:11,  2.08it/s] 39%|███▉      | 18699/48008 [2:40:57<3:54:55,  2.08it/s] 39%|███▉      | 18700/48008 [2:40:58<3:54:34,  2.08it/s]                                                         {'loss': 4.2274, 'grad_norm': 0.11248791962862015, 'learning_rate': 0.0001221004832527912, 'epoch': 0.39}
 39%|███▉      | 18700/48008 [2:40:58<3:54:34,  2.08it/s] 39%|███▉      | 18701/48008 [2:40:58<4:02:53,  2.01it/s] 39%|███▉      | 18702/48008 [2:40:59<3:50:56,  2.11it/s] 39%|███▉      | 18703/48008 [2:40:59<4:20:29,  1.87it/s] 39%|███▉      | 18704/48008 [2:41:00<4:18:14,  1.89it/s] 39%|███▉      | 18705/48008 [2:41:00<4:19:19,  1.88it/s] 39%|███▉      | 18706/48008 [2:41:01<4:11:36,  1.94it/s] 39%|███▉      | 18707/48008 [2:41:01<3:57:08,  2.06it/s] 39%|███▉      | 18708/48008 [2:41:02<3:56:11,  2.07it/s] 39%|███▉      | 18709/48008 [2:41:02<3:46:04,  2.16it/s] 39%|███▉      | 18710/48008 [2:41:03<3:51:29,  2.11it/s] 39%|███▉      | 18711/48008 [2:41:03<4:20:28,  1.87it/s] 39%|███▉      | 18712/48008 [2:41:04<4:12:14,  1.94it/s] 39%|███▉      | 18713/48008 [2:41:04<4:06:45,  1.98it/s] 39%|███▉      | 18714/48008 [2:41:05<4:08:35,  1.96it/s] 39%|███▉      | 18715/48008 [2:41:05<3:49:44,  2.13it/s] 39%|███▉      | 18716/48008 [2:41:06<3:59:07,  2.04it/s] 39%|███▉      | 18717/48008 [2:41:06<3:48:06,  2.14it/s] 39%|███▉      | 18718/48008 [2:41:07<3:53:19,  2.09it/s] 39%|███▉      | 18719/48008 [2:41:07<3:56:52,  2.06it/s] 39%|███▉      | 18720/48008 [2:41:08<3:58:57,  2.04it/s] 39%|███▉      | 18721/48008 [2:41:08<4:00:45,  2.03it/s] 39%|███▉      | 18722/48008 [2:41:09<4:01:30,  2.02it/s] 39%|███▉      | 18723/48008 [2:41:09<3:59:12,  2.04it/s] 39%|███▉      | 18724/48008 [2:41:10<5:50:28,  1.39it/s] 39%|███▉      | 18725/48008 [2:41:11<5:21:19,  1.52it/s] 39%|███▉      | 18726/48008 [2:41:11<4:45:49,  1.71it/s] 39%|███▉      | 18727/48008 [2:41:12<4:30:14,  1.81it/s] 39%|███▉      | 18728/48008 [2:41:13<6:12:15,  1.31it/s] 39%|███▉      | 18729/48008 [2:41:13<5:20:35,  1.52it/s] 39%|███▉      | 18730/48008 [2:41:14<4:58:23,  1.64it/s] 39%|███▉      | 18731/48008 [2:41:14<4:44:27,  1.72it/s] 39%|███▉      | 18732/48008 [2:41:15<4:19:44,  1.88it/s] 39%|███▉      | 18733/48008 [2:41:15<4:02:18,  2.01it/s] 39%|███▉      | 18734/48008 [2:41:16<3:50:24,  2.12it/s] 39%|███▉      | 18735/48008 [2:41:16<3:54:49,  2.08it/s] 39%|███▉      | 18736/48008 [2:41:17<3:57:36,  2.05it/s] 39%|███▉      | 18737/48008 [2:41:17<3:56:38,  2.06it/s] 39%|███▉      | 18738/48008 [2:41:18<3:55:14,  2.07it/s] 39%|███▉      | 18739/48008 [2:41:18<3:54:49,  2.08it/s] 39%|███▉      | 18740/48008 [2:41:19<3:54:42,  2.08it/s] 39%|███▉      | 18741/48008 [2:41:19<3:54:08,  2.08it/s] 39%|███▉      | 18742/48008 [2:41:19<3:56:52,  2.06it/s] 39%|███▉      | 18743/48008 [2:41:20<4:04:32,  1.99it/s] 39%|███▉      | 18744/48008 [2:41:20<3:51:21,  2.11it/s] 39%|███▉      | 18745/48008 [2:41:21<3:52:18,  2.10it/s] 39%|███▉      | 18746/48008 [2:41:21<3:43:10,  2.19it/s] 39%|███▉      | 18747/48008 [2:41:22<3:46:50,  2.15it/s] 39%|███▉      | 18748/48008 [2:41:22<3:49:13,  2.13it/s] 39%|███▉      | 18749/48008 [2:41:23<3:54:26,  2.08it/s] 39%|███▉      | 18750/48008 [2:41:23<3:44:45,  2.17it/s]                                                         {'loss': 4.3058, 'grad_norm': 0.17276476323604584, 'learning_rate': 0.00012189218463589402, 'epoch': 0.39}
 39%|███▉      | 18750/48008 [2:41:23<3:44:45,  2.17it/s] 39%|███▉      | 18751/48008 [2:41:24<3:51:04,  2.11it/s] 39%|███▉      | 18752/48008 [2:41:24<3:54:35,  2.08it/s] 39%|███▉      | 18753/48008 [2:41:25<5:47:12,  1.40it/s] 39%|███▉      | 18754/48008 [2:41:26<5:13:04,  1.56it/s] 39%|███▉      | 18755/48008 [2:41:26<4:52:38,  1.67it/s] 39%|███▉      | 18756/48008 [2:41:27<4:43:48,  1.72it/s] 39%|███▉      | 18757/48008 [2:41:27<4:19:04,  1.88it/s] 39%|███▉      | 18758/48008 [2:41:28<4:11:43,  1.94it/s] 39%|███▉      | 18759/48008 [2:41:28<4:09:35,  1.95it/s] 39%|███▉      | 18760/48008 [2:41:29<3:55:21,  2.07it/s] 39%|███▉      | 18761/48008 [2:41:29<3:58:41,  2.04it/s] 39%|███▉      | 18762/48008 [2:41:30<3:47:17,  2.14it/s] 39%|███▉      | 18763/48008 [2:41:30<3:54:28,  2.08it/s] 39%|███▉      | 18764/48008 [2:41:31<3:54:23,  2.08it/s] 39%|███▉      | 18765/48008 [2:41:31<3:54:31,  2.08it/s] 39%|███▉      | 18766/48008 [2:41:32<3:54:16,  2.08it/s] 39%|███▉      | 18767/48008 [2:41:32<3:54:23,  2.08it/s] 39%|███▉      | 18768/48008 [2:41:33<3:54:06,  2.08it/s] 39%|███▉      | 18769/48008 [2:41:33<3:58:13,  2.05it/s] 39%|███▉      | 18770/48008 [2:41:34<4:00:43,  2.02it/s] 39%|███▉      | 18771/48008 [2:41:35<5:51:33,  1.39it/s] 39%|███▉      | 18772/48008 [2:41:35<5:19:32,  1.52it/s] 39%|███▉      | 18773/48008 [2:41:36<4:53:03,  1.66it/s] 39%|███▉      | 18774/48008 [2:41:36<4:34:57,  1.77it/s] 39%|███▉      | 18775/48008 [2:41:37<4:51:17,  1.67it/s] 39%|███▉      | 18776/48008 [2:41:38<4:34:19,  1.78it/s] 39%|███▉      | 18777/48008 [2:41:38<4:27:28,  1.82it/s] 39%|███▉      | 18778/48008 [2:41:39<4:17:43,  1.89it/s] 39%|███▉      | 18779/48008 [2:41:39<5:08:19,  1.58it/s] 39%|███▉      | 18780/48008 [2:41:40<4:36:39,  1.76it/s] 39%|███▉      | 18781/48008 [2:41:40<4:23:05,  1.85it/s] 39%|███▉      | 18782/48008 [2:41:41<4:14:14,  1.92it/s] 39%|███▉      | 18783/48008 [2:41:41<4:07:28,  1.97it/s] 39%|███▉      | 18784/48008 [2:41:42<4:12:00,  1.93it/s] 39%|███▉      | 18785/48008 [2:41:42<4:09:46,  1.95it/s] 39%|███▉      | 18786/48008 [2:41:43<4:11:00,  1.94it/s] 39%|███▉      | 18787/48008 [2:41:43<4:12:26,  1.93it/s] 39%|███▉      | 18788/48008 [2:41:44<4:34:43,  1.77it/s] 39%|███▉      | 18789/48008 [2:41:45<4:26:10,  1.83it/s] 39%|███▉      | 18790/48008 [2:41:45<4:16:38,  1.90it/s] 39%|███▉      | 18791/48008 [2:41:46<4:18:39,  1.88it/s] 39%|███▉      | 18792/48008 [2:41:46<4:17:07,  1.89it/s] 39%|███▉      | 18793/48008 [2:41:46<4:00:37,  2.02it/s] 39%|███▉      | 18794/48008 [2:41:47<4:01:23,  2.02it/s] 39%|███▉      | 18795/48008 [2:41:47<4:01:41,  2.01it/s] 39%|███▉      | 18796/48008 [2:41:48<4:02:28,  2.01it/s] 39%|███▉      | 18797/48008 [2:41:48<3:59:52,  2.03it/s] 39%|███▉      | 18798/48008 [2:41:49<3:58:13,  2.04it/s] 39%|███▉      | 18799/48008 [2:41:49<3:47:25,  2.14it/s] 39%|███▉      | 18800/48008 [2:41:50<3:55:20,  2.07it/s]                                                         {'loss': 4.2894, 'grad_norm': 0.4106850028038025, 'learning_rate': 0.00012168388601899683, 'epoch': 0.39}
 39%|███▉      | 18800/48008 [2:41:50<3:55:20,  2.07it/s] 39%|███▉      | 18801/48008 [2:41:50<3:58:42,  2.04it/s] 39%|███▉      | 18802/48008 [2:41:51<4:02:59,  2.00it/s] 39%|███▉      | 18803/48008 [2:41:51<4:00:04,  2.03it/s] 39%|███▉      | 18804/48008 [2:41:52<4:03:59,  1.99it/s] 39%|███▉      | 18805/48008 [2:41:52<4:06:01,  1.98it/s] 39%|███▉      | 18806/48008 [2:41:53<4:11:11,  1.94it/s] 39%|███▉      | 18807/48008 [2:41:53<4:05:09,  1.99it/s] 39%|███▉      | 18808/48008 [2:41:54<4:07:22,  1.97it/s] 39%|███▉      | 18809/48008 [2:41:54<4:06:59,  1.97it/s] 39%|███▉      | 18810/48008 [2:41:55<3:53:06,  2.09it/s] 39%|███▉      | 18811/48008 [2:41:55<4:01:24,  2.02it/s] 39%|███▉      | 18812/48008 [2:41:56<3:58:25,  2.04it/s] 39%|███▉      | 18813/48008 [2:41:56<3:56:32,  2.06it/s] 39%|███▉      | 18814/48008 [2:41:57<3:55:27,  2.07it/s] 39%|███▉      | 18815/48008 [2:41:57<3:57:45,  2.05it/s] 39%|███▉      | 18816/48008 [2:41:58<3:56:22,  2.06it/s] 39%|███▉      | 18817/48008 [2:41:58<3:58:07,  2.04it/s] 39%|███▉      | 18818/48008 [2:41:59<3:56:37,  2.06it/s] 39%|███▉      | 18819/48008 [2:41:59<3:46:11,  2.15it/s] 39%|███▉      | 18820/48008 [2:42:00<3:54:22,  2.08it/s] 39%|███▉      | 18821/48008 [2:42:00<3:53:47,  2.08it/s] 39%|███▉      | 18822/48008 [2:42:01<3:57:28,  2.05it/s] 39%|███▉      | 18823/48008 [2:42:01<3:56:08,  2.06it/s] 39%|███▉      | 18824/48008 [2:42:02<4:23:38,  1.84it/s] 39%|███▉      | 18825/48008 [2:42:02<4:14:30,  1.91it/s] 39%|███▉      | 18826/48008 [2:42:03<4:07:27,  1.97it/s] 39%|███▉      | 18827/48008 [2:42:03<3:53:41,  2.08it/s] 39%|███▉      | 18828/48008 [2:42:04<3:57:23,  2.05it/s] 39%|███▉      | 18829/48008 [2:42:04<3:46:55,  2.14it/s] 39%|███▉      | 18830/48008 [2:42:05<3:53:50,  2.08it/s] 39%|███▉      | 18831/48008 [2:42:05<3:43:58,  2.17it/s] 39%|███▉      | 18832/48008 [2:42:06<3:50:28,  2.11it/s] 39%|███▉      | 18833/48008 [2:42:06<4:48:40,  1.68it/s] 39%|███▉      | 18834/48008 [2:42:07<4:32:01,  1.79it/s] 39%|███▉      | 18835/48008 [2:42:07<4:20:23,  1.87it/s] 39%|███▉      | 18836/48008 [2:42:08<4:12:08,  1.93it/s] 39%|███▉      | 18837/48008 [2:42:08<4:05:55,  1.98it/s] 39%|███▉      | 18838/48008 [2:42:09<3:52:35,  2.09it/s] 39%|███▉      | 18839/48008 [2:42:09<3:52:35,  2.09it/s] 39%|███▉      | 18840/48008 [2:42:10<3:58:25,  2.04it/s] 39%|███▉      | 18841/48008 [2:42:10<4:02:30,  2.00it/s] 39%|███▉      | 18842/48008 [2:42:11<4:00:01,  2.03it/s] 39%|███▉      | 18843/48008 [2:42:11<4:03:34,  2.00it/s] 39%|███▉      | 18844/48008 [2:42:12<4:04:19,  1.99it/s] 39%|███▉      | 18845/48008 [2:42:12<3:51:13,  2.10it/s] 39%|███▉      | 18846/48008 [2:42:13<3:51:56,  2.10it/s] 39%|███▉      | 18847/48008 [2:42:13<3:52:29,  2.09it/s] 39%|███▉      | 18848/48008 [2:42:14<3:52:36,  2.09it/s] 39%|███▉      | 18849/48008 [2:42:14<3:52:58,  2.09it/s] 39%|███▉      | 18850/48008 [2:42:15<3:58:06,  2.04it/s]                                                         {'loss': 4.2252, 'grad_norm': 0.5917653441429138, 'learning_rate': 0.00012147558740209966, 'epoch': 0.39}
 39%|███▉      | 18850/48008 [2:42:15<3:58:06,  2.04it/s] 39%|███▉      | 18851/48008 [2:42:15<3:56:41,  2.05it/s] 39%|███▉      | 18852/48008 [2:42:16<4:03:29,  2.00it/s] 39%|███▉      | 18853/48008 [2:42:16<4:09:00,  1.95it/s] 39%|███▉      | 18854/48008 [2:42:17<4:07:41,  1.96it/s] 39%|███▉      | 18855/48008 [2:42:18<5:55:48,  1.37it/s] 39%|███▉      | 18856/48008 [2:42:18<5:22:21,  1.51it/s] 39%|███▉      | 18857/48008 [2:42:19<4:55:45,  1.64it/s] 39%|███▉      | 18858/48008 [2:42:19<4:40:25,  1.73it/s] 39%|███▉      | 18859/48008 [2:42:20<4:16:33,  1.89it/s] 39%|███▉      | 18860/48008 [2:42:20<4:09:43,  1.95it/s] 39%|███▉      | 18861/48008 [2:42:21<4:04:50,  1.98it/s] 39%|███▉      | 18862/48008 [2:42:21<4:05:09,  1.98it/s] 39%|███▉      | 18863/48008 [2:42:22<4:04:22,  1.99it/s] 39%|███▉      | 18864/48008 [2:42:22<4:04:11,  1.99it/s] 39%|███▉      | 18865/48008 [2:42:23<4:08:50,  1.95it/s] 39%|███▉      | 18866/48008 [2:42:23<3:54:49,  2.07it/s] 39%|███▉      | 18867/48008 [2:42:24<3:57:09,  2.05it/s] 39%|███▉      | 18868/48008 [2:42:24<3:46:31,  2.14it/s] 39%|███▉      | 18869/48008 [2:42:25<3:38:41,  2.22it/s] 39%|███▉      | 18870/48008 [2:42:25<3:42:53,  2.18it/s] 39%|███▉      | 18871/48008 [2:42:26<3:45:43,  2.15it/s] 39%|███▉      | 18872/48008 [2:42:26<3:51:26,  2.10it/s] 39%|███▉      | 18873/48008 [2:42:27<3:52:18,  2.09it/s] 39%|███▉      | 18874/48008 [2:42:27<3:52:37,  2.09it/s] 39%|███▉      | 18875/48008 [2:42:28<3:52:38,  2.09it/s] 39%|███▉      | 18876/48008 [2:42:28<3:52:31,  2.09it/s] 39%|███▉      | 18877/48008 [2:42:28<3:52:20,  2.09it/s] 39%|███▉      | 18878/48008 [2:42:29<3:52:53,  2.08it/s] 39%|███▉      | 18879/48008 [2:42:29<3:52:43,  2.09it/s] 39%|███▉      | 18880/48008 [2:42:30<3:53:05,  2.08it/s] 39%|███▉      | 18881/48008 [2:42:30<3:53:20,  2.08it/s] 39%|███▉      | 18882/48008 [2:42:31<3:53:16,  2.08it/s] 39%|███▉      | 18883/48008 [2:42:31<3:43:33,  2.17it/s] 39%|███▉      | 18884/48008 [2:42:32<3:49:49,  2.11it/s] 39%|███▉      | 18885/48008 [2:42:32<3:50:59,  2.10it/s] 39%|███▉      | 18886/48008 [2:42:33<4:19:11,  1.87it/s] 39%|███▉      | 18887/48008 [2:42:33<4:11:17,  1.93it/s] 39%|███▉      | 18888/48008 [2:42:34<4:14:17,  1.91it/s] 39%|███▉      | 18889/48008 [2:42:34<4:16:19,  1.89it/s] 39%|███▉      | 18890/48008 [2:42:35<4:15:32,  1.90it/s] 39%|███▉      | 18891/48008 [2:42:35<4:08:30,  1.95it/s] 39%|███▉      | 18892/48008 [2:42:36<4:03:52,  1.99it/s] 39%|███▉      | 18893/48008 [2:42:36<4:01:10,  2.01it/s] 39%|███▉      | 18894/48008 [2:42:37<4:02:56,  2.00it/s] 39%|███▉      | 18895/48008 [2:42:37<3:50:36,  2.10it/s] 39%|███▉      | 18896/48008 [2:42:38<3:51:27,  2.10it/s] 39%|███▉      | 18897/48008 [2:42:38<3:51:57,  2.09it/s] 39%|███▉      | 18898/48008 [2:42:39<3:52:13,  2.09it/s] 39%|███▉      | 18899/48008 [2:42:39<4:00:23,  2.02it/s] 39%|███▉      | 18900/48008 [2:42:40<4:01:24,  2.01it/s]                                                         {'loss': 4.2867, 'grad_norm': 0.6917356848716736, 'learning_rate': 0.00012126728878520249, 'epoch': 0.39} 39%|███▉      | 18900/48008 [2:42:40<4:01:24,  2.01it/s]
 39%|███▉      | 18901/48008 [2:42:41<5:51:20,  1.38it/s] 39%|███▉      | 18902/48008 [2:42:42<5:15:10,  1.54it/s] 39%|███▉      | 18903/48008 [2:42:42<4:41:07,  1.73it/s] 39%|███▉      | 18904/48008 [2:42:42<4:16:52,  1.89it/s] 39%|███▉      | 18905/48008 [2:42:43<4:09:39,  1.94it/s] 39%|███▉      | 18906/48008 [2:42:43<4:08:30,  1.95it/s] 39%|███▉      | 18907/48008 [2:42:44<4:07:03,  1.96it/s] 39%|███▉      | 18908/48008 [2:42:44<4:06:07,  1.97it/s] 39%|███▉      | 18909/48008 [2:42:45<4:05:54,  1.97it/s] 39%|███▉      | 18910/48008 [2:42:45<3:52:34,  2.09it/s] 39%|███▉      | 18911/48008 [2:42:46<3:52:48,  2.08it/s] 39%|███▉      | 18912/48008 [2:42:46<3:43:18,  2.17it/s] 39%|███▉      | 18913/48008 [2:42:47<3:54:06,  2.07it/s] 39%|███▉      | 18914/48008 [2:42:47<3:59:14,  2.03it/s] 39%|███▉      | 18915/48008 [2:42:48<4:00:43,  2.01it/s] 39%|███▉      | 18916/48008 [2:42:48<3:58:31,  2.03it/s] 39%|███▉      | 18917/48008 [2:42:49<3:56:59,  2.05it/s] 39%|███▉      | 18918/48008 [2:42:49<3:41:08,  2.19it/s] 39%|███▉      | 18919/48008 [2:42:50<3:50:20,  2.10it/s] 39%|███▉      | 18920/48008 [2:42:50<3:50:42,  2.10it/s] 39%|███▉      | 18921/48008 [2:42:51<3:56:31,  2.05it/s] 39%|███▉      | 18922/48008 [2:42:51<3:58:45,  2.03it/s] 39%|███▉      | 18923/48008 [2:42:52<4:00:39,  2.01it/s] 39%|███▉      | 18924/48008 [2:42:52<3:58:03,  2.04it/s] 39%|███▉      | 18925/48008 [2:42:53<5:47:43,  1.39it/s] 39%|███▉      | 18926/48008 [2:42:54<5:15:57,  1.53it/s] 39%|███▉      | 18927/48008 [2:42:54<4:50:39,  1.67it/s] 39%|███▉      | 18928/48008 [2:42:55<4:24:18,  1.83it/s] 39%|███▉      | 18929/48008 [2:42:55<4:42:25,  1.72it/s] 39%|███▉      | 18930/48008 [2:42:56<4:35:38,  1.76it/s] 39%|███▉      | 18931/48008 [2:42:56<4:13:02,  1.92it/s] 39%|███▉      | 18932/48008 [2:42:57<4:10:46,  1.93it/s] 39%|███▉      | 18933/48008 [2:42:57<3:56:09,  2.05it/s] 39%|███▉      | 18934/48008 [2:42:58<3:55:35,  2.06it/s] 39%|███▉      | 18935/48008 [2:42:58<3:54:47,  2.06it/s] 39%|███▉      | 18936/48008 [2:42:59<3:44:34,  2.16it/s] 39%|███▉      | 18937/48008 [2:42:59<3:50:17,  2.10it/s] 39%|███▉      | 18938/48008 [2:43:00<3:51:04,  2.10it/s] 39%|███▉      | 18939/48008 [2:43:00<3:41:38,  2.19it/s] 39%|███▉      | 18940/48008 [2:43:01<3:45:26,  2.15it/s] 39%|███▉      | 18941/48008 [2:43:01<3:47:09,  2.13it/s] 39%|███▉      | 18942/48008 [2:43:02<3:48:47,  2.12it/s] 39%|███▉      | 18943/48008 [2:43:02<3:40:10,  2.20it/s] 39%|███▉      | 18944/48008 [2:43:02<3:43:29,  2.17it/s] 39%|███▉      | 18945/48008 [2:43:03<3:46:21,  2.14it/s] 39%|███▉      | 18946/48008 [2:43:04<4:15:55,  1.89it/s] 39%|███▉      | 18947/48008 [2:43:04<4:08:24,  1.95it/s] 39%|███▉      | 18948/48008 [2:43:05<4:07:28,  1.96it/s] 39%|███▉      | 18949/48008 [2:43:05<3:53:34,  2.07it/s] 39%|███▉      | 18950/48008 [2:43:05<3:56:39,  2.05it/s]                                                         {'loss': 4.2321, 'grad_norm': 0.579781174659729, 'learning_rate': 0.00012105899016830529, 'epoch': 0.39}
 39%|███▉      | 18950/48008 [2:43:05<3:56:39,  2.05it/s] 39%|███▉      | 18951/48008 [2:43:06<4:00:43,  2.01it/s] 39%|███▉      | 18952/48008 [2:43:06<3:58:11,  2.03it/s] 39%|███▉      | 18953/48008 [2:43:07<3:56:12,  2.05it/s] 39%|███▉      | 18954/48008 [2:43:07<3:58:52,  2.03it/s] 39%|███▉      | 18955/48008 [2:43:09<5:31:49,  1.46it/s] 39%|███▉      | 18956/48008 [2:43:09<5:01:49,  1.60it/s] 39%|███▉      | 18957/48008 [2:43:10<4:49:29,  1.67it/s] 39%|███▉      | 18958/48008 [2:43:10<4:22:44,  1.84it/s] 39%|███▉      | 18959/48008 [2:43:11<4:13:22,  1.91it/s] 39%|███▉      | 18960/48008 [2:43:11<4:07:17,  1.96it/s] 39%|███▉      | 18961/48008 [2:43:12<4:31:08,  1.79it/s] 39%|███▉      | 18962/48008 [2:43:12<4:19:42,  1.86it/s] 39%|███▉      | 18963/48008 [2:43:13<5:09:13,  1.57it/s] 40%|███▉      | 18964/48008 [2:43:14<4:51:24,  1.66it/s] 40%|███▉      | 18965/48008 [2:43:14<4:23:58,  1.83it/s] 40%|███▉      | 18966/48008 [2:43:14<4:04:59,  1.98it/s] 40%|███▉      | 18967/48008 [2:43:15<4:06:39,  1.96it/s] 40%|███▉      | 18968/48008 [2:43:15<4:02:27,  2.00it/s] 40%|███▉      | 18969/48008 [2:43:16<4:03:00,  1.99it/s] 40%|███▉      | 18970/48008 [2:43:16<3:50:01,  2.10it/s] 40%|███▉      | 18971/48008 [2:43:17<3:50:04,  2.10it/s] 40%|███▉      | 18972/48008 [2:43:17<3:54:04,  2.07it/s] 40%|███▉      | 18973/48008 [2:43:18<3:53:30,  2.07it/s] 40%|███▉      | 18974/48008 [2:43:18<3:56:52,  2.04it/s] 40%|███▉      | 18975/48008 [2:43:19<3:55:08,  2.06it/s] 40%|███▉      | 18976/48008 [2:43:19<3:57:48,  2.03it/s] 40%|███▉      | 18977/48008 [2:43:20<3:46:36,  2.14it/s] 40%|███▉      | 18978/48008 [2:43:20<3:53:52,  2.07it/s] 40%|███▉      | 18979/48008 [2:43:21<3:53:18,  2.07it/s] 40%|███▉      | 18980/48008 [2:43:21<3:43:41,  2.16it/s] 40%|███▉      | 18981/48008 [2:43:21<3:36:35,  2.23it/s] 40%|███▉      | 18982/48008 [2:43:22<3:44:27,  2.16it/s] 40%|███▉      | 18983/48008 [2:43:22<3:47:07,  2.13it/s] 40%|███▉      | 18984/48008 [2:43:23<4:17:11,  1.88it/s] 40%|███▉      | 18985/48008 [2:43:24<4:12:53,  1.91it/s] 40%|███▉      | 18986/48008 [2:43:24<4:10:02,  1.93it/s] 40%|███▉      | 18987/48008 [2:43:25<3:55:05,  2.06it/s] 40%|███▉      | 18988/48008 [2:43:25<3:57:25,  2.04it/s] 40%|███▉      | 18989/48008 [2:43:26<4:04:28,  1.98it/s] 40%|███▉      | 18990/48008 [2:43:26<4:04:00,  1.98it/s] 40%|███▉      | 18991/48008 [2:43:27<3:50:40,  2.10it/s] 40%|███▉      | 18992/48008 [2:43:27<3:50:39,  2.10it/s] 40%|███▉      | 18993/48008 [2:43:27<3:51:22,  2.09it/s] 40%|███▉      | 18994/48008 [2:43:28<3:42:07,  2.18it/s] 40%|███▉      | 18995/48008 [2:43:28<3:44:31,  2.15it/s] 40%|███▉      | 18996/48008 [2:43:29<3:37:19,  2.22it/s] 40%|███▉      | 18997/48008 [2:43:29<3:44:58,  2.15it/s] 40%|███▉      | 18998/48008 [2:43:30<3:52:28,  2.08it/s] 40%|███▉      | 18999/48008 [2:43:30<3:55:55,  2.05it/s] 40%|███▉      | 19000/48008 [2:43:31<4:00:17,  2.01it/s]                                                         {'loss': 4.2678, 'grad_norm': 0.47482022643089294, 'learning_rate': 0.00012085069155140811, 'epoch': 0.4}
 40%|███▉      | 19000/48008 [2:43:31<4:00:17,  2.01it/s] 40%|███▉      | 19001/48008 [2:43:31<4:01:32,  2.00it/s] 40%|███▉      | 19002/48008 [2:43:32<3:49:25,  2.11it/s] 40%|███▉      | 19003/48008 [2:43:33<4:47:53,  1.68it/s] 40%|███▉      | 19004/48008 [2:43:33<4:36:56,  1.75it/s] 40%|███▉      | 19005/48008 [2:43:34<4:32:10,  1.78it/s] 40%|███▉      | 19006/48008 [2:43:34<4:27:41,  1.81it/s] 40%|███▉      | 19007/48008 [2:43:35<4:20:31,  1.86it/s] 40%|███▉      | 19008/48008 [2:43:35<4:39:29,  1.73it/s] 40%|███▉      | 19009/48008 [2:43:36<4:25:15,  1.82it/s] 40%|███▉      | 19010/48008 [2:43:36<4:19:03,  1.87it/s] 40%|███▉      | 19011/48008 [2:43:37<4:10:47,  1.93it/s] 40%|███▉      | 19012/48008 [2:43:37<4:05:14,  1.97it/s] 40%|███▉      | 19013/48008 [2:43:38<4:07:08,  1.96it/s] 40%|███▉      | 19014/48008 [2:43:38<4:06:26,  1.96it/s] 40%|███▉      | 19015/48008 [2:43:39<4:05:15,  1.97it/s] 40%|███▉      | 19016/48008 [2:43:39<4:04:33,  1.98it/s] 40%|███▉      | 19017/48008 [2:43:40<4:58:12,  1.62it/s] 40%|███▉      | 19018/48008 [2:43:41<4:28:48,  1.80it/s] 40%|███▉      | 19019/48008 [2:43:41<4:17:21,  1.88it/s] 40%|███▉      | 19020/48008 [2:43:42<4:00:26,  2.01it/s] 40%|███▉      | 19021/48008 [2:43:42<3:57:03,  2.04it/s] 40%|███▉      | 19022/48008 [2:43:42<3:55:08,  2.05it/s] 40%|███▉      | 19023/48008 [2:43:43<3:59:52,  2.01it/s] 40%|███▉      | 19024/48008 [2:43:44<4:25:15,  1.82it/s] 40%|███▉      | 19025/48008 [2:43:44<4:14:52,  1.90it/s] 40%|███▉      | 19026/48008 [2:43:45<4:11:06,  1.92it/s] 40%|███▉      | 19027/48008 [2:43:45<4:05:05,  1.97it/s] 40%|███▉      | 19028/48008 [2:43:46<3:51:34,  2.09it/s] 40%|███▉      | 19029/48008 [2:43:46<3:55:06,  2.05it/s] 40%|███▉      | 19030/48008 [2:43:47<4:22:03,  1.84it/s] 40%|███▉      | 19031/48008 [2:43:47<4:12:55,  1.91it/s] 40%|███▉      | 19032/48008 [2:43:48<3:57:08,  2.04it/s] 40%|███▉      | 19033/48008 [2:43:48<4:04:09,  1.98it/s] 40%|███▉      | 19034/48008 [2:43:49<4:28:37,  1.80it/s] 40%|███▉      | 19035/48008 [2:43:49<4:17:51,  1.87it/s] 40%|███▉      | 19036/48008 [2:43:50<4:12:35,  1.91it/s] 40%|███▉      | 19037/48008 [2:43:50<4:06:26,  1.96it/s] 40%|███▉      | 19038/48008 [2:43:51<3:52:38,  2.08it/s] 40%|███▉      | 19039/48008 [2:43:51<3:51:59,  2.08it/s] 40%|███▉      | 19040/48008 [2:43:52<3:42:12,  2.17it/s] 40%|███▉      | 19041/48008 [2:43:52<3:35:35,  2.24it/s] 40%|███▉      | 19042/48008 [2:43:52<3:31:05,  2.29it/s] 40%|███▉      | 19043/48008 [2:43:53<3:37:06,  2.22it/s] 40%|███▉      | 19044/48008 [2:43:53<3:44:27,  2.15it/s] 40%|███▉      | 19045/48008 [2:43:54<3:55:08,  2.05it/s] 40%|███▉      | 19046/48008 [2:43:54<3:57:36,  2.03it/s] 40%|███▉      | 19047/48008 [2:43:55<4:23:53,  1.83it/s] 40%|███▉      | 19048/48008 [2:43:56<4:18:04,  1.87it/s] 40%|███▉      | 19049/48008 [2:43:56<4:13:24,  1.90it/s] 40%|███▉      | 19050/48008 [2:43:57<4:12:28,  1.91it/s]                                                         {'loss': 4.245, 'grad_norm': 0.383750319480896, 'learning_rate': 0.00012064239293451091, 'epoch': 0.4} 40%|███▉      | 19050/48008 [2:43:57<4:12:28,  1.91it/s]
 40%|███▉      | 19051/48008 [2:43:57<4:06:13,  1.96it/s] 40%|███▉      | 19052/48008 [2:43:58<4:01:50,  2.00it/s] 40%|███▉      | 19053/48008 [2:43:58<3:49:11,  2.11it/s] 40%|███▉      | 19054/48008 [2:43:59<3:55:42,  2.05it/s] 40%|███▉      | 19055/48008 [2:43:59<3:45:13,  2.14it/s] 40%|███▉      | 19056/48008 [2:43:59<3:47:19,  2.12it/s] 40%|███▉      | 19057/48008 [2:44:00<4:46:12,  1.69it/s] 40%|███▉      | 19058/48008 [2:44:01<4:29:19,  1.79it/s] 40%|███▉      | 19059/48008 [2:44:02<6:09:04,  1.31it/s] 40%|███▉      | 19060/48008 [2:44:03<5:28:08,  1.47it/s] 40%|███▉      | 19061/48008 [2:44:03<5:02:24,  1.60it/s] 40%|███▉      | 19062/48008 [2:44:04<4:40:23,  1.72it/s] 40%|███▉      | 19063/48008 [2:44:04<4:25:38,  1.82it/s] 40%|███▉      | 19064/48008 [2:44:04<4:19:17,  1.86it/s] 40%|███▉      | 19065/48008 [2:44:05<4:01:09,  2.00it/s] 40%|███▉      | 19066/48008 [2:44:05<3:58:36,  2.02it/s] 40%|███▉      | 19067/48008 [2:44:06<3:56:41,  2.04it/s] 40%|███▉      | 19068/48008 [2:44:06<3:54:36,  2.06it/s] 40%|███▉      | 19069/48008 [2:44:07<3:53:33,  2.07it/s] 40%|███▉      | 19070/48008 [2:44:07<3:56:16,  2.04it/s] 40%|███▉      | 19071/48008 [2:44:08<4:03:27,  1.98it/s] 40%|███▉      | 19072/48008 [2:44:08<3:45:23,  2.14it/s] 40%|███▉      | 19073/48008 [2:44:09<3:50:55,  2.09it/s] 40%|███▉      | 19074/48008 [2:44:09<3:41:36,  2.18it/s] 40%|███▉      | 19075/48008 [2:44:10<3:35:13,  2.24it/s] 40%|███▉      | 19076/48008 [2:44:10<3:29:59,  2.30it/s] 40%|███▉      | 19077/48008 [2:44:10<3:27:02,  2.33it/s] 40%|███▉      | 19078/48008 [2:44:11<3:39:42,  2.19it/s] 40%|███▉      | 19079/48008 [2:44:11<3:33:54,  2.25it/s] 40%|███▉      | 19080/48008 [2:44:12<3:47:16,  2.12it/s] 40%|███▉      | 19081/48008 [2:44:12<3:54:23,  2.06it/s] 40%|███▉      | 19082/48008 [2:44:13<3:53:28,  2.06it/s] 40%|███▉      | 19083/48008 [2:44:13<3:58:18,  2.02it/s] 40%|███▉      | 19084/48008 [2:44:14<3:56:24,  2.04it/s] 40%|███▉      | 19085/48008 [2:44:14<3:55:10,  2.05it/s] 40%|███▉      | 19086/48008 [2:44:15<4:22:08,  1.84it/s] 40%|███▉      | 19087/48008 [2:44:16<4:12:38,  1.91it/s] 40%|███▉      | 19088/48008 [2:44:16<4:09:40,  1.93it/s] 40%|███▉      | 19089/48008 [2:44:16<3:54:28,  2.06it/s] 40%|███▉      | 19090/48008 [2:44:17<3:58:59,  2.02it/s] 40%|███▉      | 19091/48008 [2:44:17<3:59:26,  2.01it/s] 40%|███▉      | 19092/48008 [2:44:18<3:56:52,  2.03it/s] 40%|███▉      | 19093/48008 [2:44:18<3:45:41,  2.14it/s] 40%|███▉      | 19094/48008 [2:44:19<3:53:14,  2.07it/s] 40%|███▉      | 19095/48008 [2:44:19<3:52:28,  2.07it/s] 40%|███▉      | 19096/48008 [2:44:20<4:48:53,  1.67it/s] 40%|███▉      | 19097/48008 [2:44:21<4:31:42,  1.77it/s] 40%|███▉      | 19098/48008 [2:44:21<4:19:46,  1.85it/s] 40%|███▉      | 19099/48008 [2:44:22<4:11:29,  1.92it/s] 40%|███▉      | 19100/48008 [2:44:22<4:08:43,  1.94it/s]                                                         {'loss': 4.2302, 'grad_norm': 0.2708223760128021, 'learning_rate': 0.00012043409431761374, 'epoch': 0.4}
 40%|███▉      | 19100/48008 [2:44:22<4:08:43,  1.94it/s] 40%|███▉      | 19101/48008 [2:44:23<4:03:25,  1.98it/s] 40%|███▉      | 19102/48008 [2:44:23<3:59:17,  2.01it/s] 40%|███▉      | 19103/48008 [2:44:24<3:56:49,  2.03it/s] 40%|███▉      | 19104/48008 [2:44:24<3:55:02,  2.05it/s] 40%|███▉      | 19105/48008 [2:44:24<3:44:16,  2.15it/s] 40%|███▉      | 19106/48008 [2:44:25<3:46:17,  2.13it/s] 40%|███▉      | 19107/48008 [2:44:25<3:51:27,  2.08it/s] 40%|███▉      | 19108/48008 [2:44:26<3:51:07,  2.08it/s] 40%|███▉      | 19109/48008 [2:44:26<3:54:20,  2.06it/s] 40%|███▉      | 19110/48008 [2:44:27<3:53:40,  2.06it/s] 40%|███▉      | 19111/48008 [2:44:27<3:43:10,  2.16it/s] 40%|███▉      | 19112/48008 [2:44:28<3:49:00,  2.10it/s] 40%|███▉      | 19113/48008 [2:44:28<3:49:00,  2.10it/s] 40%|███▉      | 19114/48008 [2:44:29<3:53:32,  2.06it/s] 40%|███▉      | 19115/48008 [2:44:29<3:52:26,  2.07it/s] 40%|███▉      | 19116/48008 [2:44:30<3:42:15,  2.17it/s] 40%|███▉      | 19117/48008 [2:44:30<3:47:32,  2.12it/s] 40%|███▉      | 19118/48008 [2:44:31<3:39:21,  2.20it/s] 40%|███▉      | 19119/48008 [2:44:31<3:46:09,  2.13it/s] 40%|███▉      | 19120/48008 [2:44:32<3:48:09,  2.11it/s] 40%|███▉      | 19121/48008 [2:44:32<4:17:17,  1.87it/s] 40%|███▉      | 19122/48008 [2:44:33<4:17:55,  1.87it/s] 40%|███▉      | 19123/48008 [2:44:33<4:12:50,  1.90it/s] 40%|███▉      | 19124/48008 [2:44:34<3:56:13,  2.04it/s] 40%|███▉      | 19125/48008 [2:44:34<3:54:17,  2.05it/s] 40%|███▉      | 19126/48008 [2:44:35<4:01:11,  2.00it/s] 40%|███▉      | 19127/48008 [2:44:35<4:01:31,  1.99it/s] 40%|███▉      | 19128/48008 [2:44:36<3:57:36,  2.03it/s] 40%|███▉      | 19129/48008 [2:44:36<3:58:54,  2.01it/s] 40%|███▉      | 19130/48008 [2:44:37<3:56:31,  2.03it/s] 40%|███▉      | 19131/48008 [2:44:37<3:45:23,  2.14it/s] 40%|███▉      | 19132/48008 [2:44:38<3:49:51,  2.09it/s] 40%|███▉      | 19133/48008 [2:44:38<3:50:53,  2.08it/s] 40%|███▉      | 19134/48008 [2:44:39<3:41:41,  2.17it/s] 40%|███▉      | 19135/48008 [2:44:39<3:44:26,  2.14it/s] 40%|███▉      | 19136/48008 [2:44:39<3:46:24,  2.13it/s] 40%|███▉      | 19137/48008 [2:44:40<3:47:03,  2.12it/s] 40%|███▉      | 19138/48008 [2:44:40<3:47:58,  2.11it/s] 40%|███▉      | 19139/48008 [2:44:41<3:49:09,  2.10it/s] 40%|███▉      | 19140/48008 [2:44:41<3:49:36,  2.10it/s] 40%|███▉      | 19141/48008 [2:44:42<3:53:43,  2.06it/s] 40%|███▉      | 19142/48008 [2:44:42<3:58:48,  2.01it/s] 40%|███▉      | 19143/48008 [2:44:43<3:56:28,  2.03it/s] 40%|███▉      | 19144/48008 [2:44:43<3:54:59,  2.05it/s] 40%|███▉      | 19145/48008 [2:44:44<3:54:00,  2.06it/s] 40%|███▉      | 19146/48008 [2:44:44<3:56:15,  2.04it/s] 40%|███▉      | 19147/48008 [2:44:45<3:45:06,  2.14it/s] 40%|███▉      | 19148/48008 [2:44:45<3:49:56,  2.09it/s] 40%|███▉      | 19149/48008 [2:44:46<3:55:39,  2.04it/s] 40%|███▉      | 19150/48008 [2:44:46<3:53:40,  2.06it/s]                                                         {'loss': 4.2463, 'grad_norm': 0.33597835898399353, 'learning_rate': 0.00012022579570071655, 'epoch': 0.4}
 40%|███▉      | 19150/48008 [2:44:46<3:53:40,  2.06it/s] 40%|███▉      | 19151/48008 [2:44:47<4:49:37,  1.66it/s] 40%|███▉      | 19152/48008 [2:44:48<4:22:24,  1.83it/s] 40%|███▉      | 19153/48008 [2:44:48<4:18:21,  1.86it/s] 40%|███▉      | 19154/48008 [2:44:49<4:00:47,  2.00it/s] 40%|███▉      | 19155/48008 [2:44:49<3:48:28,  2.10it/s] 40%|███▉      | 19156/48008 [2:44:49<3:48:57,  2.10it/s] 40%|███▉      | 19157/48008 [2:44:50<3:40:11,  2.18it/s] 40%|███▉      | 19158/48008 [2:44:50<3:49:08,  2.10it/s] 40%|███▉      | 19159/48008 [2:44:51<3:53:10,  2.06it/s] 40%|███▉      | 19160/48008 [2:44:51<3:52:23,  2.07it/s] 40%|███▉      | 19161/48008 [2:44:52<3:51:23,  2.08it/s] 40%|███▉      | 19162/48008 [2:44:52<3:51:01,  2.08it/s] 40%|███▉      | 19163/48008 [2:44:53<3:56:03,  2.04it/s] 40%|███▉      | 19164/48008 [2:44:53<3:54:15,  2.05it/s] 40%|███▉      | 19165/48008 [2:44:54<3:43:57,  2.15it/s] 40%|███▉      | 19166/48008 [2:44:54<3:45:56,  2.13it/s] 40%|███▉      | 19167/48008 [2:44:55<3:47:09,  2.12it/s] 40%|███▉      | 19168/48008 [2:44:55<3:51:19,  2.08it/s] 40%|███▉      | 19169/48008 [2:44:56<3:54:22,  2.05it/s] 40%|███▉      | 19170/48008 [2:44:56<3:43:50,  2.15it/s] 40%|███▉      | 19171/48008 [2:44:57<3:45:42,  2.13it/s] 40%|███▉      | 19172/48008 [2:44:57<3:37:51,  2.21it/s] 40%|███▉      | 19173/48008 [2:44:57<3:41:23,  2.17it/s] 40%|███▉      | 19174/48008 [2:44:58<3:34:28,  2.24it/s] 40%|███▉      | 19175/48008 [2:44:58<3:45:01,  2.14it/s] 40%|███▉      | 19176/48008 [2:44:59<3:50:31,  2.08it/s] 40%|███▉      | 19177/48008 [2:44:59<3:41:05,  2.17it/s] 40%|███▉      | 19178/48008 [2:45:00<3:34:21,  2.24it/s] 40%|███▉      | 19179/48008 [2:45:00<3:29:48,  2.29it/s] 40%|███▉      | 19180/48008 [2:45:01<3:25:55,  2.33it/s] 40%|███▉      | 19181/48008 [2:45:01<4:00:46,  2.00it/s] 40%|███▉      | 19182/48008 [2:45:02<3:57:42,  2.02it/s] 40%|███▉      | 19183/48008 [2:45:02<4:03:39,  1.97it/s] 40%|███▉      | 19184/48008 [2:45:03<3:59:11,  2.01it/s] 40%|███▉      | 19185/48008 [2:45:03<3:56:20,  2.03it/s] 40%|███▉      | 19186/48008 [2:45:04<3:54:14,  2.05it/s] 40%|███▉      | 19187/48008 [2:45:04<3:52:31,  2.07it/s] 40%|███▉      | 19188/48008 [2:45:05<3:51:25,  2.08it/s] 40%|███▉      | 19189/48008 [2:45:05<3:51:03,  2.08it/s] 40%|███▉      | 19190/48008 [2:45:06<3:50:38,  2.08it/s] 40%|███▉      | 19191/48008 [2:45:06<3:50:21,  2.08it/s] 40%|███▉      | 19192/48008 [2:45:07<3:53:36,  2.06it/s] 40%|███▉      | 19193/48008 [2:45:07<3:55:48,  2.04it/s] 40%|███▉      | 19194/48008 [2:45:08<3:53:58,  2.05it/s] 40%|███▉      | 19195/48008 [2:45:08<3:52:57,  2.06it/s] 40%|███▉      | 19196/48008 [2:45:09<5:43:20,  1.40it/s] 40%|███▉      | 19197/48008 [2:45:10<5:14:54,  1.52it/s] 40%|███▉      | 19198/48008 [2:45:10<4:55:31,  1.62it/s] 40%|███▉      | 19199/48008 [2:45:11<4:36:08,  1.74it/s] 40%|███▉      | 19200/48008 [2:45:11<4:27:49,  1.79it/s]                                                         {'loss': 4.2199, 'grad_norm': 0.20462851226329803, 'learning_rate': 0.00012001749708381938, 'epoch': 0.4}
 40%|███▉      | 19200/48008 [2:45:11<4:27:49,  1.79it/s] 40%|███▉      | 19201/48008 [2:45:12<4:07:26,  1.94it/s] 40%|███▉      | 19202/48008 [2:45:12<4:06:10,  1.95it/s] 40%|███▉      | 19203/48008 [2:45:13<4:00:43,  1.99it/s] 40%|████      | 19204/48008 [2:45:13<4:01:05,  1.99it/s] 40%|████      | 19205/48008 [2:45:14<4:54:58,  1.63it/s] 40%|████      | 19206/48008 [2:45:15<4:44:10,  1.69it/s] 40%|████      | 19207/48008 [2:45:15<4:27:17,  1.80it/s] 40%|████      | 19208/48008 [2:45:16<4:21:54,  1.83it/s] 40%|████      | 19209/48008 [2:45:16<4:02:49,  1.98it/s] 40%|████      | 19210/48008 [2:45:16<3:59:02,  2.01it/s] 40%|████      | 19211/48008 [2:45:17<3:56:14,  2.03it/s] 40%|████      | 19212/48008 [2:45:17<3:45:00,  2.13it/s] 40%|████      | 19213/48008 [2:45:18<3:37:21,  2.21it/s] 40%|████      | 19214/48008 [2:45:19<5:31:29,  1.45it/s] 40%|████      | 19215/48008 [2:45:20<5:04:51,  1.57it/s] 40%|████      | 19216/48008 [2:45:20<4:41:48,  1.70it/s] 40%|████      | 19217/48008 [2:45:21<6:16:34,  1.27it/s] 40%|████      | 19218/48008 [2:45:22<5:32:04,  1.44it/s] 40%|████      | 19219/48008 [2:45:22<5:01:49,  1.59it/s] 40%|████      | 19220/48008 [2:45:23<4:40:37,  1.71it/s] 40%|████      | 19221/48008 [2:45:23<4:28:52,  1.78it/s] 40%|████      | 19222/48008 [2:45:24<4:07:43,  1.94it/s] 40%|████      | 19223/48008 [2:45:24<4:02:13,  1.98it/s] 40%|████      | 19224/48008 [2:45:25<3:49:11,  2.09it/s] 40%|████      | 19225/48008 [2:45:25<3:49:35,  2.09it/s] 40%|████      | 19226/48008 [2:45:26<5:40:52,  1.41it/s] 40%|████      | 19227/48008 [2:45:27<4:58:11,  1.61it/s] 40%|████      | 19228/48008 [2:45:27<4:41:03,  1.71it/s] 40%|████      | 19229/48008 [2:45:28<4:25:36,  1.81it/s] 40%|████      | 19230/48008 [2:45:28<4:14:53,  1.88it/s] 40%|████      | 19231/48008 [2:45:29<4:06:53,  1.94it/s] 40%|████      | 19232/48008 [2:45:29<4:01:30,  1.99it/s] 40%|████      | 19233/48008 [2:45:30<3:57:57,  2.02it/s] 40%|████      | 19234/48008 [2:45:30<3:46:11,  2.12it/s] 40%|████      | 19235/48008 [2:45:30<3:47:36,  2.11it/s] 40%|████      | 19236/48008 [2:45:31<3:48:40,  2.10it/s] 40%|████      | 19237/48008 [2:45:31<3:48:52,  2.10it/s] 40%|████      | 19238/48008 [2:45:32<3:49:19,  2.09it/s] 40%|████      | 19239/48008 [2:45:32<3:49:26,  2.09it/s] 40%|████      | 19240/48008 [2:45:33<3:53:17,  2.06it/s] 40%|████      | 19241/48008 [2:45:33<3:43:02,  2.15it/s] 40%|████      | 19242/48008 [2:45:34<3:44:48,  2.13it/s] 40%|████      | 19243/48008 [2:45:34<3:46:31,  2.12it/s] 40%|████      | 19244/48008 [2:45:35<3:51:21,  2.07it/s] 40%|████      | 19245/48008 [2:45:35<3:51:00,  2.08it/s] 40%|████      | 19246/48008 [2:45:36<3:50:35,  2.08it/s] 40%|████      | 19247/48008 [2:45:36<3:41:11,  2.17it/s] 40%|████      | 19248/48008 [2:45:37<3:43:48,  2.14it/s] 40%|████      | 19249/48008 [2:45:37<3:36:06,  2.22it/s] 40%|████      | 19250/48008 [2:45:38<3:39:51,  2.18it/s]                                                         {'loss': 4.2687, 'grad_norm': 0.18590523302555084, 'learning_rate': 0.00011980919846692218, 'epoch': 0.4}
 40%|████      | 19250/48008 [2:45:38<3:39:51,  2.18it/s] 40%|████      | 19251/48008 [2:45:38<3:48:22,  2.10it/s] 40%|████      | 19252/48008 [2:45:39<3:52:39,  2.06it/s] 40%|████      | 19253/48008 [2:45:39<3:57:55,  2.01it/s] 40%|████      | 19254/48008 [2:45:40<4:01:37,  1.98it/s] 40%|████      | 19255/48008 [2:45:40<3:58:13,  2.01it/s] 40%|████      | 19256/48008 [2:45:41<5:45:52,  1.39it/s] 40%|████      | 19257/48008 [2:45:42<5:14:47,  1.52it/s] 40%|████      | 19258/48008 [2:45:42<4:52:52,  1.64it/s] 40%|████      | 19259/48008 [2:45:43<4:33:17,  1.75it/s] 40%|████      | 19260/48008 [2:45:43<4:23:23,  1.82it/s] 40%|████      | 19261/48008 [2:45:44<4:13:10,  1.89it/s] 40%|████      | 19262/48008 [2:45:44<4:06:00,  1.95it/s] 40%|████      | 19263/48008 [2:45:45<4:00:22,  1.99it/s] 40%|████      | 19264/48008 [2:45:45<3:57:06,  2.02it/s] 40%|████      | 19265/48008 [2:45:46<3:54:49,  2.04it/s] 40%|████      | 19266/48008 [2:45:46<3:56:30,  2.03it/s] 40%|████      | 19267/48008 [2:45:47<4:00:00,  2.00it/s] 40%|████      | 19268/48008 [2:45:47<3:59:41,  2.00it/s] 40%|████      | 19269/48008 [2:45:48<4:24:08,  1.81it/s] 40%|████      | 19270/48008 [2:45:48<4:04:27,  1.96it/s] 40%|████      | 19271/48008 [2:45:49<4:56:34,  1.61it/s] 40%|████      | 19272/48008 [2:45:50<4:27:10,  1.79it/s] 40%|████      | 19273/48008 [2:45:50<4:15:46,  1.87it/s] 40%|████      | 19274/48008 [2:45:50<3:58:33,  2.01it/s] 40%|████      | 19275/48008 [2:45:51<3:55:49,  2.03it/s] 40%|████      | 19276/48008 [2:45:51<3:53:59,  2.05it/s] 40%|████      | 19277/48008 [2:45:52<3:43:28,  2.14it/s] 40%|████      | 19278/48008 [2:45:52<3:35:49,  2.22it/s] 40%|████      | 19279/48008 [2:45:53<3:39:48,  2.18it/s] 40%|████      | 19280/48008 [2:45:53<3:48:26,  2.10it/s] 40%|████      | 19281/48008 [2:45:54<3:49:09,  2.09it/s] 40%|████      | 19282/48008 [2:45:54<3:49:08,  2.09it/s] 40%|████      | 19283/48008 [2:45:55<3:49:06,  2.09it/s] 40%|████      | 19284/48008 [2:45:55<3:39:37,  2.18it/s] 40%|████      | 19285/48008 [2:45:56<3:45:59,  2.12it/s] 40%|████      | 19286/48008 [2:45:56<3:37:35,  2.20it/s] 40%|████      | 19287/48008 [2:45:57<3:46:50,  2.11it/s] 40%|████      | 19288/48008 [2:45:57<3:38:28,  2.19it/s] 40%|████      | 19289/48008 [2:45:57<3:47:37,  2.10it/s] 40%|████      | 19290/48008 [2:45:58<3:51:28,  2.07it/s] 40%|████      | 19291/48008 [2:45:58<3:51:03,  2.07it/s] 40%|████      | 19292/48008 [2:45:59<3:50:49,  2.07it/s] 40%|████      | 19293/48008 [2:45:59<3:50:50,  2.07it/s] 40%|████      | 19294/48008 [2:46:00<3:50:24,  2.08it/s] 40%|████      | 19295/48008 [2:46:00<3:50:17,  2.08it/s] 40%|████      | 19296/48008 [2:46:01<3:55:55,  2.03it/s] 40%|████      | 19297/48008 [2:46:01<3:57:25,  2.02it/s] 40%|████      | 19298/48008 [2:46:02<3:55:16,  2.03it/s] 40%|████      | 19299/48008 [2:46:02<3:44:07,  2.13it/s] 40%|████      | 19300/48008 [2:46:03<3:53:46,  2.05it/s]                                                         {'loss': 4.2062, 'grad_norm': 0.15321768820285797, 'learning_rate': 0.000119600899850025, 'epoch': 0.4} 40%|████      | 19300/48008 [2:46:03<3:53:46,  2.05it/s]
 40%|████      | 19301/48008 [2:46:03<3:52:23,  2.06it/s] 40%|████      | 19302/48008 [2:46:04<3:54:53,  2.04it/s] 40%|████      | 19303/48008 [2:46:04<3:58:27,  2.01it/s] 40%|████      | 19304/48008 [2:46:06<5:45:38,  1.38it/s] 40%|████      | 19305/48008 [2:46:06<6:07:20,  1.30it/s] 40%|████      | 19306/48008 [2:46:07<5:29:35,  1.45it/s] 40%|████      | 19307/48008 [2:46:07<4:49:42,  1.65it/s] 40%|████      | 19308/48008 [2:46:08<4:31:46,  1.76it/s] 40%|████      | 19309/48008 [2:46:09<5:15:16,  1.52it/s] 40%|████      | 19310/48008 [2:46:09<4:58:08,  1.60it/s] 40%|████      | 19311/48008 [2:46:10<4:37:31,  1.72it/s] 40%|████      | 19312/48008 [2:46:10<4:22:53,  1.82it/s] 40%|████      | 19313/48008 [2:46:11<4:03:28,  1.96it/s] 40%|████      | 19314/48008 [2:46:11<4:02:59,  1.97it/s] 40%|████      | 19315/48008 [2:46:12<3:59:07,  2.00it/s] 40%|████      | 19316/48008 [2:46:12<4:53:01,  1.63it/s] 40%|████      | 19317/48008 [2:46:13<4:33:48,  1.75it/s] 40%|████      | 19318/48008 [2:46:13<4:20:02,  1.84it/s] 40%|████      | 19319/48008 [2:46:14<4:14:19,  1.88it/s] 40%|████      | 19320/48008 [2:46:14<4:06:11,  1.94it/s] 40%|████      | 19321/48008 [2:46:15<3:51:41,  2.06it/s] 40%|████      | 19322/48008 [2:46:15<3:41:35,  2.16it/s] 40%|████      | 19323/48008 [2:46:16<3:43:19,  2.14it/s] 40%|████      | 19324/48008 [2:46:16<3:53:38,  2.05it/s] 40%|████      | 19325/48008 [2:46:17<3:57:32,  2.01it/s] 40%|████      | 19326/48008 [2:46:17<3:54:48,  2.04it/s] 40%|████      | 19327/48008 [2:46:18<3:53:18,  2.05it/s] 40%|████      | 19328/48008 [2:46:18<3:52:17,  2.06it/s] 40%|████      | 19329/48008 [2:46:19<3:54:03,  2.04it/s] 40%|████      | 19330/48008 [2:46:19<3:58:10,  2.01it/s] 40%|████      | 19331/48008 [2:46:20<3:55:45,  2.03it/s] 40%|████      | 19332/48008 [2:46:20<3:56:59,  2.02it/s] 40%|████      | 19333/48008 [2:46:21<4:51:29,  1.64it/s] 40%|████      | 19334/48008 [2:46:22<4:36:19,  1.73it/s] 40%|████      | 19335/48008 [2:46:22<4:22:19,  1.82it/s] 40%|████      | 19336/48008 [2:46:23<4:17:48,  1.85it/s] 40%|████      | 19337/48008 [2:46:23<4:12:41,  1.89it/s] 40%|████      | 19338/48008 [2:46:24<4:05:38,  1.95it/s] 40%|████      | 19339/48008 [2:46:24<4:00:35,  1.99it/s] 40%|████      | 19340/48008 [2:46:25<4:00:17,  1.99it/s] 40%|████      | 19341/48008 [2:46:25<3:57:06,  2.02it/s] 40%|████      | 19342/48008 [2:46:26<3:57:56,  2.01it/s] 40%|████      | 19343/48008 [2:46:26<3:58:27,  2.00it/s] 40%|████      | 19344/48008 [2:46:27<3:55:42,  2.03it/s] 40%|████      | 19345/48008 [2:46:27<3:53:56,  2.04it/s] 40%|████      | 19346/48008 [2:46:27<3:52:16,  2.06it/s] 40%|████      | 19347/48008 [2:46:28<3:59:22,  2.00it/s] 40%|████      | 19348/48008 [2:46:29<4:52:27,  1.63it/s] 40%|████      | 19349/48008 [2:46:29<4:33:21,  1.75it/s] 40%|████      | 19350/48008 [2:46:30<4:20:00,  1.84it/s]                                                         {'loss': 4.2991, 'grad_norm': 0.10774169862270355, 'learning_rate': 0.00011939260123312782, 'epoch': 0.4}
 40%|████      | 19350/48008 [2:46:30<4:20:00,  1.84it/s] 40%|████      | 19351/48008 [2:46:30<4:13:56,  1.88it/s] 40%|████      | 19352/48008 [2:46:31<4:07:04,  1.93it/s] 40%|████      | 19353/48008 [2:46:31<3:52:19,  2.06it/s] 40%|████      | 19354/48008 [2:46:32<3:41:46,  2.15it/s] 40%|████      | 19355/48008 [2:46:32<4:12:04,  1.89it/s] 40%|████      | 19356/48008 [2:46:33<4:08:50,  1.92it/s] 40%|████      | 19357/48008 [2:46:33<4:08:25,  1.92it/s] 40%|████      | 19358/48008 [2:46:34<3:53:21,  2.05it/s] 40%|████      | 19359/48008 [2:46:34<3:52:12,  2.06it/s] 40%|████      | 19360/48008 [2:46:35<4:48:34,  1.65it/s] 40%|████      | 19361/48008 [2:46:36<4:21:11,  1.83it/s] 40%|████      | 19362/48008 [2:46:36<4:02:02,  1.97it/s] 40%|████      | 19363/48008 [2:46:36<4:01:33,  1.98it/s] 40%|████      | 19364/48008 [2:46:37<3:57:35,  2.01it/s] 40%|████      | 19365/48008 [2:46:37<3:45:52,  2.11it/s] 40%|████      | 19366/48008 [2:46:38<3:46:36,  2.11it/s] 40%|████      | 19367/48008 [2:46:38<3:37:52,  2.19it/s] 40%|████      | 19368/48008 [2:46:39<3:51:00,  2.07it/s] 40%|████      | 19369/48008 [2:46:39<3:50:37,  2.07it/s] 40%|████      | 19370/48008 [2:46:40<3:40:38,  2.16it/s] 40%|████      | 19371/48008 [2:46:40<3:43:23,  2.14it/s] 40%|████      | 19372/48008 [2:46:41<3:48:23,  2.09it/s] 40%|████      | 19373/48008 [2:46:41<3:54:08,  2.04it/s] 40%|████      | 19374/48008 [2:46:42<3:52:45,  2.05it/s] 40%|████      | 19375/48008 [2:46:42<3:51:33,  2.06it/s] 40%|████      | 19376/48008 [2:46:43<3:50:32,  2.07it/s] 40%|████      | 19377/48008 [2:46:43<3:40:43,  2.16it/s] 40%|████      | 19378/48008 [2:46:43<3:33:59,  2.23it/s] 40%|████      | 19379/48008 [2:46:44<3:38:17,  2.19it/s] 40%|████      | 19380/48008 [2:46:45<4:09:12,  1.91it/s] 40%|████      | 19381/48008 [2:46:45<4:03:05,  1.96it/s] 40%|████      | 19382/48008 [2:46:46<5:48:26,  1.37it/s] 40%|████      | 19383/48008 [2:46:47<5:15:44,  1.51it/s] 40%|████      | 19384/48008 [2:46:47<4:52:35,  1.63it/s] 40%|████      | 19385/48008 [2:46:48<4:36:40,  1.72it/s] 40%|████      | 19386/48008 [2:46:48<4:12:57,  1.89it/s] 40%|████      | 19387/48008 [2:46:49<4:05:17,  1.94it/s] 40%|████      | 19388/48008 [2:46:49<4:04:14,  1.95it/s] 40%|████      | 19389/48008 [2:46:50<3:50:11,  2.07it/s] 40%|████      | 19390/48008 [2:46:50<3:52:59,  2.05it/s] 40%|████      | 19391/48008 [2:46:51<3:51:03,  2.06it/s] 40%|████      | 19392/48008 [2:46:51<3:53:40,  2.04it/s] 40%|████      | 19393/48008 [2:46:52<3:51:39,  2.06it/s] 40%|████      | 19394/48008 [2:46:52<3:50:53,  2.07it/s] 40%|████      | 19395/48008 [2:46:53<3:49:50,  2.07it/s] 40%|████      | 19396/48008 [2:46:53<3:40:16,  2.16it/s] 40%|████      | 19397/48008 [2:46:53<3:42:42,  2.14it/s] 40%|████      | 19398/48008 [2:46:54<3:44:19,  2.13it/s] 40%|████      | 19399/48008 [2:46:54<3:48:47,  2.08it/s] 40%|████      | 19400/48008 [2:46:55<3:56:39,  2.01it/s]{'loss': 4.2837, 'grad_norm': 0.09816167503595352, 'learning_rate': 0.00011918430261623063, 'epoch': 0.4}                                                          40%|████      | 19400/48008 [2:46:55<3:56:39,  2.01it/s]
 40%|████      | 19401/48008 [2:46:56<3:59:57,  1.99it/s] 40%|████      | 19402/48008 [2:46:56<4:02:21,  1.97it/s] 40%|████      | 19403/48008 [2:46:56<3:48:37,  2.09it/s] 40%|████      | 19404/48008 [2:46:57<3:49:07,  2.08it/s] 40%|████      | 19405/48008 [2:46:57<3:38:59,  2.18it/s] 40%|████      | 19406/48008 [2:46:58<3:41:59,  2.15it/s] 40%|████      | 19407/48008 [2:46:58<3:49:30,  2.08it/s] 40%|████      | 19408/48008 [2:46:59<3:49:35,  2.08it/s] 40%|████      | 19409/48008 [2:46:59<3:52:53,  2.05it/s] 40%|████      | 19410/48008 [2:47:00<3:54:20,  2.03it/s] 40%|████      | 19411/48008 [2:47:01<4:20:29,  1.83it/s] 40%|████      | 19412/48008 [2:47:01<4:11:18,  1.90it/s] 40%|████      | 19413/48008 [2:47:01<4:07:47,  1.92it/s] 40%|████      | 19414/48008 [2:47:02<3:52:48,  2.05it/s] 40%|████      | 19415/48008 [2:47:03<4:19:23,  1.84it/s] 40%|████      | 19416/48008 [2:47:03<4:09:56,  1.91it/s] 40%|████      | 19417/48008 [2:47:04<4:11:45,  1.89it/s] 40%|████      | 19418/48008 [2:47:04<4:08:29,  1.92it/s] 40%|████      | 19419/48008 [2:47:05<4:02:54,  1.96it/s] 40%|████      | 19420/48008 [2:47:05<4:07:09,  1.93it/s] 40%|████      | 19421/48008 [2:47:06<4:01:18,  1.97it/s] 40%|████      | 19422/48008 [2:47:06<3:57:33,  2.01it/s] 40%|████      | 19423/48008 [2:47:06<3:45:42,  2.11it/s] 40%|████      | 19424/48008 [2:47:07<3:52:12,  2.05it/s] 40%|████      | 19425/48008 [2:47:08<4:47:43,  1.66it/s] 40%|████      | 19426/48008 [2:47:08<4:29:48,  1.77it/s] 40%|████      | 19427/48008 [2:47:09<4:17:02,  1.85it/s] 40%|████      | 19428/48008 [2:47:09<4:08:50,  1.91it/s] 40%|████      | 19429/48008 [2:47:10<3:53:44,  2.04it/s] 40%|████      | 19430/48008 [2:47:11<4:48:11,  1.65it/s] 40%|████      | 19431/48008 [2:47:11<4:30:11,  1.76it/s] 40%|████      | 19432/48008 [2:47:12<4:23:25,  1.81it/s] 40%|████      | 19433/48008 [2:47:12<4:21:18,  1.82it/s] 40%|████      | 19434/48008 [2:47:13<4:14:30,  1.87it/s] 40%|████      | 19435/48008 [2:47:13<4:10:41,  1.90it/s] 40%|████      | 19436/48008 [2:47:14<5:54:09,  1.34it/s] 40%|████      | 19437/48008 [2:47:15<5:19:40,  1.49it/s] 40%|████      | 19438/48008 [2:47:15<4:43:15,  1.68it/s] 40%|████      | 19439/48008 [2:47:16<4:27:15,  1.78it/s] 40%|████      | 19440/48008 [2:47:16<4:15:42,  1.86it/s] 40%|████      | 19441/48008 [2:47:17<4:11:21,  1.89it/s] 40%|████      | 19442/48008 [2:47:17<4:05:08,  1.94it/s] 40%|████      | 19443/48008 [2:47:18<4:00:52,  1.98it/s] 41%|████      | 19444/48008 [2:47:18<3:56:58,  2.01it/s] 41%|████      | 19445/48008 [2:47:19<3:45:11,  2.11it/s] 41%|████      | 19446/48008 [2:47:19<3:45:51,  2.11it/s] 41%|████      | 19447/48008 [2:47:20<3:46:51,  2.10it/s] 41%|████      | 19448/48008 [2:47:20<3:51:27,  2.06it/s] 41%|████      | 19449/48008 [2:47:21<4:48:01,  1.65it/s] 41%|████      | 19450/48008 [2:47:21<4:30:04,  1.76it/s]                                                         {'loss': 4.294, 'grad_norm': 0.11237267404794693, 'learning_rate': 0.00011897600399933344, 'epoch': 0.41}
 41%|████      | 19450/48008 [2:47:22<4:30:04,  1.76it/s] 41%|████      | 19451/48008 [2:47:22<4:08:37,  1.91it/s] 41%|████      | 19452/48008 [2:47:23<4:29:39,  1.76it/s] 41%|████      | 19453/48008 [2:47:23<4:23:10,  1.81it/s] 41%|████      | 19454/48008 [2:47:24<4:03:14,  1.96it/s] 41%|████      | 19455/48008 [2:47:24<4:55:17,  1.61it/s] 41%|████      | 19456/48008 [2:47:25<4:35:12,  1.73it/s] 41%|████      | 19457/48008 [2:47:25<4:21:23,  1.82it/s] 41%|████      | 19458/48008 [2:47:26<4:11:23,  1.89it/s] 41%|████      | 19459/48008 [2:47:26<4:07:01,  1.93it/s] 41%|████      | 19460/48008 [2:47:27<4:01:38,  1.97it/s] 41%|████      | 19461/48008 [2:47:27<4:01:27,  1.97it/s] 41%|████      | 19462/48008 [2:47:28<4:00:35,  1.98it/s] 41%|████      | 19463/48008 [2:47:28<3:47:44,  2.09it/s] 41%|████      | 19464/48008 [2:47:29<3:38:41,  2.18it/s] 41%|████      | 19465/48008 [2:47:29<3:44:47,  2.12it/s] 41%|████      | 19466/48008 [2:47:30<3:36:32,  2.20it/s] 41%|████      | 19467/48008 [2:47:30<3:39:55,  2.16it/s] 41%|████      | 19468/48008 [2:47:30<3:32:58,  2.23it/s] 41%|████      | 19469/48008 [2:47:31<3:37:48,  2.18it/s] 41%|████      | 19470/48008 [2:47:31<3:46:18,  2.10it/s] 41%|████      | 19471/48008 [2:47:32<3:46:56,  2.10it/s] 41%|████      | 19472/48008 [2:47:32<3:47:06,  2.09it/s] 41%|████      | 19473/48008 [2:47:33<3:38:05,  2.18it/s] 41%|████      | 19474/48008 [2:47:33<3:32:04,  2.24it/s] 41%|████      | 19475/48008 [2:47:34<3:40:03,  2.16it/s] 41%|████      | 19476/48008 [2:47:34<3:46:11,  2.10it/s] 41%|████      | 19477/48008 [2:47:35<3:37:38,  2.18it/s] 41%|████      | 19478/48008 [2:47:35<3:40:30,  2.16it/s] 41%|████      | 19479/48008 [2:47:36<3:46:07,  2.10it/s] 41%|████      | 19480/48008 [2:47:36<3:46:26,  2.10it/s] 41%|████      | 19481/48008 [2:47:37<4:43:00,  1.68it/s] 41%|████      | 19482/48008 [2:47:37<4:26:47,  1.78it/s] 41%|████      | 19483/48008 [2:47:38<4:05:47,  1.93it/s] 41%|████      | 19484/48008 [2:47:38<4:04:09,  1.95it/s] 41%|████      | 19485/48008 [2:47:39<3:58:43,  1.99it/s] 41%|████      | 19486/48008 [2:47:39<3:58:39,  1.99it/s] 41%|████      | 19487/48008 [2:47:40<4:03:28,  1.95it/s] 41%|████      | 19488/48008 [2:47:40<3:49:35,  2.07it/s] 41%|████      | 19489/48008 [2:47:41<3:48:43,  2.08it/s] 41%|████      | 19490/48008 [2:47:41<3:48:34,  2.08it/s] 41%|████      | 19491/48008 [2:47:42<3:51:13,  2.06it/s] 41%|████      | 19492/48008 [2:47:42<3:40:19,  2.16it/s] 41%|████      | 19493/48008 [2:47:43<3:47:38,  2.09it/s] 41%|████      | 19494/48008 [2:47:43<3:53:13,  2.04it/s] 41%|████      | 19495/48008 [2:47:44<3:57:17,  2.00it/s] 41%|████      | 19496/48008 [2:47:44<3:54:59,  2.02it/s] 41%|████      | 19497/48008 [2:47:45<3:56:13,  2.01it/s] 41%|████      | 19498/48008 [2:47:45<3:44:43,  2.11it/s] 41%|████      | 19499/48008 [2:47:46<3:48:28,  2.08it/s] 41%|████      | 19500/48008 [2:47:46<3:48:14,  2.08it/s]                                                         {'loss': 4.2503, 'grad_norm': 0.10349167883396149, 'learning_rate': 0.00011876770538243627, 'epoch': 0.41}
 41%|████      | 19500/48008 [2:47:46<3:48:14,  2.08it/s] 41%|████      | 19501/48008 [2:47:47<3:51:07,  2.06it/s] 41%|████      | 19502/48008 [2:47:47<3:40:39,  2.15it/s] 41%|████      | 19503/48008 [2:47:48<3:46:34,  2.10it/s] 41%|████      | 19504/48008 [2:47:48<3:47:08,  2.09it/s] 41%|████      | 19505/48008 [2:47:49<3:46:45,  2.09it/s] 41%|████      | 19506/48008 [2:47:49<3:52:42,  2.04it/s] 41%|████      | 19507/48008 [2:47:50<3:51:42,  2.05it/s] 41%|████      | 19508/48008 [2:47:50<3:51:06,  2.06it/s] 41%|████      | 19509/48008 [2:47:50<3:49:57,  2.07it/s] 41%|████      | 19510/48008 [2:47:51<3:52:29,  2.04it/s] 41%|████      | 19511/48008 [2:47:51<3:50:53,  2.06it/s] 41%|████      | 19512/48008 [2:47:52<3:40:38,  2.15it/s] 41%|████      | 19513/48008 [2:47:52<3:45:57,  2.10it/s] 41%|████      | 19514/48008 [2:47:53<3:50:44,  2.06it/s] 41%|████      | 19515/48008 [2:47:54<4:17:05,  1.85it/s] 41%|████      | 19516/48008 [2:47:54<4:11:35,  1.89it/s] 41%|████      | 19517/48008 [2:47:55<4:03:49,  1.95it/s] 41%|████      | 19518/48008 [2:47:55<3:49:50,  2.07it/s] 41%|████      | 19519/48008 [2:47:55<3:49:02,  2.07it/s] 41%|████      | 19520/48008 [2:47:56<4:46:08,  1.66it/s] 41%|████      | 19521/48008 [2:47:57<4:32:13,  1.74it/s] 41%|████      | 19522/48008 [2:47:57<4:18:17,  1.84it/s] 41%|████      | 19523/48008 [2:47:58<4:00:20,  1.98it/s] 41%|████      | 19524/48008 [2:47:58<3:56:24,  2.01it/s] 41%|████      | 19525/48008 [2:47:59<3:44:33,  2.11it/s] 41%|████      | 19526/48008 [2:47:59<3:53:51,  2.03it/s] 41%|████      | 19527/48008 [2:48:00<3:51:29,  2.05it/s] 41%|████      | 19528/48008 [2:48:00<3:41:09,  2.15it/s] 41%|████      | 19529/48008 [2:48:01<3:46:19,  2.10it/s] 41%|████      | 19530/48008 [2:48:01<3:46:25,  2.10it/s] 41%|████      | 19531/48008 [2:48:01<3:47:06,  2.09it/s] 41%|████      | 19532/48008 [2:48:02<3:52:56,  2.04it/s] 41%|████      | 19533/48008 [2:48:03<4:47:43,  1.65it/s] 41%|████      | 19534/48008 [2:48:03<4:32:26,  1.74it/s] 41%|████      | 19535/48008 [2:48:04<4:24:22,  1.79it/s] 41%|████      | 19536/48008 [2:48:04<4:13:25,  1.87it/s] 41%|████      | 19537/48008 [2:48:05<4:08:52,  1.91it/s] 41%|████      | 19538/48008 [2:48:05<3:53:13,  2.03it/s] 41%|████      | 19539/48008 [2:48:06<3:52:15,  2.04it/s] 41%|████      | 19540/48008 [2:48:06<3:50:43,  2.06it/s] 41%|████      | 19541/48008 [2:48:07<3:53:34,  2.03it/s] 41%|████      | 19542/48008 [2:48:08<5:41:33,  1.39it/s] 41%|████      | 19543/48008 [2:48:09<5:10:30,  1.53it/s] 41%|████      | 19544/48008 [2:48:09<4:46:18,  1.66it/s] 41%|████      | 19545/48008 [2:48:10<4:34:12,  1.73it/s] 41%|████      | 19546/48008 [2:48:10<4:20:31,  1.82it/s] 41%|████      | 19547/48008 [2:48:11<4:14:46,  1.86it/s] 41%|████      | 19548/48008 [2:48:11<4:06:25,  1.92it/s] 41%|████      | 19549/48008 [2:48:12<5:49:44,  1.36it/s] 41%|████      | 19550/48008 [2:48:13<5:13:15,  1.51it/s]                                                         {'loss': 4.2794, 'grad_norm': 0.11075073480606079, 'learning_rate': 0.00011855940676553907, 'epoch': 0.41}
 41%|████      | 19550/48008 [2:48:13<5:13:15,  1.51it/s] 41%|████      | 19551/48008 [2:48:13<4:55:38,  1.60it/s] 41%|████      | 19552/48008 [2:48:14<4:34:59,  1.72it/s] 41%|████      | 19553/48008 [2:48:15<6:11:44,  1.28it/s] 41%|████      | 19554/48008 [2:48:15<5:28:20,  1.44it/s] 41%|████      | 19555/48008 [2:48:16<4:58:24,  1.59it/s] 41%|████      | 19556/48008 [2:48:16<4:43:16,  1.67it/s] 41%|████      | 19557/48008 [2:48:17<4:32:21,  1.74it/s] 41%|████      | 19558/48008 [2:48:18<4:22:02,  1.81it/s] 41%|████      | 19559/48008 [2:48:18<4:11:59,  1.88it/s] 41%|████      | 19560/48008 [2:48:18<4:08:04,  1.91it/s] 41%|████      | 19561/48008 [2:48:19<4:01:13,  1.97it/s] 41%|████      | 19562/48008 [2:48:19<3:59:40,  1.98it/s] 41%|████      | 19563/48008 [2:48:20<3:55:42,  2.01it/s] 41%|████      | 19564/48008 [2:48:20<3:53:32,  2.03it/s] 41%|████      | 19565/48008 [2:48:21<3:55:27,  2.01it/s] 41%|████      | 19566/48008 [2:48:21<3:53:11,  2.03it/s] 41%|████      | 19567/48008 [2:48:22<3:59:36,  1.98it/s] 41%|████      | 19568/48008 [2:48:22<3:59:09,  1.98it/s] 41%|████      | 19569/48008 [2:48:23<3:58:24,  1.99it/s] 41%|████      | 19570/48008 [2:48:23<3:54:37,  2.02it/s] 41%|████      | 19571/48008 [2:48:24<3:52:25,  2.04it/s] 41%|████      | 19572/48008 [2:48:24<3:50:43,  2.05it/s] 41%|████      | 19573/48008 [2:48:25<3:55:44,  2.01it/s] 41%|████      | 19574/48008 [2:48:25<3:43:59,  2.12it/s] 41%|████      | 19575/48008 [2:48:26<3:45:39,  2.10it/s] 41%|████      | 19576/48008 [2:48:26<3:46:05,  2.10it/s] 41%|████      | 19577/48008 [2:48:27<3:49:04,  2.07it/s] 41%|████      | 19578/48008 [2:48:27<3:48:42,  2.07it/s] 41%|████      | 19579/48008 [2:48:28<3:39:10,  2.16it/s] 41%|████      | 19580/48008 [2:48:28<3:50:01,  2.06it/s] 41%|████      | 19581/48008 [2:48:29<3:54:44,  2.02it/s] 41%|████      | 19582/48008 [2:48:29<3:43:20,  2.12it/s] 41%|████      | 19583/48008 [2:48:30<3:44:44,  2.11it/s] 41%|████      | 19584/48008 [2:48:30<3:45:50,  2.10it/s] 41%|████      | 19585/48008 [2:48:31<3:46:01,  2.10it/s] 41%|████      | 19586/48008 [2:48:31<3:46:04,  2.10it/s] 41%|████      | 19587/48008 [2:48:32<4:14:42,  1.86it/s] 41%|████      | 19588/48008 [2:48:32<3:57:45,  1.99it/s] 41%|████      | 19589/48008 [2:48:33<3:55:15,  2.01it/s] 41%|████      | 19590/48008 [2:48:33<3:56:44,  2.00it/s] 41%|████      | 19591/48008 [2:48:34<3:44:57,  2.11it/s] 41%|████      | 19592/48008 [2:48:34<3:52:40,  2.04it/s] 41%|████      | 19593/48008 [2:48:35<3:51:16,  2.05it/s] 41%|████      | 19594/48008 [2:48:36<5:39:58,  1.39it/s] 41%|████      | 19595/48008 [2:48:36<5:06:03,  1.55it/s] 41%|████      | 19596/48008 [2:48:37<5:09:32,  1.53it/s] 41%|████      | 19597/48008 [2:48:38<6:34:31,  1.20it/s] 41%|████      | 19598/48008 [2:48:39<5:48:21,  1.36it/s] 41%|████      | 19599/48008 [2:48:39<5:11:56,  1.52it/s] 41%|████      | 19600/48008 [2:48:40<4:52:12,  1.62it/s]                                                         {'loss': 4.2568, 'grad_norm': 0.09805012494325638, 'learning_rate': 0.0001183511081486419, 'epoch': 0.41}
 41%|████      | 19600/48008 [2:48:40<4:52:12,  1.62it/s] 41%|████      | 19601/48008 [2:48:40<4:36:08,  1.71it/s] 41%|████      | 19602/48008 [2:48:41<4:25:03,  1.79it/s] 41%|████      | 19603/48008 [2:48:41<4:14:02,  1.86it/s] 41%|████      | 19604/48008 [2:48:42<5:38:58,  1.40it/s] 41%|████      | 19605/48008 [2:48:43<4:56:26,  1.60it/s] 41%|████      | 19606/48008 [2:48:43<4:41:13,  1.68it/s] 41%|████      | 19607/48008 [2:48:44<4:28:14,  1.76it/s] 41%|████      | 19608/48008 [2:48:44<4:16:06,  1.85it/s] 41%|████      | 19609/48008 [2:48:45<4:35:39,  1.72it/s] 41%|████      | 19610/48008 [2:48:45<4:24:41,  1.79it/s] 41%|████      | 19611/48008 [2:48:46<4:16:35,  1.84it/s] 41%|████      | 19612/48008 [2:48:47<4:15:34,  1.85it/s] 41%|████      | 19613/48008 [2:48:47<4:07:33,  1.91it/s] 41%|████      | 19614/48008 [2:48:47<4:00:51,  1.96it/s] 41%|████      | 19615/48008 [2:48:49<5:46:22,  1.37it/s] 41%|████      | 19616/48008 [2:48:49<5:01:25,  1.57it/s] 41%|████      | 19617/48008 [2:48:50<4:30:44,  1.75it/s] 41%|████      | 19618/48008 [2:48:50<4:21:23,  1.81it/s] 41%|████      | 19619/48008 [2:48:51<4:11:17,  1.88it/s] 41%|████      | 19620/48008 [2:48:51<4:03:58,  1.94it/s] 41%|████      | 19621/48008 [2:48:52<3:58:57,  1.98it/s] 41%|████      | 19622/48008 [2:48:52<3:54:45,  2.02it/s] 41%|████      | 19623/48008 [2:48:52<3:52:29,  2.03it/s] 41%|████      | 19624/48008 [2:48:53<4:19:04,  1.83it/s] 41%|████      | 19625/48008 [2:48:54<4:09:08,  1.90it/s] 41%|████      | 19626/48008 [2:48:54<4:02:06,  1.95it/s] 41%|████      | 19627/48008 [2:48:55<4:00:54,  1.96it/s] 41%|████      | 19628/48008 [2:48:55<3:56:36,  2.00it/s] 41%|████      | 19629/48008 [2:48:56<3:53:31,  2.03it/s] 41%|████      | 19630/48008 [2:48:56<3:42:31,  2.13it/s] 41%|████      | 19631/48008 [2:48:57<4:10:49,  1.89it/s] 41%|████      | 19632/48008 [2:48:57<4:06:52,  1.92it/s] 41%|████      | 19633/48008 [2:48:58<4:00:29,  1.97it/s] 41%|████      | 19634/48008 [2:48:58<3:56:44,  2.00it/s] 41%|████      | 19635/48008 [2:48:59<3:44:32,  2.11it/s] 41%|████      | 19636/48008 [2:48:59<3:45:33,  2.10it/s] 41%|████      | 19637/48008 [2:49:00<3:48:43,  2.07it/s] 41%|████      | 19638/48008 [2:49:00<3:52:19,  2.04it/s] 41%|████      | 19639/48008 [2:49:01<3:54:17,  2.02it/s] 41%|████      | 19640/48008 [2:49:01<3:51:54,  2.04it/s] 41%|████      | 19641/48008 [2:49:01<3:50:36,  2.05it/s] 41%|████      | 19642/48008 [2:49:02<3:40:26,  2.14it/s] 41%|████      | 19643/48008 [2:49:02<3:42:31,  2.12it/s] 41%|████      | 19644/48008 [2:49:03<3:43:42,  2.11it/s] 41%|████      | 19645/48008 [2:49:03<3:47:25,  2.08it/s] 41%|████      | 19646/48008 [2:49:04<3:46:59,  2.08it/s] 41%|████      | 19647/48008 [2:49:04<3:46:48,  2.08it/s] 41%|████      | 19648/48008 [2:49:05<3:52:32,  2.03it/s] 41%|████      | 19649/48008 [2:49:05<3:53:37,  2.02it/s] 41%|████      | 19650/48008 [2:49:06<3:51:30,  2.04it/s]                                                         {'loss': 4.2846, 'grad_norm': 0.10824470967054367, 'learning_rate': 0.00011814280953174472, 'epoch': 0.41}
 41%|████      | 19650/48008 [2:49:06<3:51:30,  2.04it/s] 41%|████      | 19651/48008 [2:49:06<3:53:41,  2.02it/s] 41%|████      | 19652/48008 [2:49:07<3:51:35,  2.04it/s] 41%|████      | 19653/48008 [2:49:07<3:49:47,  2.06it/s] 41%|████      | 19654/48008 [2:49:08<3:48:57,  2.06it/s] 41%|████      | 19655/48008 [2:49:08<3:53:30,  2.02it/s] 41%|████      | 19656/48008 [2:49:09<4:00:13,  1.97it/s] 41%|████      | 19657/48008 [2:49:09<3:47:24,  2.08it/s] 41%|████      | 19658/48008 [2:49:10<3:53:28,  2.02it/s] 41%|████      | 19659/48008 [2:49:10<3:51:17,  2.04it/s] 41%|████      | 19660/48008 [2:49:11<3:53:32,  2.02it/s] 41%|████      | 19661/48008 [2:49:11<3:51:39,  2.04it/s] 41%|████      | 19662/48008 [2:49:12<3:53:54,  2.02it/s] 41%|████      | 19663/48008 [2:49:12<3:52:07,  2.04it/s] 41%|████      | 19664/48008 [2:49:13<4:46:39,  1.65it/s] 41%|████      | 19665/48008 [2:49:14<4:34:12,  1.72it/s] 41%|████      | 19666/48008 [2:49:14<4:10:32,  1.89it/s] 41%|████      | 19667/48008 [2:49:15<4:02:44,  1.95it/s] 41%|████      | 19668/48008 [2:49:16<5:46:25,  1.36it/s] 41%|████      | 19669/48008 [2:49:16<5:10:41,  1.52it/s] 41%|████      | 19670/48008 [2:49:17<4:45:12,  1.66it/s] 41%|████      | 19671/48008 [2:49:17<4:27:47,  1.76it/s] 41%|████      | 19672/48008 [2:49:18<4:06:37,  1.91it/s] 41%|████      | 19673/48008 [2:49:18<4:03:25,  1.94it/s] 41%|████      | 19674/48008 [2:49:19<3:58:26,  1.98it/s] 41%|████      | 19675/48008 [2:49:19<3:55:19,  2.01it/s] 41%|████      | 19676/48008 [2:49:20<3:56:20,  2.00it/s] 41%|████      | 19677/48008 [2:49:20<3:56:56,  1.99it/s] 41%|████      | 19678/48008 [2:49:21<3:54:25,  2.01it/s] 41%|████      | 19679/48008 [2:49:21<3:55:39,  2.00it/s] 41%|████      | 19680/48008 [2:49:22<4:01:13,  1.96it/s] 41%|████      | 19681/48008 [2:49:22<3:56:17,  2.00it/s] 41%|████      | 19682/48008 [2:49:23<3:57:31,  1.99it/s] 41%|████      | 19683/48008 [2:49:23<3:54:16,  2.02it/s] 41%|████      | 19684/48008 [2:49:24<3:54:47,  2.01it/s] 41%|████      | 19685/48008 [2:49:24<3:42:41,  2.12it/s] 41%|████      | 19686/48008 [2:49:24<3:34:36,  2.20it/s] 41%|████      | 19687/48008 [2:49:25<3:43:48,  2.11it/s] 41%|████      | 19688/48008 [2:49:25<3:44:55,  2.10it/s] 41%|████      | 19689/48008 [2:49:26<3:45:05,  2.10it/s] 41%|████      | 19690/48008 [2:49:26<3:45:15,  2.10it/s] 41%|████      | 19691/48008 [2:49:27<3:45:08,  2.10it/s] 41%|████      | 19692/48008 [2:49:27<3:45:03,  2.10it/s] 41%|████      | 19693/48008 [2:49:28<3:48:09,  2.07it/s] 41%|████      | 19694/48008 [2:49:29<5:36:41,  1.40it/s] 41%|████      | 19695/48008 [2:49:30<5:03:48,  1.55it/s] 41%|████      | 19696/48008 [2:49:30<4:31:15,  1.74it/s] 41%|████      | 19697/48008 [2:49:30<4:23:29,  1.79it/s] 41%|████      | 19698/48008 [2:49:31<5:08:13,  1.53it/s] 41%|████      | 19699/48008 [2:49:32<4:46:53,  1.64it/s] 41%|████      | 19700/48008 [2:49:32<4:28:29,  1.76it/s]                                                         {'loss': 4.2778, 'grad_norm': 0.12349050492048264, 'learning_rate': 0.00011793451091484752, 'epoch': 0.41}
 41%|████      | 19700/48008 [2:49:32<4:28:29,  1.76it/s] 41%|████      | 19701/48008 [2:49:33<4:16:53,  1.84it/s] 41%|████      | 19702/48008 [2:49:33<4:16:23,  1.84it/s] 41%|████      | 19703/48008 [2:49:34<4:07:19,  1.91it/s] 41%|████      | 19704/48008 [2:49:34<4:04:17,  1.93it/s] 41%|████      | 19705/48008 [2:49:35<3:58:32,  1.98it/s] 41%|████      | 19706/48008 [2:49:35<3:55:02,  2.01it/s] 41%|████      | 19707/48008 [2:49:36<3:52:42,  2.03it/s] 41%|████      | 19708/48008 [2:49:37<6:01:45,  1.30it/s] 41%|████      | 19709/48008 [2:49:38<5:49:07,  1.35it/s] 41%|████      | 19710/48008 [2:49:38<5:18:06,  1.48it/s] 41%|████      | 19711/48008 [2:49:39<4:56:50,  1.59it/s] 41%|████      | 19712/48008 [2:49:39<4:36:17,  1.71it/s] 41%|████      | 19713/48008 [2:49:40<4:21:09,  1.81it/s] 41%|████      | 19714/48008 [2:49:41<6:28:33,  1.21it/s] 41%|████      | 19715/48008 [2:49:42<5:39:15,  1.39it/s] 41%|████      | 19716/48008 [2:49:42<5:05:20,  1.54it/s] 41%|████      | 19717/48008 [2:49:43<4:41:33,  1.67it/s] 41%|████      | 19718/48008 [2:49:43<4:16:01,  1.84it/s] 41%|████      | 19719/48008 [2:49:44<3:58:14,  1.98it/s] 41%|████      | 19720/48008 [2:49:45<5:15:40,  1.49it/s] 41%|████      | 19721/48008 [2:49:45<4:52:25,  1.61it/s] 41%|████      | 19722/48008 [2:49:46<4:22:42,  1.79it/s] 41%|████      | 19723/48008 [2:49:46<4:11:59,  1.87it/s] 41%|████      | 19724/48008 [2:49:47<4:10:02,  1.89it/s] 41%|████      | 19725/48008 [2:49:47<4:02:44,  1.94it/s] 41%|████      | 19726/48008 [2:49:48<4:04:00,  1.93it/s] 41%|████      | 19727/48008 [2:49:48<4:02:16,  1.95it/s] 41%|████      | 19728/48008 [2:49:49<4:00:31,  1.96it/s] 41%|████      | 19729/48008 [2:49:49<4:05:11,  1.92it/s] 41%|████      | 19730/48008 [2:49:50<4:27:06,  1.76it/s] 41%|████      | 19731/48008 [2:49:50<4:20:51,  1.81it/s] 41%|████      | 19732/48008 [2:49:51<4:10:49,  1.88it/s] 41%|████      | 19733/48008 [2:49:51<3:53:58,  2.01it/s] 41%|████      | 19734/48008 [2:49:52<3:51:27,  2.04it/s] 41%|████      | 19735/48008 [2:49:52<3:40:45,  2.13it/s] 41%|████      | 19736/48008 [2:49:53<3:51:11,  2.04it/s] 41%|████      | 19737/48008 [2:49:53<3:55:31,  2.00it/s] 41%|████      | 19738/48008 [2:49:54<3:52:44,  2.02it/s] 41%|████      | 19739/48008 [2:49:54<3:50:50,  2.04it/s] 41%|████      | 19740/48008 [2:49:55<3:53:09,  2.02it/s] 41%|████      | 19741/48008 [2:49:55<3:51:24,  2.04it/s] 41%|████      | 19742/48008 [2:49:56<3:40:45,  2.13it/s] 41%|████      | 19743/48008 [2:49:56<3:45:46,  2.09it/s] 41%|████      | 19744/48008 [2:49:57<3:45:39,  2.09it/s] 41%|████      | 19745/48008 [2:49:57<3:36:37,  2.17it/s] 41%|████      | 19746/48008 [2:49:57<3:30:46,  2.23it/s] 41%|████      | 19747/48008 [2:49:58<3:38:27,  2.16it/s] 41%|████      | 19748/48008 [2:49:58<3:26:47,  2.28it/s] 41%|████      | 19749/48008 [2:49:59<3:37:30,  2.17it/s] 41%|████      | 19750/48008 [2:49:59<3:39:57,  2.14it/s]                                                         {'loss': 4.2667, 'grad_norm': 0.10079652816057205, 'learning_rate': 0.00011772621229795036, 'epoch': 0.41}
 41%|████      | 19750/48008 [2:49:59<3:39:57,  2.14it/s] 41%|████      | 19751/48008 [2:50:00<3:45:28,  2.09it/s] 41%|████      | 19752/48008 [2:50:00<3:51:12,  2.04it/s] 41%|████      | 19753/48008 [2:50:01<3:48:58,  2.06it/s] 41%|████      | 19754/48008 [2:50:01<3:48:24,  2.06it/s] 41%|████      | 19755/48008 [2:50:02<3:51:49,  2.03it/s] 41%|████      | 19756/48008 [2:50:02<3:40:52,  2.13it/s] 41%|████      | 19757/48008 [2:50:03<3:33:20,  2.21it/s] 41%|████      | 19758/48008 [2:50:03<3:40:25,  2.14it/s] 41%|████      | 19759/48008 [2:50:04<5:30:54,  1.42it/s] 41%|████      | 19760/48008 [2:50:05<4:50:22,  1.62it/s] 41%|████      | 19761/48008 [2:50:05<4:36:51,  1.70it/s] 41%|████      | 19762/48008 [2:50:06<4:21:39,  1.80it/s] 41%|████      | 19763/48008 [2:50:06<4:01:32,  1.95it/s] 41%|████      | 19764/48008 [2:50:07<3:57:21,  1.98it/s] 41%|████      | 19765/48008 [2:50:07<3:56:34,  1.99it/s] 41%|████      | 19766/48008 [2:50:08<3:59:02,  1.97it/s] 41%|████      | 19767/48008 [2:50:08<3:55:18,  2.00it/s] 41%|████      | 19768/48008 [2:50:09<4:19:46,  1.81it/s] 41%|████      | 19769/48008 [2:50:09<4:18:30,  1.82it/s] 41%|████      | 19770/48008 [2:50:10<4:09:22,  1.89it/s] 41%|████      | 19771/48008 [2:50:10<4:10:13,  1.88it/s] 41%|████      | 19772/48008 [2:50:11<4:02:28,  1.94it/s] 41%|████      | 19773/48008 [2:50:11<4:00:21,  1.96it/s] 41%|████      | 19774/48008 [2:50:12<3:56:10,  1.99it/s] 41%|████      | 19775/48008 [2:50:12<3:56:10,  1.99it/s] 41%|████      | 19776/48008 [2:50:13<3:44:18,  2.10it/s] 41%|████      | 19777/48008 [2:50:13<3:35:43,  2.18it/s] 41%|████      | 19778/48008 [2:50:14<3:44:22,  2.10it/s] 41%|████      | 19779/48008 [2:50:14<3:34:47,  2.19it/s] 41%|████      | 19780/48008 [2:50:15<3:43:18,  2.11it/s] 41%|████      | 19781/48008 [2:50:15<3:49:35,  2.05it/s] 41%|████      | 19782/48008 [2:50:16<3:48:23,  2.06it/s] 41%|████      | 19783/48008 [2:50:16<3:47:45,  2.07it/s] 41%|████      | 19784/48008 [2:50:17<3:47:28,  2.07it/s] 41%|████      | 19785/48008 [2:50:17<3:46:59,  2.07it/s] 41%|████      | 19786/48008 [2:50:18<3:52:40,  2.02it/s] 41%|████      | 19787/48008 [2:50:18<3:41:29,  2.12it/s] 41%|████      | 19788/48008 [2:50:18<3:47:54,  2.06it/s] 41%|████      | 19789/48008 [2:50:19<3:46:57,  2.07it/s] 41%|████      | 19790/48008 [2:50:19<3:52:04,  2.03it/s] 41%|████      | 19791/48008 [2:50:20<3:50:30,  2.04it/s] 41%|████      | 19792/48008 [2:50:20<3:52:36,  2.02it/s] 41%|████      | 19793/48008 [2:50:21<3:50:37,  2.04it/s] 41%|████      | 19794/48008 [2:50:21<3:49:08,  2.05it/s] 41%|████      | 19795/48008 [2:50:22<3:47:59,  2.06it/s] 41%|████      | 19796/48008 [2:50:22<3:46:41,  2.07it/s] 41%|████      | 19797/48008 [2:50:23<3:52:09,  2.03it/s] 41%|████      | 19798/48008 [2:50:23<3:53:13,  2.02it/s] 41%|████      | 19799/48008 [2:50:24<3:57:04,  1.98it/s] 41%|████      | 19800/48008 [2:50:24<3:53:34,  2.01it/s]                                                         {'loss': 4.2785, 'grad_norm': 0.11976584047079086, 'learning_rate': 0.00011751791368105316, 'epoch': 0.41} 41%|████      | 19800/48008 [2:50:24<3:53:34,  2.01it/s]
 41%|████      | 19801/48008 [2:50:25<3:56:44,  1.99it/s] 41%|████      | 19802/48008 [2:50:25<3:53:32,  2.01it/s] 41%|████      | 19803/48008 [2:50:26<3:51:30,  2.03it/s] 41%|████▏     | 19804/48008 [2:50:26<3:49:04,  2.05it/s] 41%|████▏     | 19805/48008 [2:50:27<3:48:36,  2.06it/s] 41%|████▏     | 19806/48008 [2:50:27<3:51:18,  2.03it/s] 41%|████▏     | 19807/48008 [2:50:28<3:49:45,  2.05it/s] 41%|████▏     | 19808/48008 [2:50:28<3:48:43,  2.05it/s] 41%|████▏     | 19809/48008 [2:50:29<3:33:28,  2.20it/s] 41%|████▏     | 19810/48008 [2:50:29<3:40:06,  2.14it/s] 41%|████▏     | 19811/48008 [2:50:30<4:08:55,  1.89it/s] 41%|████▏     | 19812/48008 [2:50:30<4:02:20,  1.94it/s] 41%|████▏     | 19813/48008 [2:50:32<5:45:44,  1.36it/s] 41%|████▏     | 19814/48008 [2:50:32<5:17:45,  1.48it/s] 41%|████▏     | 19815/48008 [2:50:33<4:50:13,  1.62it/s] 41%|████▏     | 19816/48008 [2:50:33<4:21:26,  1.80it/s] 41%|████▏     | 19817/48008 [2:50:34<4:10:42,  1.87it/s] 41%|████▏     | 19818/48008 [2:50:34<4:12:01,  1.86it/s] 41%|████▏     | 19819/48008 [2:50:35<4:09:51,  1.88it/s] 41%|████▏     | 19820/48008 [2:50:35<4:02:25,  1.94it/s] 41%|████▏     | 19821/48008 [2:50:36<3:57:39,  1.98it/s] 41%|████▏     | 19822/48008 [2:50:36<3:54:04,  2.01it/s] 41%|████▏     | 19823/48008 [2:50:37<3:51:36,  2.03it/s] 41%|████▏     | 19824/48008 [2:50:37<3:58:31,  1.97it/s] 41%|████▏     | 19825/48008 [2:50:38<3:58:15,  1.97it/s] 41%|████▏     | 19826/48008 [2:50:38<3:59:52,  1.96it/s] 41%|████▏     | 19827/48008 [2:50:39<4:22:49,  1.79it/s] 41%|████▏     | 19828/48008 [2:50:39<4:02:46,  1.93it/s] 41%|████▏     | 19829/48008 [2:50:40<4:06:13,  1.91it/s] 41%|████▏     | 19830/48008 [2:50:40<3:59:46,  1.96it/s] 41%|████▏     | 19831/48008 [2:50:41<3:58:36,  1.97it/s] 41%|████▏     | 19832/48008 [2:50:41<3:59:59,  1.96it/s] 41%|████▏     | 19833/48008 [2:50:42<3:55:28,  1.99it/s] 41%|████▏     | 19834/48008 [2:50:42<3:51:57,  2.02it/s] 41%|████▏     | 19835/48008 [2:50:43<3:55:09,  2.00it/s] 41%|████▏     | 19836/48008 [2:50:43<3:51:56,  2.02it/s] 41%|████▏     | 19837/48008 [2:50:44<3:40:36,  2.13it/s] 41%|████▏     | 19838/48008 [2:50:44<4:09:54,  1.88it/s] 41%|████▏     | 19839/48008 [2:50:45<4:02:10,  1.94it/s] 41%|████▏     | 19840/48008 [2:50:45<4:00:46,  1.95it/s] 41%|████▏     | 19841/48008 [2:50:46<3:55:44,  1.99it/s] 41%|████▏     | 19842/48008 [2:50:46<3:52:32,  2.02it/s] 41%|████▏     | 19843/48008 [2:50:47<5:38:16,  1.39it/s] 41%|████▏     | 19844/48008 [2:50:48<5:04:49,  1.54it/s] 41%|████▏     | 19845/48008 [2:50:48<4:49:12,  1.62it/s] 41%|████▏     | 19846/48008 [2:50:49<4:33:50,  1.71it/s] 41%|████▏     | 19847/48008 [2:50:50<4:46:29,  1.64it/s] 41%|████▏     | 19848/48008 [2:50:50<4:19:06,  1.81it/s] 41%|████▏     | 19849/48008 [2:50:51<4:09:39,  1.88it/s] 41%|████▏     | 19850/48008 [2:50:51<4:02:49,  1.93it/s]                                                         {'loss': 4.2816, 'grad_norm': 0.09788617491722107, 'learning_rate': 0.00011730961506415599, 'epoch': 0.41} 41%|████▏     | 19850/48008 [2:50:51<4:02:49,  1.93it/s]
 41%|████▏     | 19851/48008 [2:50:52<4:00:52,  1.95it/s] 41%|████▏     | 19852/48008 [2:50:52<3:47:11,  2.07it/s] 41%|████▏     | 19853/48008 [2:50:52<3:37:33,  2.16it/s] 41%|████▏     | 19854/48008 [2:50:53<3:30:42,  2.23it/s] 41%|████▏     | 19855/48008 [2:50:53<3:25:54,  2.28it/s] 41%|████▏     | 19856/48008 [2:50:54<3:31:17,  2.22it/s] 41%|████▏     | 19857/48008 [2:50:54<3:34:49,  2.18it/s] 41%|████▏     | 19858/48008 [2:50:55<3:41:13,  2.12it/s] 41%|████▏     | 19859/48008 [2:50:55<3:48:14,  2.06it/s] 41%|████▏     | 19860/48008 [2:50:56<3:47:31,  2.06it/s] 41%|████▏     | 19861/48008 [2:50:56<3:52:24,  2.02it/s] 41%|████▏     | 19862/48008 [2:50:57<3:49:31,  2.04it/s] 41%|████▏     | 19863/48008 [2:50:57<3:57:07,  1.98it/s] 41%|████▏     | 19864/48008 [2:50:58<3:57:17,  1.98it/s] 41%|████▏     | 19865/48008 [2:50:58<4:20:47,  1.80it/s] 41%|████▏     | 19866/48008 [2:50:59<4:10:09,  1.87it/s] 41%|████▏     | 19867/48008 [2:50:59<4:02:50,  1.93it/s] 41%|████▏     | 19868/48008 [2:51:00<4:00:35,  1.95it/s] 41%|████▏     | 19869/48008 [2:51:01<5:44:20,  1.36it/s] 41%|████▏     | 19870/48008 [2:51:02<5:11:41,  1.50it/s] 41%|████▏     | 19871/48008 [2:51:02<4:53:50,  1.60it/s] 41%|████▏     | 19872/48008 [2:51:03<4:34:02,  1.71it/s] 41%|████▏     | 19873/48008 [2:51:03<4:22:47,  1.78it/s] 41%|████▏     | 19874/48008 [2:51:04<4:02:18,  1.94it/s] 41%|████▏     | 19875/48008 [2:51:04<4:05:19,  1.91it/s] 41%|████▏     | 19876/48008 [2:51:05<4:02:28,  1.93it/s] 41%|████▏     | 19877/48008 [2:51:05<3:57:49,  1.97it/s] 41%|████▏     | 19878/48008 [2:51:06<3:53:51,  2.00it/s] 41%|████▏     | 19879/48008 [2:51:06<3:54:46,  2.00it/s] 41%|████▏     | 19880/48008 [2:51:07<3:51:45,  2.02it/s] 41%|████▏     | 19881/48008 [2:51:07<3:40:41,  2.12it/s] 41%|████▏     | 19882/48008 [2:51:07<3:42:06,  2.11it/s] 41%|████▏     | 19883/48008 [2:51:08<3:45:40,  2.08it/s] 41%|████▏     | 19884/48008 [2:51:08<3:36:49,  2.16it/s] 41%|████▏     | 19885/48008 [2:51:09<3:41:56,  2.11it/s] 41%|████▏     | 19886/48008 [2:51:10<4:10:03,  1.87it/s] 41%|████▏     | 19887/48008 [2:51:10<4:02:46,  1.93it/s] 41%|████▏     | 19888/48008 [2:51:11<4:02:29,  1.93it/s] 41%|████▏     | 19889/48008 [2:51:11<4:00:20,  1.95it/s] 41%|████▏     | 19890/48008 [2:51:11<3:55:55,  1.99it/s] 41%|████▏     | 19891/48008 [2:51:12<3:43:37,  2.10it/s] 41%|████▏     | 19892/48008 [2:51:12<3:47:09,  2.06it/s] 41%|████▏     | 19893/48008 [2:51:13<3:46:51,  2.07it/s] 41%|████▏     | 19894/48008 [2:51:13<3:32:08,  2.21it/s] 41%|████▏     | 19895/48008 [2:51:14<3:39:34,  2.13it/s] 41%|████▏     | 19896/48008 [2:51:14<3:41:40,  2.11it/s] 41%|████▏     | 19897/48008 [2:51:15<3:48:44,  2.05it/s] 41%|████▏     | 19898/48008 [2:51:15<3:47:36,  2.06it/s] 41%|████▏     | 19899/48008 [2:51:16<3:52:03,  2.02it/s] 41%|████▏     | 19900/48008 [2:51:16<3:40:42,  2.12it/s]                                                         {'loss': 4.2398, 'grad_norm': 0.10525877773761749, 'learning_rate': 0.0001171013164472588, 'epoch': 0.41}
 41%|████▏     | 19900/48008 [2:51:16<3:40:42,  2.12it/s] 41%|████▏     | 19901/48008 [2:51:17<3:45:59,  2.07it/s] 41%|████▏     | 19902/48008 [2:51:17<3:48:49,  2.05it/s] 41%|████▏     | 19903/48008 [2:51:18<3:47:30,  2.06it/s] 41%|████▏     | 19904/48008 [2:51:18<3:50:28,  2.03it/s] 41%|████▏     | 19905/48008 [2:51:19<4:44:29,  1.65it/s] 41%|████▏     | 19906/48008 [2:51:20<4:26:24,  1.76it/s] 41%|████▏     | 19907/48008 [2:51:20<4:17:12,  1.82it/s] 41%|████▏     | 19908/48008 [2:51:20<3:58:25,  1.96it/s] 41%|████▏     | 19909/48008 [2:51:21<3:54:27,  2.00it/s] 41%|████▏     | 19910/48008 [2:51:21<3:52:13,  2.02it/s] 41%|████▏     | 19911/48008 [2:51:22<3:53:01,  2.01it/s] 41%|████▏     | 19912/48008 [2:51:22<3:41:12,  2.12it/s] 41%|████▏     | 19913/48008 [2:51:23<3:42:31,  2.10it/s] 41%|████▏     | 19914/48008 [2:51:23<3:34:06,  2.19it/s] 41%|████▏     | 19915/48008 [2:51:24<3:40:31,  2.12it/s] 41%|████▏     | 19916/48008 [2:51:24<3:42:00,  2.11it/s] 41%|████▏     | 19917/48008 [2:51:25<3:45:32,  2.08it/s] 41%|████▏     | 19918/48008 [2:51:25<3:35:54,  2.17it/s] 41%|████▏     | 19919/48008 [2:51:26<3:38:17,  2.14it/s] 41%|████▏     | 19920/48008 [2:51:26<3:40:20,  2.12it/s] 41%|████▏     | 19921/48008 [2:51:27<3:41:04,  2.12it/s] 41%|████▏     | 19922/48008 [2:51:27<3:33:01,  2.20it/s] 41%|████▏     | 19923/48008 [2:51:27<3:36:27,  2.16it/s] 42%|████▏     | 19924/48008 [2:51:28<3:38:45,  2.14it/s] 42%|████▏     | 19925/48008 [2:51:28<3:40:01,  2.13it/s] 42%|████▏     | 19926/48008 [2:51:29<3:41:35,  2.11it/s] 42%|████▏     | 19927/48008 [2:51:29<3:42:43,  2.10it/s] 42%|████▏     | 19928/48008 [2:51:30<3:42:57,  2.10it/s] 42%|████▏     | 19929/48008 [2:51:30<3:43:02,  2.10it/s] 42%|████▏     | 19930/48008 [2:51:31<4:10:07,  1.87it/s] 42%|████▏     | 19931/48008 [2:51:32<4:05:20,  1.91it/s] 42%|████▏     | 19932/48008 [2:51:32<4:07:46,  1.89it/s] 42%|████▏     | 19933/48008 [2:51:33<4:08:58,  1.88it/s] 42%|████▏     | 19934/48008 [2:51:33<4:01:45,  1.94it/s] 42%|████▏     | 19935/48008 [2:51:34<4:23:48,  1.77it/s] 42%|████▏     | 19936/48008 [2:51:34<4:18:11,  1.81it/s] 42%|████▏     | 19937/48008 [2:51:35<4:11:17,  1.86it/s] 42%|████▏     | 19938/48008 [2:51:35<4:06:45,  1.90it/s] 42%|████▏     | 19939/48008 [2:51:36<4:00:19,  1.95it/s] 42%|████▏     | 19940/48008 [2:51:36<3:59:07,  1.96it/s] 42%|████▏     | 19941/48008 [2:51:37<3:45:43,  2.07it/s] 42%|████▏     | 19942/48008 [2:51:37<3:45:28,  2.07it/s] 42%|████▏     | 19943/48008 [2:51:38<3:48:53,  2.04it/s] 42%|████▏     | 19944/48008 [2:51:38<3:47:56,  2.05it/s] 42%|████▏     | 19945/48008 [2:51:39<3:47:07,  2.06it/s] 42%|████▏     | 19946/48008 [2:51:39<3:37:01,  2.16it/s] 42%|████▏     | 19947/48008 [2:51:39<3:29:48,  2.23it/s] 42%|████▏     | 19948/48008 [2:51:40<3:34:22,  2.18it/s] 42%|████▏     | 19949/48008 [2:51:40<3:28:01,  2.25it/s] 42%|████▏     | 19950/48008 [2:51:41<3:32:37,  2.20it/s]                                                         {'loss': 4.287, 'grad_norm': 0.10081307590007782, 'learning_rate': 0.00011689301783036161, 'epoch': 0.42}
 42%|████▏     | 19950/48008 [2:51:41<3:32:37,  2.20it/s] 42%|████▏     | 19951/48008 [2:51:41<3:39:43,  2.13it/s] 42%|████▏     | 19952/48008 [2:51:42<3:45:07,  2.08it/s] 42%|████▏     | 19953/48008 [2:51:42<3:50:38,  2.03it/s] 42%|████▏     | 19954/48008 [2:51:43<3:54:20,  2.00it/s] 42%|████▏     | 19955/48008 [2:51:43<3:51:35,  2.02it/s] 42%|████▏     | 19956/48008 [2:51:44<3:52:26,  2.01it/s] 42%|████▏     | 19957/48008 [2:51:44<3:40:57,  2.12it/s] 42%|████▏     | 19958/48008 [2:51:45<3:45:23,  2.07it/s] 42%|████▏     | 19959/48008 [2:51:46<5:33:13,  1.40it/s] 42%|████▏     | 19960/48008 [2:51:47<5:01:12,  1.55it/s] 42%|████▏     | 19961/48008 [2:51:47<4:38:19,  1.68it/s] 42%|████▏     | 19962/48008 [2:51:47<4:22:15,  1.78it/s] 42%|████▏     | 19963/48008 [2:51:48<4:10:43,  1.86it/s] 42%|████▏     | 19964/48008 [2:51:48<4:08:25,  1.88it/s] 42%|████▏     | 19965/48008 [2:51:49<4:01:16,  1.94it/s] 42%|████▏     | 19966/48008 [2:51:49<3:59:28,  1.95it/s] 42%|████▏     | 19967/48008 [2:51:50<4:00:10,  1.95it/s] 42%|████▏     | 19968/48008 [2:51:50<3:55:24,  1.99it/s] 42%|████▏     | 19969/48008 [2:51:51<3:38:37,  2.14it/s] 42%|████▏     | 19970/48008 [2:51:51<3:43:41,  2.09it/s] 42%|████▏     | 19971/48008 [2:51:52<3:43:44,  2.09it/s] 42%|████▏     | 19972/48008 [2:51:52<3:43:49,  2.09it/s] 42%|████▏     | 19973/48008 [2:51:53<3:43:59,  2.09it/s] 42%|████▏     | 19974/48008 [2:51:53<3:47:42,  2.05it/s] 42%|████▏     | 19975/48008 [2:51:54<3:37:36,  2.15it/s] 42%|████▏     | 19976/48008 [2:51:54<3:39:37,  2.13it/s] 42%|████▏     | 19977/48008 [2:51:55<3:43:51,  2.09it/s] 42%|████▏     | 19978/48008 [2:51:55<3:49:44,  2.03it/s] 42%|████▏     | 19979/48008 [2:51:56<3:48:05,  2.05it/s] 42%|████▏     | 19980/48008 [2:51:56<3:54:51,  1.99it/s] 42%|████▏     | 19981/48008 [2:51:57<3:52:06,  2.01it/s] 42%|████▏     | 19982/48008 [2:51:57<3:55:39,  1.98it/s] 42%|████▏     | 19983/48008 [2:51:58<4:00:24,  1.94it/s] 42%|████▏     | 19984/48008 [2:51:58<3:58:40,  1.96it/s] 42%|████▏     | 19985/48008 [2:51:59<4:03:14,  1.92it/s] 42%|████▏     | 19986/48008 [2:51:59<4:03:11,  1.92it/s] 42%|████▏     | 19987/48008 [2:52:00<3:58:04,  1.96it/s] 42%|████▏     | 19988/48008 [2:52:00<3:57:35,  1.97it/s] 42%|████▏     | 19989/48008 [2:52:01<3:53:35,  2.00it/s] 42%|████▏     | 19990/48008 [2:52:01<3:41:40,  2.11it/s] 42%|████▏     | 19991/48008 [2:52:02<3:42:21,  2.10it/s] 42%|████▏     | 19992/48008 [2:52:02<3:34:24,  2.18it/s] 42%|████▏     | 19993/48008 [2:52:03<3:40:53,  2.11it/s] 42%|████▏     | 19994/48008 [2:52:04<5:30:31,  1.41it/s] 42%|████▏     | 19995/48008 [2:52:04<4:58:38,  1.56it/s] 42%|████▏     | 19996/48008 [2:52:05<4:39:43,  1.67it/s] 42%|████▏     | 19997/48008 [2:52:05<4:26:03,  1.75it/s] 42%|████▏     | 19998/48008 [2:52:06<4:12:49,  1.85it/s] 42%|████▏     | 19999/48008 [2:52:07<5:52:17,  1.33it/s] 42%|████▏     | 20000/48008 [2:52:08<5:40:32,  1.37it/s]                                                         {'loss': 4.2828, 'grad_norm': 0.10702472180128098, 'learning_rate': 0.00011668471921346443, 'epoch': 0.42} 42%|████▏     | 20000/48008 [2:52:08<5:40:32,  1.37it/s]
 42%|████▏     | 20001/48008 [2:52:08<5:09:05,  1.51it/s] 42%|████▏     | 20002/48008 [2:52:09<4:43:21,  1.65it/s] 42%|████▏     | 20003/48008 [2:52:09<4:25:55,  1.76it/s] 42%|████▏     | 20004/48008 [2:52:10<4:13:34,  1.84it/s] 42%|████▏     | 20005/48008 [2:52:10<4:04:56,  1.91it/s] 42%|████▏     | 20006/48008 [2:52:11<4:07:21,  1.89it/s] 42%|████▏     | 20007/48008 [2:52:11<4:02:54,  1.92it/s] 42%|████▏     | 20008/48008 [2:52:12<3:48:17,  2.04it/s] 42%|████▏     | 20009/48008 [2:52:12<3:47:16,  2.05it/s] 42%|████▏     | 20010/48008 [2:52:13<4:13:23,  1.84it/s] 42%|████▏     | 20011/48008 [2:52:13<3:55:16,  1.98it/s] 42%|████▏     | 20012/48008 [2:52:14<3:57:44,  1.96it/s] 42%|████▏     | 20013/48008 [2:52:14<3:56:41,  1.97it/s] 42%|████▏     | 20014/48008 [2:52:15<3:43:27,  2.09it/s] 42%|████▏     | 20015/48008 [2:52:15<3:46:47,  2.06it/s] 42%|████▏     | 20016/48008 [2:52:16<3:36:35,  2.15it/s] 42%|████▏     | 20017/48008 [2:52:16<3:42:01,  2.10it/s] 42%|████▏     | 20018/48008 [2:52:17<3:42:49,  2.09it/s] 42%|████▏     | 20019/48008 [2:52:17<3:46:50,  2.06it/s] 42%|████▏     | 20020/48008 [2:52:18<3:46:04,  2.06it/s] 42%|████▏     | 20021/48008 [2:52:18<3:45:19,  2.07it/s] 42%|████▏     | 20022/48008 [2:52:19<3:50:54,  2.02it/s] 42%|████▏     | 20023/48008 [2:52:19<3:39:26,  2.13it/s] 42%|████▏     | 20024/48008 [2:52:19<3:31:25,  2.21it/s] 42%|████▏     | 20025/48008 [2:52:20<3:34:51,  2.17it/s] 42%|████▏     | 20026/48008 [2:52:20<3:42:46,  2.09it/s] 42%|████▏     | 20027/48008 [2:52:21<3:51:22,  2.02it/s] 42%|████▏     | 20028/48008 [2:52:21<3:49:18,  2.03it/s] 42%|████▏     | 20029/48008 [2:52:22<3:50:52,  2.02it/s] 42%|████▏     | 20030/48008 [2:52:22<3:48:53,  2.04it/s] 42%|████▏     | 20031/48008 [2:52:23<4:42:51,  1.65it/s] 42%|████▏     | 20032/48008 [2:52:24<4:24:46,  1.76it/s] 42%|████▏     | 20033/48008 [2:52:24<4:12:44,  1.84it/s] 42%|████▏     | 20034/48008 [2:52:25<4:09:48,  1.87it/s] 42%|████▏     | 20035/48008 [2:52:25<4:02:29,  1.92it/s] 42%|████▏     | 20036/48008 [2:52:26<4:02:20,  1.92it/s] 42%|████▏     | 20037/48008 [2:52:26<3:56:57,  1.97it/s] 42%|████▏     | 20038/48008 [2:52:27<3:52:37,  2.00it/s] 42%|████▏     | 20039/48008 [2:52:27<3:41:16,  2.11it/s] 42%|████▏     | 20040/48008 [2:52:28<4:09:16,  1.87it/s] 42%|████▏     | 20041/48008 [2:52:28<4:06:48,  1.89it/s] 42%|████▏     | 20042/48008 [2:52:29<3:59:51,  1.94it/s] 42%|████▏     | 20043/48008 [2:52:29<4:00:50,  1.94it/s] 42%|████▏     | 20044/48008 [2:52:30<4:04:38,  1.91it/s] 42%|████▏     | 20045/48008 [2:52:30<3:49:40,  2.03it/s] 42%|████▏     | 20046/48008 [2:52:31<4:14:56,  1.83it/s] 42%|████▏     | 20047/48008 [2:52:31<3:56:17,  1.97it/s] 42%|████▏     | 20048/48008 [2:52:32<3:52:47,  2.00it/s] 42%|████▏     | 20049/48008 [2:52:32<3:56:50,  1.97it/s] 42%|████▏     | 20050/48008 [2:52:33<3:58:36,  1.95it/s]                                                         {'loss': 4.2766, 'grad_norm': 0.09416385740041733, 'learning_rate': 0.00011647642059656725, 'epoch': 0.42}
 42%|████▏     | 20050/48008 [2:52:33<3:58:36,  1.95it/s] 42%|████▏     | 20051/48008 [2:52:33<3:54:38,  1.99it/s] 42%|████▏     | 20052/48008 [2:52:34<3:51:26,  2.01it/s] 42%|████▏     | 20053/48008 [2:52:34<3:48:27,  2.04it/s] 42%|████▏     | 20054/48008 [2:52:35<3:55:16,  1.98it/s] 42%|████▏     | 20055/48008 [2:52:35<3:54:48,  1.98it/s] 42%|████▏     | 20056/48008 [2:52:36<3:52:11,  2.01it/s] 42%|████▏     | 20057/48008 [2:52:36<3:55:51,  1.98it/s] 42%|████▏     | 20058/48008 [2:52:37<3:43:42,  2.08it/s] 42%|████▏     | 20059/48008 [2:52:37<3:43:53,  2.08it/s] 42%|████▏     | 20060/48008 [2:52:38<3:49:22,  2.03it/s] 42%|████▏     | 20061/48008 [2:52:38<3:51:15,  2.01it/s] 42%|████▏     | 20062/48008 [2:52:39<3:52:36,  2.00it/s] 42%|████▏     | 20063/48008 [2:52:39<3:49:55,  2.03it/s] 42%|████▏     | 20064/48008 [2:52:40<3:48:40,  2.04it/s] 42%|████▏     | 20065/48008 [2:52:40<3:47:19,  2.05it/s] 42%|████▏     | 20066/48008 [2:52:41<3:46:24,  2.06it/s] 42%|████▏     | 20067/48008 [2:52:41<3:46:14,  2.06it/s] 42%|████▏     | 20068/48008 [2:52:42<4:13:04,  1.84it/s] 42%|████▏     | 20069/48008 [2:52:42<4:04:54,  1.90it/s] 42%|████▏     | 20070/48008 [2:52:43<4:01:06,  1.93it/s] 42%|████▏     | 20071/48008 [2:52:43<3:58:54,  1.95it/s] 42%|████▏     | 20072/48008 [2:52:44<3:59:55,  1.94it/s] 42%|████▏     | 20073/48008 [2:52:44<3:54:49,  1.98it/s] 42%|████▏     | 20074/48008 [2:52:45<4:19:10,  1.80it/s] 42%|████▏     | 20075/48008 [2:52:45<3:59:15,  1.95it/s] 42%|████▏     | 20076/48008 [2:52:46<3:54:12,  1.99it/s] 42%|████▏     | 20077/48008 [2:52:47<4:18:11,  1.80it/s] 42%|████▏     | 20078/48008 [2:52:47<4:08:00,  1.88it/s] 42%|████▏     | 20079/48008 [2:52:48<3:52:04,  2.01it/s] 42%|████▏     | 20080/48008 [2:52:48<3:54:50,  1.98it/s] 42%|████▏     | 20081/48008 [2:52:48<3:42:14,  2.09it/s] 42%|████▏     | 20082/48008 [2:52:49<3:45:09,  2.07it/s] 42%|████▏     | 20083/48008 [2:52:49<3:44:31,  2.07it/s] 42%|████▏     | 20084/48008 [2:52:50<3:50:24,  2.02it/s] 42%|████▏     | 20085/48008 [2:52:51<3:56:33,  1.97it/s] 42%|████▏     | 20086/48008 [2:52:51<4:19:10,  1.80it/s] 42%|████▏     | 20087/48008 [2:52:52<3:59:23,  1.94it/s] 42%|████▏     | 20088/48008 [2:52:52<3:54:31,  1.98it/s] 42%|████▏     | 20089/48008 [2:52:53<3:51:10,  2.01it/s] 42%|████▏     | 20090/48008 [2:52:53<3:49:36,  2.03it/s] 42%|████▏     | 20091/48008 [2:52:54<3:47:24,  2.05it/s] 42%|████▏     | 20092/48008 [2:52:54<4:13:21,  1.84it/s] 42%|████▏     | 20093/48008 [2:52:55<4:04:27,  1.90it/s] 42%|████▏     | 20094/48008 [2:52:56<5:44:58,  1.35it/s] 42%|████▏     | 20095/48008 [2:52:56<4:59:01,  1.56it/s] 42%|████▏     | 20096/48008 [2:52:57<4:36:13,  1.68it/s] 42%|████▏     | 20097/48008 [2:52:57<4:20:23,  1.79it/s] 42%|████▏     | 20098/48008 [2:52:58<4:09:05,  1.87it/s] 42%|████▏     | 20099/48008 [2:52:59<5:48:49,  1.33it/s] 42%|████▏     | 20100/48008 [2:52:59<5:01:55,  1.54it/s]                                                         {'loss': 4.275, 'grad_norm': 0.1692681610584259, 'learning_rate': 0.00011626812197967005, 'epoch': 0.42}
 42%|████▏     | 20100/48008 [2:52:59<5:01:55,  1.54it/s] 42%|████▏     | 20101/48008 [2:53:00<4:29:28,  1.73it/s] 42%|████▏     | 20102/48008 [2:53:00<4:23:53,  1.76it/s] 42%|████▏     | 20103/48008 [2:53:01<4:11:46,  1.85it/s] 42%|████▏     | 20104/48008 [2:53:01<4:03:12,  1.91it/s] 42%|████▏     | 20105/48008 [2:53:02<3:47:35,  2.04it/s] 42%|████▏     | 20106/48008 [2:53:02<3:37:08,  2.14it/s] 42%|████▏     | 20107/48008 [2:53:03<4:05:37,  1.89it/s] 42%|████▏     | 20108/48008 [2:53:03<3:50:01,  2.02it/s] 42%|████▏     | 20109/48008 [2:53:04<3:47:58,  2.04it/s] 42%|████▏     | 20110/48008 [2:53:04<3:46:32,  2.05it/s] 42%|████▏     | 20111/48008 [2:53:05<3:49:06,  2.03it/s] 42%|████▏     | 20112/48008 [2:53:05<3:47:11,  2.05it/s] 42%|████▏     | 20113/48008 [2:53:06<3:51:26,  2.01it/s] 42%|████▏     | 20114/48008 [2:53:06<3:48:52,  2.03it/s] 42%|████▏     | 20115/48008 [2:53:07<3:38:22,  2.13it/s] 42%|████▏     | 20116/48008 [2:53:07<3:30:46,  2.21it/s] 42%|████▏     | 20117/48008 [2:53:08<3:34:21,  2.17it/s] 42%|████▏     | 20118/48008 [2:53:08<3:42:19,  2.09it/s] 42%|████▏     | 20119/48008 [2:53:09<3:51:14,  2.01it/s] 42%|████▏     | 20120/48008 [2:53:09<3:49:05,  2.03it/s] 42%|████▏     | 20121/48008 [2:53:10<3:47:18,  2.04it/s] 42%|████▏     | 20122/48008 [2:53:10<3:46:03,  2.06it/s] 42%|████▏     | 20123/48008 [2:53:11<3:52:57,  2.00it/s] 42%|████▏     | 20124/48008 [2:53:11<3:50:13,  2.02it/s] 42%|████▏     | 20125/48008 [2:53:12<3:51:11,  2.01it/s] 42%|████▏     | 20126/48008 [2:53:12<3:39:42,  2.12it/s] 42%|████▏     | 20127/48008 [2:53:12<3:44:10,  2.07it/s] 42%|████▏     | 20128/48008 [2:53:13<3:47:18,  2.04it/s] 42%|████▏     | 20129/48008 [2:53:13<3:48:42,  2.03it/s] 42%|████▏     | 20130/48008 [2:53:14<3:46:33,  2.05it/s] 42%|████▏     | 20131/48008 [2:53:14<3:45:18,  2.06it/s] 42%|████▏     | 20132/48008 [2:53:15<3:44:50,  2.07it/s] 42%|████▏     | 20133/48008 [2:53:15<3:44:29,  2.07it/s] 42%|████▏     | 20134/48008 [2:53:16<3:49:27,  2.02it/s] 42%|████▏     | 20135/48008 [2:53:16<3:50:40,  2.01it/s] 42%|████▏     | 20136/48008 [2:53:17<3:51:36,  2.01it/s] 42%|████▏     | 20137/48008 [2:53:17<3:48:46,  2.03it/s] 42%|████▏     | 20138/48008 [2:53:18<3:50:30,  2.02it/s] 42%|████▏     | 20139/48008 [2:53:18<3:48:28,  2.03it/s] 42%|████▏     | 20140/48008 [2:53:19<3:38:28,  2.13it/s] 42%|████▏     | 20141/48008 [2:53:19<3:40:01,  2.11it/s] 42%|████▏     | 20142/48008 [2:53:20<3:40:36,  2.11it/s] 42%|████▏     | 20143/48008 [2:53:20<3:32:25,  2.19it/s] 42%|████▏     | 20144/48008 [2:53:21<3:35:40,  2.15it/s] 42%|████▏     | 20145/48008 [2:53:21<3:45:51,  2.06it/s] 42%|████▏     | 20146/48008 [2:53:22<3:45:02,  2.06it/s] 42%|████▏     | 20147/48008 [2:53:22<3:44:15,  2.07it/s] 42%|████▏     | 20148/48008 [2:53:23<4:10:52,  1.85it/s] 42%|████▏     | 20149/48008 [2:53:23<3:53:00,  1.99it/s] 42%|████▏     | 20150/48008 [2:53:24<3:53:35,  1.99it/s]                                                         {'loss': 4.2451, 'grad_norm': 0.10493013262748718, 'learning_rate': 0.00011605982336277288, 'epoch': 0.42}
 42%|████▏     | 20150/48008 [2:53:24<3:53:35,  1.99it/s] 42%|████▏     | 20151/48008 [2:53:24<3:50:18,  2.02it/s] 42%|████▏     | 20152/48008 [2:53:25<3:47:59,  2.04it/s] 42%|████▏     | 20153/48008 [2:53:25<3:46:16,  2.05it/s] 42%|████▏     | 20154/48008 [2:53:26<3:45:00,  2.06it/s] 42%|████▏     | 20155/48008 [2:53:26<3:44:50,  2.06it/s] 42%|████▏     | 20156/48008 [2:53:27<3:49:09,  2.03it/s] 42%|████▏     | 20157/48008 [2:53:27<3:52:42,  1.99it/s] 42%|████▏     | 20158/48008 [2:53:28<3:41:03,  2.10it/s] 42%|████▏     | 20159/48008 [2:53:28<3:44:29,  2.07it/s] 42%|████▏     | 20160/48008 [2:53:29<3:47:15,  2.04it/s] 42%|████▏     | 20161/48008 [2:53:29<3:38:16,  2.13it/s] 42%|████▏     | 20162/48008 [2:53:30<3:42:08,  2.09it/s] 42%|████▏     | 20163/48008 [2:53:30<3:48:09,  2.03it/s] 42%|████▏     | 20164/48008 [2:53:31<3:46:16,  2.05it/s] 42%|████▏     | 20165/48008 [2:53:31<3:44:57,  2.06it/s] 42%|████▏     | 20166/48008 [2:53:31<3:43:33,  2.08it/s] 42%|████▏     | 20167/48008 [2:53:32<3:34:28,  2.16it/s] 42%|████▏     | 20168/48008 [2:53:32<3:37:33,  2.13it/s] 42%|████▏     | 20169/48008 [2:53:33<3:42:06,  2.09it/s] 42%|████▏     | 20170/48008 [2:53:33<3:46:55,  2.04it/s] 42%|████▏     | 20171/48008 [2:53:34<3:53:23,  1.99it/s] 42%|████▏     | 20172/48008 [2:53:34<3:53:46,  1.98it/s] 42%|████▏     | 20173/48008 [2:53:35<3:53:06,  1.99it/s] 42%|████▏     | 20174/48008 [2:53:35<3:52:55,  1.99it/s] 42%|████▏     | 20175/48008 [2:53:36<3:41:28,  2.09it/s] 42%|████▏     | 20176/48008 [2:53:36<3:50:06,  2.02it/s] 42%|████▏     | 20177/48008 [2:53:37<4:42:57,  1.64it/s] 42%|████▏     | 20178/48008 [2:53:38<4:27:50,  1.73it/s] 42%|████▏     | 20179/48008 [2:53:38<4:19:46,  1.79it/s] 42%|████▏     | 20180/48008 [2:53:39<4:12:31,  1.84it/s] 42%|████▏     | 20181/48008 [2:53:39<4:08:48,  1.86it/s] 42%|████▏     | 20182/48008 [2:53:40<4:01:29,  1.92it/s] 42%|████▏     | 20183/48008 [2:53:40<3:58:52,  1.94it/s] 42%|████▏     | 20184/48008 [2:53:41<3:57:07,  1.96it/s] 42%|████▏     | 20185/48008 [2:53:41<3:57:47,  1.95it/s] 42%|████▏     | 20186/48008 [2:53:42<3:56:34,  1.96it/s] 42%|████▏     | 20187/48008 [2:53:42<3:55:49,  1.97it/s] 42%|████▏     | 20188/48008 [2:53:43<4:00:09,  1.93it/s] 42%|████▏     | 20189/48008 [2:53:44<4:21:16,  1.77it/s] 42%|████▏     | 20190/48008 [2:53:44<4:18:05,  1.80it/s] 42%|████▏     | 20191/48008 [2:53:45<4:11:02,  1.85it/s] 42%|████▏     | 20192/48008 [2:53:45<4:03:17,  1.91it/s] 42%|████▏     | 20193/48008 [2:53:46<3:57:17,  1.95it/s] 42%|████▏     | 20194/48008 [2:53:46<3:53:20,  1.99it/s] 42%|████▏     | 20195/48008 [2:53:47<4:16:57,  1.80it/s] 42%|████▏     | 20196/48008 [2:53:47<4:06:26,  1.88it/s] 42%|████▏     | 20197/48008 [2:53:48<3:59:04,  1.94it/s] 42%|████▏     | 20198/48008 [2:53:48<3:44:57,  2.06it/s] 42%|████▏     | 20199/48008 [2:53:49<3:52:51,  1.99it/s] 42%|████▏     | 20200/48008 [2:53:49<3:49:17,  2.02it/s]                                                         {'loss': 4.2779, 'grad_norm': 0.12451662123203278, 'learning_rate': 0.00011585152474587568, 'epoch': 0.42}
 42%|████▏     | 20200/48008 [2:53:49<3:49:17,  2.02it/s] 42%|████▏     | 20201/48008 [2:53:50<3:50:39,  2.01it/s] 42%|████▏     | 20202/48008 [2:53:50<3:48:33,  2.03it/s] 42%|████▏     | 20203/48008 [2:53:51<3:46:29,  2.05it/s] 42%|████▏     | 20204/48008 [2:53:51<3:45:09,  2.06it/s] 42%|████▏     | 20205/48008 [2:53:52<3:48:18,  2.03it/s] 42%|████▏     | 20206/48008 [2:53:52<3:54:34,  1.98it/s] 42%|████▏     | 20207/48008 [2:53:53<3:50:32,  2.01it/s] 42%|████▏     | 20208/48008 [2:53:53<3:52:12,  2.00it/s] 42%|████▏     | 20209/48008 [2:53:54<3:49:16,  2.02it/s] 42%|████▏     | 20210/48008 [2:53:54<3:47:27,  2.04it/s] 42%|████▏     | 20211/48008 [2:53:55<3:48:40,  2.03it/s] 42%|████▏     | 20212/48008 [2:53:55<3:49:40,  2.02it/s] 42%|████▏     | 20213/48008 [2:53:55<3:38:31,  2.12it/s] 42%|████▏     | 20214/48008 [2:53:56<3:39:44,  2.11it/s] 42%|████▏     | 20215/48008 [2:53:56<3:43:30,  2.07it/s] 42%|████▏     | 20216/48008 [2:53:57<3:34:08,  2.16it/s] 42%|████▏     | 20217/48008 [2:53:57<3:27:40,  2.23it/s] 42%|████▏     | 20218/48008 [2:53:58<3:32:09,  2.18it/s] 42%|████▏     | 20219/48008 [2:53:58<3:34:58,  2.15it/s] 42%|████▏     | 20220/48008 [2:53:59<3:42:42,  2.08it/s] 42%|████▏     | 20221/48008 [2:53:59<3:45:41,  2.05it/s] 42%|████▏     | 20222/48008 [2:54:00<3:50:07,  2.01it/s] 42%|████▏     | 20223/48008 [2:54:00<3:38:20,  2.12it/s] 42%|████▏     | 20224/48008 [2:54:01<3:42:34,  2.08it/s] 42%|████▏     | 20225/48008 [2:54:01<3:50:16,  2.01it/s] 42%|████▏     | 20226/48008 [2:54:02<5:34:53,  1.38it/s] 42%|████▏     | 20227/48008 [2:54:03<5:06:46,  1.51it/s] 42%|████▏     | 20228/48008 [2:54:03<4:41:23,  1.65it/s] 42%|████▏     | 20229/48008 [2:54:04<4:28:48,  1.72it/s] 42%|████▏     | 20230/48008 [2:54:05<4:20:44,  1.78it/s] 42%|████▏     | 20231/48008 [2:54:05<4:08:51,  1.86it/s] 42%|████▏     | 20232/48008 [2:54:06<4:04:03,  1.90it/s] 42%|████▏     | 20233/48008 [2:54:06<4:03:02,  1.90it/s] 42%|████▏     | 20234/48008 [2:54:06<3:47:26,  2.04it/s] 42%|████▏     | 20235/48008 [2:54:07<3:51:11,  2.00it/s] 42%|████▏     | 20236/48008 [2:54:07<3:48:35,  2.02it/s] 42%|████▏     | 20237/48008 [2:54:08<3:49:50,  2.01it/s] 42%|████▏     | 20238/48008 [2:54:08<3:51:32,  2.00it/s] 42%|████▏     | 20239/48008 [2:54:09<3:39:38,  2.11it/s] 42%|████▏     | 20240/48008 [2:54:09<3:40:36,  2.10it/s] 42%|████▏     | 20241/48008 [2:54:10<3:32:01,  2.18it/s] 42%|████▏     | 20242/48008 [2:54:10<3:38:35,  2.12it/s] 42%|████▏     | 20243/48008 [2:54:11<3:39:48,  2.11it/s] 42%|████▏     | 20244/48008 [2:54:11<3:49:13,  2.02it/s] 42%|████▏     | 20245/48008 [2:54:12<3:46:54,  2.04it/s] 42%|████▏     | 20246/48008 [2:54:12<3:36:59,  2.13it/s] 42%|████▏     | 20247/48008 [2:54:13<3:39:25,  2.11it/s] 42%|████▏     | 20248/48008 [2:54:13<3:31:14,  2.19it/s] 42%|████▏     | 20249/48008 [2:54:14<3:40:43,  2.10it/s] 42%|████▏     | 20250/48008 [2:54:14<3:41:23,  2.09it/s]                                                         {'loss': 4.2655, 'grad_norm': 0.09955083578824997, 'learning_rate': 0.00011564322612897852, 'epoch': 0.42}
 42%|████▏     | 20250/48008 [2:54:14<3:41:23,  2.09it/s] 42%|████▏     | 20251/48008 [2:54:15<5:29:33,  1.40it/s] 42%|████▏     | 20252/48008 [2:54:16<4:56:58,  1.56it/s] 42%|████▏     | 20253/48008 [2:54:16<4:37:42,  1.67it/s] 42%|████▏     | 20254/48008 [2:54:17<4:24:06,  1.75it/s] 42%|████▏     | 20255/48008 [2:54:17<4:14:12,  1.82it/s] 42%|████▏     | 20256/48008 [2:54:18<4:07:09,  1.87it/s] 42%|████▏     | 20257/48008 [2:54:18<3:50:29,  2.01it/s] 42%|████▏     | 20258/48008 [2:54:19<3:47:54,  2.03it/s] 42%|████▏     | 20259/48008 [2:54:19<3:48:55,  2.02it/s] 42%|████▏     | 20260/48008 [2:54:20<3:46:47,  2.04it/s] 42%|████▏     | 20261/48008 [2:54:20<3:44:51,  2.06it/s] 42%|████▏     | 20262/48008 [2:54:21<4:10:32,  1.85it/s] 42%|████▏     | 20263/48008 [2:54:21<3:52:39,  1.99it/s] 42%|████▏     | 20264/48008 [2:54:22<3:40:19,  2.10it/s] 42%|████▏     | 20265/48008 [2:54:22<3:40:36,  2.10it/s] 42%|████▏     | 20266/48008 [2:54:23<3:43:51,  2.07it/s] 42%|████▏     | 20267/48008 [2:54:23<3:43:26,  2.07it/s] 42%|████▏     | 20268/48008 [2:54:24<4:09:49,  1.85it/s] 42%|████▏     | 20269/48008 [2:54:24<4:06:58,  1.87it/s] 42%|████▏     | 20270/48008 [2:54:25<4:02:41,  1.90it/s] 42%|████▏     | 20271/48008 [2:54:25<3:56:18,  1.96it/s] 42%|████▏     | 20272/48008 [2:54:26<3:51:41,  2.00it/s] 42%|████▏     | 20273/48008 [2:54:26<3:48:28,  2.02it/s] 42%|████▏     | 20274/48008 [2:54:27<3:46:25,  2.04it/s] 42%|████▏     | 20275/48008 [2:54:27<3:45:06,  2.05it/s] 42%|████▏     | 20276/48008 [2:54:28<3:35:19,  2.15it/s] 42%|████▏     | 20277/48008 [2:54:28<3:37:23,  2.13it/s] 42%|████▏     | 20278/48008 [2:54:29<3:38:31,  2.12it/s] 42%|████▏     | 20279/48008 [2:54:29<3:39:34,  2.10it/s] 42%|████▏     | 20280/48008 [2:54:30<3:40:11,  2.10it/s] 42%|████▏     | 20281/48008 [2:54:30<3:40:21,  2.10it/s] 42%|████▏     | 20282/48008 [2:54:31<3:43:52,  2.06it/s] 42%|████▏     | 20283/48008 [2:54:31<3:46:26,  2.04it/s] 42%|████▏     | 20284/48008 [2:54:32<3:52:58,  1.98it/s] 42%|████▏     | 20285/48008 [2:54:32<3:53:15,  1.98it/s] 42%|████▏     | 20286/48008 [2:54:33<3:50:00,  2.01it/s] 42%|████▏     | 20287/48008 [2:54:33<3:47:21,  2.03it/s] 42%|████▏     | 20288/48008 [2:54:34<3:48:27,  2.02it/s] 42%|████▏     | 20289/48008 [2:54:34<3:49:08,  2.02it/s] 42%|████▏     | 20290/48008 [2:54:35<3:55:22,  1.96it/s] 42%|████▏     | 20291/48008 [2:54:35<3:51:28,  2.00it/s] 42%|████▏     | 20292/48008 [2:54:36<3:47:51,  2.03it/s] 42%|████▏     | 20293/48008 [2:54:36<3:49:27,  2.01it/s] 42%|████▏     | 20294/48008 [2:54:37<4:14:03,  1.82it/s] 42%|████▏     | 20295/48008 [2:54:37<4:04:00,  1.89it/s] 42%|████▏     | 20296/48008 [2:54:38<4:51:35,  1.58it/s] 42%|████▏     | 20297/48008 [2:54:39<4:30:41,  1.71it/s] 42%|████▏     | 20298/48008 [2:54:39<4:23:58,  1.75it/s] 42%|████▏     | 20299/48008 [2:54:40<4:11:35,  1.84it/s] 42%|████▏     | 20300/48008 [2:54:40<4:03:01,  1.90it/s]                                                         {'loss': 4.2722, 'grad_norm': 0.10727574676275253, 'learning_rate': 0.00011543492751208132, 'epoch': 0.42}
 42%|████▏     | 20300/48008 [2:54:40<4:03:01,  1.90it/s] 42%|████▏     | 20301/48008 [2:54:41<5:43:34,  1.34it/s] 42%|████▏     | 20302/48008 [2:54:42<5:06:57,  1.50it/s] 42%|████▏     | 20303/48008 [2:54:42<4:41:22,  1.64it/s] 42%|████▏     | 20304/48008 [2:54:43<5:18:26,  1.45it/s] 42%|████▏     | 20305/48008 [2:54:44<4:49:44,  1.59it/s] 42%|████▏     | 20306/48008 [2:54:44<4:20:06,  1.77it/s] 42%|████▏     | 20307/48008 [2:54:45<4:13:53,  1.82it/s] 42%|████▏     | 20308/48008 [2:54:45<3:55:17,  1.96it/s] 42%|████▏     | 20309/48008 [2:54:45<3:56:08,  1.95it/s] 42%|████▏     | 20310/48008 [2:54:46<3:54:52,  1.97it/s] 42%|████▏     | 20311/48008 [2:54:47<3:56:30,  1.95it/s] 42%|████▏     | 20312/48008 [2:54:47<3:55:08,  1.96it/s] 42%|████▏     | 20313/48008 [2:54:48<3:59:13,  1.93it/s] 42%|████▏     | 20314/48008 [2:54:48<4:20:55,  1.77it/s] 42%|████▏     | 20315/48008 [2:54:49<4:08:49,  1.85it/s] 42%|████▏     | 20316/48008 [2:54:49<4:08:44,  1.86it/s] 42%|████▏     | 20317/48008 [2:54:50<4:00:37,  1.92it/s] 42%|████▏     | 20318/48008 [2:54:50<3:54:54,  1.96it/s] 42%|████▏     | 20319/48008 [2:54:51<3:50:46,  2.00it/s] 42%|████▏     | 20320/48008 [2:54:51<3:34:09,  2.15it/s] 42%|████▏     | 20321/48008 [2:54:52<3:39:33,  2.10it/s] 42%|████▏     | 20322/48008 [2:54:52<3:40:06,  2.10it/s] 42%|████▏     | 20323/48008 [2:54:53<3:40:27,  2.09it/s] 42%|████▏     | 20324/48008 [2:54:53<3:40:09,  2.10it/s] 42%|████▏     | 20325/48008 [2:54:54<3:44:12,  2.06it/s] 42%|████▏     | 20326/48008 [2:54:54<3:45:45,  2.04it/s] 42%|████▏     | 20327/48008 [2:54:54<3:35:25,  2.14it/s] 42%|████▏     | 20328/48008 [2:54:55<4:04:26,  1.89it/s] 42%|████▏     | 20329/48008 [2:54:56<4:02:59,  1.90it/s] 42%|████▏     | 20330/48008 [2:54:56<3:56:34,  1.95it/s] 42%|████▏     | 20331/48008 [2:54:57<3:51:50,  1.99it/s] 42%|████▏     | 20332/48008 [2:54:57<3:39:46,  2.10it/s] 42%|████▏     | 20333/48008 [2:54:58<3:43:19,  2.07it/s] 42%|████▏     | 20334/48008 [2:54:58<3:42:49,  2.07it/s] 42%|████▏     | 20335/48008 [2:54:58<3:42:06,  2.08it/s] 42%|████▏     | 20336/48008 [2:54:59<3:32:59,  2.17it/s] 42%|████▏     | 20337/48008 [2:54:59<3:26:24,  2.23it/s] 42%|████▏     | 20338/48008 [2:55:00<3:35:02,  2.14it/s] 42%|████▏     | 20339/48008 [2:55:00<3:36:49,  2.13it/s] 42%|████▏     | 20340/48008 [2:55:01<3:42:59,  2.07it/s] 42%|████▏     | 20341/48008 [2:55:01<3:33:20,  2.16it/s] 42%|████▏     | 20342/48008 [2:55:02<3:26:40,  2.23it/s] 42%|████▏     | 20343/48008 [2:55:02<3:31:11,  2.18it/s] 42%|████▏     | 20344/48008 [2:55:03<3:39:37,  2.10it/s] 42%|████▏     | 20345/48008 [2:55:03<3:40:17,  2.09it/s] 42%|████▏     | 20346/48008 [2:55:04<3:43:56,  2.06it/s] 42%|████▏     | 20347/48008 [2:55:04<3:46:16,  2.04it/s] 42%|████▏     | 20348/48008 [2:55:05<3:47:48,  2.02it/s] 42%|████▏     | 20349/48008 [2:55:05<3:49:13,  2.01it/s] 42%|████▏     | 20350/48008 [2:55:06<3:50:00,  2.00it/s]                                                         {'loss': 4.2591, 'grad_norm': 0.10706925392150879, 'learning_rate': 0.00011522662889518414, 'epoch': 0.42} 42%|████▏     | 20350/48008 [2:55:06<3:50:00,  2.00it/s]
 42%|████▏     | 20351/48008 [2:55:06<3:50:54,  2.00it/s] 42%|████▏     | 20352/48008 [2:55:07<3:48:19,  2.02it/s] 42%|████▏     | 20353/48008 [2:55:07<3:54:13,  1.97it/s] 42%|████▏     | 20354/48008 [2:55:08<3:49:54,  2.00it/s] 42%|████▏     | 20355/48008 [2:55:08<3:50:54,  2.00it/s] 42%|████▏     | 20356/48008 [2:55:09<3:38:49,  2.11it/s] 42%|████▏     | 20357/48008 [2:55:10<5:57:23,  1.29it/s] 42%|████▏     | 20358/48008 [2:55:10<5:07:30,  1.50it/s] 42%|████▏     | 20359/48008 [2:55:11<4:41:59,  1.63it/s] 42%|████▏     | 20360/48008 [2:55:11<4:14:32,  1.81it/s] 42%|████▏     | 20361/48008 [2:55:12<4:04:25,  1.89it/s] 42%|████▏     | 20362/48008 [2:55:12<4:03:00,  1.90it/s] 42%|████▏     | 20363/48008 [2:55:14<5:55:52,  1.29it/s] 42%|████▏     | 20364/48008 [2:55:14<5:15:41,  1.46it/s] 42%|████▏     | 20365/48008 [2:55:15<4:47:37,  1.60it/s] 42%|████▏     | 20366/48008 [2:55:15<4:27:54,  1.72it/s] 42%|████▏     | 20367/48008 [2:55:16<4:13:42,  1.82it/s] 42%|████▏     | 20368/48008 [2:55:16<4:08:45,  1.85it/s] 42%|████▏     | 20369/48008 [2:55:17<5:19:07,  1.44it/s] 42%|████▏     | 20370/48008 [2:55:18<4:40:21,  1.64it/s] 42%|████▏     | 20371/48008 [2:55:18<4:23:09,  1.75it/s] 42%|████▏     | 20372/48008 [2:55:18<4:01:21,  1.91it/s] 42%|████▏     | 20373/48008 [2:55:19<4:01:17,  1.91it/s] 42%|████▏     | 20374/48008 [2:55:20<4:00:18,  1.92it/s] 42%|████▏     | 20375/48008 [2:55:20<3:59:53,  1.92it/s] 42%|████▏     | 20376/48008 [2:55:21<3:56:52,  1.94it/s] 42%|████▏     | 20377/48008 [2:55:21<4:46:56,  1.60it/s] 42%|████▏     | 20378/48008 [2:55:22<4:31:09,  1.70it/s] 42%|████▏     | 20379/48008 [2:55:23<6:02:34,  1.27it/s] 42%|████▏     | 20380/48008 [2:55:24<5:20:22,  1.44it/s] 42%|████▏     | 20381/48008 [2:55:24<4:53:04,  1.57it/s] 42%|████▏     | 20382/48008 [2:55:25<4:34:51,  1.68it/s] 42%|████▏     | 20383/48008 [2:55:25<4:24:45,  1.74it/s] 42%|████▏     | 20384/48008 [2:55:26<4:15:39,  1.80it/s] 42%|████▏     | 20385/48008 [2:55:26<4:10:30,  1.84it/s] 42%|████▏     | 20386/48008 [2:55:27<4:01:30,  1.91it/s] 42%|████▏     | 20387/48008 [2:55:27<3:58:24,  1.93it/s] 42%|████▏     | 20388/48008 [2:55:28<3:56:30,  1.95it/s] 42%|████▏     | 20389/48008 [2:55:28<3:56:59,  1.94it/s] 42%|████▏     | 20390/48008 [2:55:29<3:43:04,  2.06it/s] 42%|████▏     | 20391/48008 [2:55:29<3:33:18,  2.16it/s] 42%|████▏     | 20392/48008 [2:55:30<3:35:23,  2.14it/s] 42%|████▏     | 20393/48008 [2:55:30<3:42:40,  2.07it/s] 42%|████▏     | 20394/48008 [2:55:31<3:45:50,  2.04it/s] 42%|████▏     | 20395/48008 [2:55:31<3:44:34,  2.05it/s] 42%|████▏     | 20396/48008 [2:55:32<3:48:38,  2.01it/s] 42%|████▏     | 20397/48008 [2:55:32<3:46:15,  2.03it/s] 42%|████▏     | 20398/48008 [2:55:33<3:49:54,  2.00it/s] 42%|████▏     | 20399/48008 [2:55:33<3:47:57,  2.02it/s] 42%|████▏     | 20400/48008 [2:55:34<3:48:23,  2.01it/s]                                                         {'loss': 4.2786, 'grad_norm': 0.09556371718645096, 'learning_rate': 0.00011501833027828697, 'epoch': 0.42} 42%|████▏     | 20400/48008 [2:55:34<3:48:23,  2.01it/s]
 42%|████▏     | 20401/48008 [2:55:34<3:46:53,  2.03it/s] 42%|████▏     | 20402/48008 [2:55:34<3:44:40,  2.05it/s] 42%|████▏     | 20403/48008 [2:55:35<4:10:18,  1.84it/s] 43%|████▎     | 20404/48008 [2:55:36<4:04:32,  1.88it/s] 43%|████▎     | 20405/48008 [2:55:36<3:48:53,  2.01it/s] 43%|████▎     | 20406/48008 [2:55:37<3:37:43,  2.11it/s] 43%|████▎     | 20407/48008 [2:55:37<3:42:18,  2.07it/s] 43%|████▎     | 20408/48008 [2:55:38<3:44:55,  2.05it/s] 43%|████▎     | 20409/48008 [2:55:38<3:43:49,  2.06it/s] 43%|████▎     | 20410/48008 [2:55:38<3:34:05,  2.15it/s] 43%|████▎     | 20411/48008 [2:55:39<3:26:37,  2.23it/s] 43%|████▎     | 20412/48008 [2:55:39<3:34:16,  2.15it/s] 43%|████▎     | 20413/48008 [2:55:40<3:36:23,  2.13it/s] 43%|████▎     | 20414/48008 [2:55:40<3:41:35,  2.08it/s] 43%|████▎     | 20415/48008 [2:55:41<3:31:29,  2.17it/s] 43%|████▎     | 20416/48008 [2:55:41<3:25:17,  2.24it/s] 43%|████▎     | 20417/48008 [2:55:42<3:29:41,  2.19it/s] 43%|████▎     | 20418/48008 [2:55:42<3:38:38,  2.10it/s] 43%|████▎     | 20419/48008 [2:55:43<3:41:44,  2.07it/s] 43%|████▎     | 20420/48008 [2:55:43<3:32:52,  2.16it/s] 43%|████▎     | 20421/48008 [2:55:44<3:34:28,  2.14it/s] 43%|████▎     | 20422/48008 [2:55:44<3:41:53,  2.07it/s] 43%|████▎     | 20423/48008 [2:55:45<3:41:48,  2.07it/s] 43%|████▎     | 20424/48008 [2:55:45<3:49:50,  2.00it/s] 43%|████▎     | 20425/48008 [2:55:46<3:47:11,  2.02it/s] 43%|████▎     | 20426/48008 [2:55:46<3:36:16,  2.13it/s] 43%|████▎     | 20427/48008 [2:55:46<3:28:42,  2.20it/s] 43%|████▎     | 20428/48008 [2:55:47<3:35:42,  2.13it/s] 43%|████▎     | 20429/48008 [2:55:47<3:28:22,  2.21it/s] 43%|████▎     | 20430/48008 [2:55:48<3:31:53,  2.17it/s] 43%|████▎     | 20431/48008 [2:55:49<5:20:49,  1.43it/s] 43%|████▎     | 20432/48008 [2:55:50<4:51:01,  1.58it/s] 43%|████▎     | 20433/48008 [2:55:50<4:29:37,  1.70it/s] 43%|████▎     | 20434/48008 [2:55:51<4:18:55,  1.77it/s] 43%|████▎     | 20435/48008 [2:55:51<4:12:08,  1.82it/s] 43%|████▎     | 20436/48008 [2:55:51<4:03:01,  1.89it/s] 43%|████▎     | 20437/48008 [2:55:52<3:56:22,  1.94it/s] 43%|████▎     | 20438/48008 [2:55:52<3:51:35,  1.98it/s] 43%|████▎     | 20439/48008 [2:55:53<3:39:21,  2.09it/s] 43%|████▎     | 20440/48008 [2:55:53<3:40:02,  2.09it/s] 43%|████▎     | 20441/48008 [2:55:54<3:40:28,  2.08it/s] 43%|████▎     | 20442/48008 [2:55:54<3:31:52,  2.17it/s] 43%|████▎     | 20443/48008 [2:55:55<3:34:11,  2.14it/s] 43%|████▎     | 20444/48008 [2:55:55<3:39:10,  2.10it/s] 43%|████▎     | 20445/48008 [2:55:56<3:45:04,  2.04it/s] 43%|████▎     | 20446/48008 [2:55:56<3:47:15,  2.02it/s] 43%|████▎     | 20447/48008 [2:55:57<3:36:14,  2.12it/s] 43%|████▎     | 20448/48008 [2:55:57<3:40:41,  2.08it/s] 43%|████▎     | 20449/48008 [2:55:58<4:06:40,  1.86it/s] 43%|████▎     | 20450/48008 [2:55:59<5:45:36,  1.33it/s]{'loss': 4.2166, 'grad_norm': 0.10587632656097412, 'learning_rate': 0.00011481003166138977, 'epoch': 0.43}                                                          43%|████▎     | 20450/48008 [2:55:59<5:45:36,  1.33it/s]
 43%|████▎     | 20451/48008 [2:56:00<5:08:33,  1.49it/s] 43%|████▎     | 20452/48008 [2:56:00<4:41:32,  1.63it/s] 43%|████▎     | 20453/48008 [2:56:00<4:14:06,  1.81it/s] 43%|████▎     | 20454/48008 [2:56:01<3:54:52,  1.96it/s] 43%|████▎     | 20455/48008 [2:56:01<3:50:49,  1.99it/s] 43%|████▎     | 20456/48008 [2:56:02<4:13:49,  1.81it/s] 43%|████▎     | 20457/48008 [2:56:03<4:57:43,  1.54it/s] 43%|████▎     | 20458/48008 [2:56:03<4:38:08,  1.65it/s] 43%|████▎     | 20459/48008 [2:56:04<4:20:51,  1.76it/s] 43%|████▎     | 20460/48008 [2:56:04<4:08:33,  1.85it/s] 43%|████▎     | 20461/48008 [2:56:05<4:05:29,  1.87it/s] 43%|████▎     | 20462/48008 [2:56:05<4:00:23,  1.91it/s] 43%|████▎     | 20463/48008 [2:56:06<3:45:28,  2.04it/s] 43%|████▎     | 20464/48008 [2:56:06<3:34:17,  2.14it/s] 43%|████▎     | 20465/48008 [2:56:07<3:36:12,  2.12it/s] 43%|████▎     | 20466/48008 [2:56:07<3:41:06,  2.08it/s] 43%|████▎     | 20467/48008 [2:56:08<3:46:42,  2.02it/s] 43%|████▎     | 20468/48008 [2:56:08<3:50:10,  1.99it/s] 43%|████▎     | 20469/48008 [2:56:09<3:38:18,  2.10it/s] 43%|████▎     | 20470/48008 [2:56:09<3:41:24,  2.07it/s] 43%|████▎     | 20471/48008 [2:56:10<3:41:14,  2.07it/s] 43%|████▎     | 20472/48008 [2:56:10<3:40:53,  2.08it/s] 43%|████▎     | 20473/48008 [2:56:11<3:44:19,  2.05it/s] 43%|████▎     | 20474/48008 [2:56:11<3:34:03,  2.14it/s] 43%|████▎     | 20475/48008 [2:56:12<3:41:37,  2.07it/s] 43%|████▎     | 20476/48008 [2:56:12<3:32:19,  2.16it/s] 43%|████▎     | 20477/48008 [2:56:12<3:25:44,  2.23it/s] 43%|████▎     | 20478/48008 [2:56:13<3:30:09,  2.18it/s] 43%|████▎     | 20479/48008 [2:56:13<3:36:12,  2.12it/s] 43%|████▎     | 20480/48008 [2:56:14<3:37:19,  2.11it/s] 43%|████▎     | 20481/48008 [2:56:14<3:38:33,  2.10it/s] 43%|████▎     | 20482/48008 [2:56:15<3:30:25,  2.18it/s] 43%|████▎     | 20483/48008 [2:56:15<3:33:14,  2.15it/s] 43%|████▎     | 20484/48008 [2:56:16<4:01:16,  1.90it/s] 43%|████▎     | 20485/48008 [2:56:16<3:58:06,  1.93it/s] 43%|████▎     | 20486/48008 [2:56:17<3:53:04,  1.97it/s] 43%|████▎     | 20487/48008 [2:56:18<4:15:50,  1.79it/s] 43%|████▎     | 20488/48008 [2:56:18<4:08:45,  1.84it/s] 43%|████▎     | 20489/48008 [2:56:19<4:00:42,  1.91it/s] 43%|████▎     | 20490/48008 [2:56:19<3:54:30,  1.96it/s] 43%|████▎     | 20491/48008 [2:56:20<3:55:02,  1.95it/s] 43%|████▎     | 20492/48008 [2:56:20<4:17:14,  1.78it/s] 43%|████▎     | 20493/48008 [2:56:21<4:09:56,  1.83it/s] 43%|████▎     | 20494/48008 [2:56:21<4:00:57,  1.90it/s] 43%|████▎     | 20495/48008 [2:56:22<4:00:45,  1.90it/s] 43%|████▎     | 20496/48008 [2:56:22<3:57:30,  1.93it/s] 43%|████▎     | 20497/48008 [2:56:23<3:57:51,  1.93it/s] 43%|████▎     | 20498/48008 [2:56:23<3:55:17,  1.95it/s] 43%|████▎     | 20499/48008 [2:56:24<4:45:18,  1.61it/s] 43%|████▎     | 20500/48008 [2:56:25<4:29:23,  1.70it/s]                                                         {'loss': 4.2721, 'grad_norm': 0.10330235213041306, 'learning_rate': 0.0001146017330444926, 'epoch': 0.43}
 43%|████▎     | 20500/48008 [2:56:25<4:29:23,  1.70it/s] 43%|████▎     | 20501/48008 [2:56:25<4:14:38,  1.80it/s] 43%|████▎     | 20502/48008 [2:56:26<4:04:15,  1.88it/s] 43%|████▎     | 20503/48008 [2:56:26<3:59:51,  1.91it/s] 43%|████▎     | 20504/48008 [2:56:27<3:53:21,  1.96it/s] 43%|████▎     | 20505/48008 [2:56:27<3:48:43,  2.00it/s] 43%|████▎     | 20506/48008 [2:56:28<3:49:32,  2.00it/s] 43%|████▎     | 20507/48008 [2:56:28<3:46:23,  2.02it/s] 43%|████▎     | 20508/48008 [2:56:29<4:11:00,  1.83it/s] 43%|████▎     | 20509/48008 [2:56:29<3:52:54,  1.97it/s] 43%|████▎     | 20510/48008 [2:56:30<3:49:07,  2.00it/s] 43%|████▎     | 20511/48008 [2:56:30<3:51:36,  1.98it/s] 43%|████▎     | 20512/48008 [2:56:31<3:47:21,  2.02it/s] 43%|████▎     | 20513/48008 [2:56:31<3:49:05,  2.00it/s] 43%|████▎     | 20514/48008 [2:56:32<3:49:40,  2.00it/s] 43%|████▎     | 20515/48008 [2:56:32<3:46:56,  2.02it/s] 43%|████▎     | 20516/48008 [2:56:33<3:44:32,  2.04it/s] 43%|████▎     | 20517/48008 [2:56:33<3:34:18,  2.14it/s] 43%|████▎     | 20518/48008 [2:56:34<3:41:29,  2.07it/s] 43%|████▎     | 20519/48008 [2:56:34<3:41:04,  2.07it/s] 43%|████▎     | 20520/48008 [2:56:34<3:40:47,  2.08it/s] 43%|████▎     | 20521/48008 [2:56:35<3:32:21,  2.16it/s] 43%|████▎     | 20522/48008 [2:56:35<3:35:14,  2.13it/s] 43%|████▎     | 20523/48008 [2:56:36<3:39:17,  2.09it/s] 43%|████▎     | 20524/48008 [2:56:36<3:45:30,  2.03it/s] 43%|████▎     | 20525/48008 [2:56:37<3:35:14,  2.13it/s] 43%|████▎     | 20526/48008 [2:56:37<3:27:45,  2.20it/s] 43%|████▎     | 20527/48008 [2:56:38<3:39:21,  2.09it/s] 43%|████▎     | 20528/48008 [2:56:38<3:40:15,  2.08it/s] 43%|████▎     | 20529/48008 [2:56:39<3:40:33,  2.08it/s] 43%|████▎     | 20530/48008 [2:56:39<3:31:11,  2.17it/s] 43%|████▎     | 20531/48008 [2:56:40<3:33:04,  2.15it/s] 43%|████▎     | 20532/48008 [2:56:40<3:34:35,  2.13it/s] 43%|████▎     | 20533/48008 [2:56:41<3:36:23,  2.12it/s] 43%|████▎     | 20534/48008 [2:56:41<3:37:25,  2.11it/s] 43%|████▎     | 20535/48008 [2:56:42<4:04:06,  1.88it/s] 43%|████▎     | 20536/48008 [2:56:42<3:57:06,  1.93it/s] 43%|████▎     | 20537/48008 [2:56:43<3:56:45,  1.93it/s] 43%|████▎     | 20538/48008 [2:56:43<3:38:07,  2.10it/s] 43%|████▎     | 20539/48008 [2:56:44<3:41:20,  2.07it/s] 43%|████▎     | 20540/48008 [2:56:44<3:40:40,  2.07it/s] 43%|████▎     | 20541/48008 [2:56:45<3:40:28,  2.08it/s] 43%|████▎     | 20542/48008 [2:56:45<3:31:22,  2.17it/s] 43%|████▎     | 20543/48008 [2:56:45<3:36:55,  2.11it/s] 43%|████▎     | 20544/48008 [2:56:46<3:38:12,  2.10it/s] 43%|████▎     | 20545/48008 [2:56:46<3:38:54,  2.09it/s] 43%|████▎     | 20546/48008 [2:56:47<3:46:59,  2.02it/s] 43%|████▎     | 20547/48008 [2:56:47<3:45:25,  2.03it/s] 43%|████▎     | 20548/48008 [2:56:48<3:43:38,  2.05it/s] 43%|████▎     | 20549/48008 [2:56:48<3:42:30,  2.06it/s] 43%|████▎     | 20550/48008 [2:56:49<3:44:43,  2.04it/s]                                                         {'loss': 4.2281, 'grad_norm': 0.1312667578458786, 'learning_rate': 0.0001143934344275954, 'epoch': 0.43}
 43%|████▎     | 20550/48008 [2:56:49<3:44:43,  2.04it/s] 43%|████▎     | 20551/48008 [2:56:49<3:46:26,  2.02it/s] 43%|████▎     | 20552/48008 [2:56:50<3:43:43,  2.05it/s] 43%|████▎     | 20553/48008 [2:56:50<3:42:26,  2.06it/s] 43%|████▎     | 20554/48008 [2:56:51<3:41:31,  2.07it/s] 43%|████▎     | 20555/48008 [2:56:51<3:46:09,  2.02it/s] 43%|████▎     | 20556/48008 [2:56:52<3:44:10,  2.04it/s] 43%|████▎     | 20557/48008 [2:56:52<3:43:14,  2.05it/s] 43%|████▎     | 20558/48008 [2:56:53<3:42:46,  2.05it/s] 43%|████▎     | 20559/48008 [2:56:53<3:46:39,  2.02it/s] 43%|████▎     | 20560/48008 [2:56:54<3:44:03,  2.04it/s] 43%|████▎     | 20561/48008 [2:56:54<3:42:49,  2.05it/s] 43%|████▎     | 20562/48008 [2:56:55<3:47:08,  2.01it/s] 43%|████▎     | 20563/48008 [2:56:56<4:11:00,  1.82it/s] 43%|████▎     | 20564/48008 [2:56:56<4:04:47,  1.87it/s] 43%|████▎     | 20565/48008 [2:56:56<3:57:09,  1.93it/s] 43%|████▎     | 20566/48008 [2:56:57<3:42:44,  2.05it/s] 43%|████▎     | 20567/48008 [2:56:57<3:50:23,  1.99it/s] 43%|████▎     | 20568/48008 [2:56:58<3:38:37,  2.09it/s] 43%|████▎     | 20569/48008 [2:56:59<4:33:12,  1.67it/s] 43%|████▎     | 20570/48008 [2:56:59<4:17:39,  1.77it/s] 43%|████▎     | 20571/48008 [2:57:00<4:11:26,  1.82it/s] 43%|████▎     | 20572/48008 [2:57:00<4:06:45,  1.85it/s] 43%|████▎     | 20573/48008 [2:57:01<3:58:49,  1.91it/s] 43%|████▎     | 20574/48008 [2:57:01<3:52:47,  1.96it/s] 43%|████▎     | 20575/48008 [2:57:02<3:48:27,  2.00it/s] 43%|████▎     | 20576/48008 [2:57:02<3:36:41,  2.11it/s] 43%|████▎     | 20577/48008 [2:57:03<3:28:21,  2.19it/s] 43%|████▎     | 20578/48008 [2:57:03<3:22:43,  2.26it/s] 43%|████▎     | 20579/48008 [2:57:03<3:35:04,  2.13it/s] 43%|████▎     | 20580/48008 [2:57:04<3:41:18,  2.07it/s] 43%|████▎     | 20581/48008 [2:57:04<3:40:12,  2.08it/s] 43%|████▎     | 20582/48008 [2:57:05<3:42:57,  2.05it/s] 43%|████▎     | 20583/48008 [2:57:05<3:33:11,  2.14it/s] 43%|████▎     | 20584/48008 [2:57:06<3:25:42,  2.22it/s] 43%|████▎     | 20585/48008 [2:57:06<3:20:49,  2.28it/s] 43%|████▎     | 20586/48008 [2:57:07<3:26:10,  2.22it/s] 43%|████▎     | 20587/48008 [2:57:07<3:32:47,  2.15it/s] 43%|████▎     | 20588/48008 [2:57:08<3:35:20,  2.12it/s] 43%|████▎     | 20589/48008 [2:57:08<3:27:06,  2.21it/s] 43%|████▎     | 20590/48008 [2:57:09<3:34:45,  2.13it/s] 43%|████▎     | 20591/48008 [2:57:09<3:27:11,  2.21it/s] 43%|████▎     | 20592/48008 [2:57:09<3:30:01,  2.18it/s] 43%|████▎     | 20593/48008 [2:57:10<3:36:26,  2.11it/s] 43%|████▎     | 20594/48008 [2:57:11<4:03:48,  1.87it/s] 43%|████▎     | 20595/48008 [2:57:11<4:01:55,  1.89it/s] 43%|████▎     | 20596/48008 [2:57:12<3:58:09,  1.92it/s] 43%|████▎     | 20597/48008 [2:57:12<3:52:22,  1.97it/s] 43%|████▎     | 20598/48008 [2:57:13<3:48:25,  2.00it/s] 43%|████▎     | 20599/48008 [2:57:13<3:53:40,  1.95it/s] 43%|████▎     | 20600/48008 [2:57:14<3:49:11,  1.99it/s]                                                         {'loss': 4.2501, 'grad_norm': 0.25901538133621216, 'learning_rate': 0.00011418513581069822, 'epoch': 0.43}
 43%|████▎     | 20600/48008 [2:57:14<3:49:11,  1.99it/s] 43%|████▎     | 20601/48008 [2:57:14<3:51:29,  1.97it/s] 43%|████▎     | 20602/48008 [2:57:15<3:47:17,  2.01it/s] 43%|████▎     | 20603/48008 [2:57:15<4:11:26,  1.82it/s] 43%|████▎     | 20604/48008 [2:57:16<4:07:13,  1.85it/s] 43%|████▎     | 20605/48008 [2:57:16<3:58:30,  1.91it/s] 43%|████▎     | 20606/48008 [2:57:17<3:55:10,  1.94it/s] 43%|████▎     | 20607/48008 [2:57:17<3:50:18,  1.98it/s] 43%|████▎     | 20608/48008 [2:57:18<3:47:22,  2.01it/s] 43%|████▎     | 20609/48008 [2:57:18<3:36:00,  2.11it/s] 43%|████▎     | 20610/48008 [2:57:19<3:42:06,  2.06it/s] 43%|████▎     | 20611/48008 [2:57:19<3:43:51,  2.04it/s] 43%|████▎     | 20612/48008 [2:57:20<3:33:42,  2.14it/s] 43%|████▎     | 20613/48008 [2:57:20<3:42:42,  2.05it/s] 43%|████▎     | 20614/48008 [2:57:21<3:32:44,  2.15it/s] 43%|████▎     | 20615/48008 [2:57:21<3:34:28,  2.13it/s] 43%|████▎     | 20616/48008 [2:57:22<3:35:53,  2.11it/s] 43%|████▎     | 20617/48008 [2:57:22<3:22:52,  2.25it/s] 43%|████▎     | 20618/48008 [2:57:22<3:30:18,  2.17it/s] 43%|████▎     | 20619/48008 [2:57:23<3:36:17,  2.11it/s] 43%|████▎     | 20620/48008 [2:57:23<3:37:21,  2.10it/s] 43%|████▎     | 20621/48008 [2:57:24<3:37:33,  2.10it/s] 43%|████▎     | 20622/48008 [2:57:24<3:37:38,  2.10it/s] 43%|████▎     | 20623/48008 [2:57:25<3:42:40,  2.05it/s] 43%|████▎     | 20624/48008 [2:57:25<3:45:35,  2.02it/s] 43%|████▎     | 20625/48008 [2:57:26<3:46:03,  2.02it/s] 43%|████▎     | 20626/48008 [2:57:26<3:44:12,  2.04it/s] 43%|████▎     | 20627/48008 [2:57:27<3:42:24,  2.05it/s] 43%|████▎     | 20628/48008 [2:57:27<3:32:09,  2.15it/s] 43%|████▎     | 20629/48008 [2:57:28<3:33:53,  2.13it/s] 43%|████▎     | 20630/48008 [2:57:28<3:36:04,  2.11it/s] 43%|████▎     | 20631/48008 [2:57:29<3:40:00,  2.07it/s] 43%|████▎     | 20632/48008 [2:57:29<3:42:35,  2.05it/s] 43%|████▎     | 20633/48008 [2:57:30<3:33:00,  2.14it/s] 43%|████▎     | 20634/48008 [2:57:30<3:26:14,  2.21it/s] 43%|████▎     | 20635/48008 [2:57:31<3:29:39,  2.18it/s] 43%|████▎     | 20636/48008 [2:57:31<3:32:43,  2.14it/s] 43%|████▎     | 20637/48008 [2:57:32<3:37:42,  2.10it/s] 43%|████▎     | 20638/48008 [2:57:32<3:29:15,  2.18it/s] 43%|████▎     | 20639/48008 [2:57:32<3:32:32,  2.15it/s] 43%|████▎     | 20640/48008 [2:57:33<3:25:09,  2.22it/s] 43%|████▎     | 20641/48008 [2:57:33<3:29:23,  2.18it/s] 43%|████▎     | 20642/48008 [2:57:34<3:40:04,  2.07it/s] 43%|████▎     | 20643/48008 [2:57:34<3:45:13,  2.03it/s] 43%|████▎     | 20644/48008 [2:57:35<3:43:59,  2.04it/s] 43%|████▎     | 20645/48008 [2:57:35<3:42:35,  2.05it/s] 43%|████▎     | 20646/48008 [2:57:36<3:44:20,  2.03it/s] 43%|████▎     | 20647/48008 [2:57:36<3:47:40,  2.00it/s] 43%|████▎     | 20648/48008 [2:57:37<3:45:19,  2.02it/s] 43%|████▎     | 20649/48008 [2:57:37<3:43:47,  2.04it/s] 43%|████▎     | 20650/48008 [2:57:38<3:33:39,  2.13it/s]                                                         {'loss': 4.22, 'grad_norm': 0.6212946176528931, 'learning_rate': 0.00011397683719380103, 'epoch': 0.43}
 43%|████▎     | 20650/48008 [2:57:38<3:33:39,  2.13it/s] 43%|████▎     | 20651/48008 [2:57:38<3:35:25,  2.12it/s] 43%|████▎     | 20652/48008 [2:57:39<3:39:53,  2.07it/s] 43%|████▎     | 20653/48008 [2:57:40<4:33:19,  1.67it/s] 43%|████▎     | 20654/48008 [2:57:40<4:44:09,  1.60it/s] 43%|████▎     | 20655/48008 [2:57:41<4:30:41,  1.68it/s] 43%|████▎     | 20656/48008 [2:57:41<4:17:31,  1.77it/s] 43%|████▎     | 20657/48008 [2:57:42<4:13:49,  1.80it/s] 43%|████▎     | 20658/48008 [2:57:42<3:54:30,  1.94it/s] 43%|████▎     | 20659/48008 [2:57:43<3:49:48,  1.98it/s] 43%|████▎     | 20660/48008 [2:57:43<3:51:45,  1.97it/s] 43%|████▎     | 20661/48008 [2:57:44<3:47:40,  2.00it/s] 43%|████▎     | 20662/48008 [2:57:44<3:44:39,  2.03it/s] 43%|████▎     | 20663/48008 [2:57:45<3:43:15,  2.04it/s] 43%|████▎     | 20664/48008 [2:57:45<3:41:46,  2.05it/s] 43%|████▎     | 20665/48008 [2:57:46<3:40:13,  2.07it/s] 43%|████▎     | 20666/48008 [2:57:46<3:39:17,  2.08it/s] 43%|████▎     | 20667/48008 [2:57:47<4:05:38,  1.86it/s] 43%|████▎     | 20668/48008 [2:57:47<3:48:48,  1.99it/s] 43%|████▎     | 20669/48008 [2:57:48<3:50:27,  1.98it/s] 43%|████▎     | 20670/48008 [2:57:48<3:46:44,  2.01it/s] 43%|████▎     | 20671/48008 [2:57:49<4:10:47,  1.82it/s] 43%|████▎     | 20672/48008 [2:57:49<3:52:03,  1.96it/s] 43%|████▎     | 20673/48008 [2:57:50<3:47:22,  2.00it/s] 43%|████▎     | 20674/48008 [2:57:50<3:44:41,  2.03it/s] 43%|████▎     | 20675/48008 [2:57:51<3:42:41,  2.05it/s] 43%|████▎     | 20676/48008 [2:57:51<3:41:39,  2.06it/s] 43%|████▎     | 20677/48008 [2:57:52<3:40:08,  2.07it/s] 43%|████▎     | 20678/48008 [2:57:52<3:39:54,  2.07it/s] 43%|████▎     | 20679/48008 [2:57:53<3:38:52,  2.08it/s] 43%|████▎     | 20680/48008 [2:57:53<3:42:19,  2.05it/s] 43%|████▎     | 20681/48008 [2:57:54<3:32:02,  2.15it/s] 43%|████▎     | 20682/48008 [2:57:54<3:39:22,  2.08it/s] 43%|████▎     | 20683/48008 [2:57:55<3:42:37,  2.05it/s] 43%|████▎     | 20684/48008 [2:57:55<3:45:22,  2.02it/s] 43%|████▎     | 20685/48008 [2:57:56<3:43:16,  2.04it/s] 43%|████▎     | 20686/48008 [2:57:56<3:33:03,  2.14it/s] 43%|████▎     | 20687/48008 [2:57:56<3:34:45,  2.12it/s] 43%|████▎     | 20688/48008 [2:57:57<3:27:18,  2.20it/s] 43%|████▎     | 20689/48008 [2:57:57<3:33:42,  2.13it/s] 43%|████▎     | 20690/48008 [2:57:58<3:35:25,  2.11it/s] 43%|████▎     | 20691/48008 [2:57:58<3:35:49,  2.11it/s] 43%|████▎     | 20692/48008 [2:57:59<3:27:28,  2.19it/s] 43%|████▎     | 20693/48008 [2:57:59<3:57:55,  1.91it/s] 43%|████▎     | 20694/48008 [2:58:00<3:56:48,  1.92it/s] 43%|████▎     | 20695/48008 [2:58:00<3:51:13,  1.97it/s] 43%|████▎     | 20696/48008 [2:58:01<3:50:18,  1.98it/s] 43%|████▎     | 20697/48008 [2:58:01<3:54:53,  1.94it/s] 43%|████▎     | 20698/48008 [2:58:02<3:41:23,  2.06it/s] 43%|████▎     | 20699/48008 [2:58:02<3:40:38,  2.06it/s] 43%|████▎     | 20700/48008 [2:58:03<3:40:16,  2.07it/s]                                                         {'loss': 4.2503, 'grad_norm': 0.5769029259681702, 'learning_rate': 0.00011376853857690386, 'epoch': 0.43} 43%|████▎     | 20700/48008 [2:58:03<3:40:16,  2.07it/s]
 43%|████▎     | 20701/48008 [2:58:03<3:30:49,  2.16it/s] 43%|████▎     | 20702/48008 [2:58:04<3:33:45,  2.13it/s] 43%|████▎     | 20703/48008 [2:58:04<3:34:48,  2.12it/s] 43%|████▎     | 20704/48008 [2:58:05<3:36:07,  2.11it/s] 43%|████▎     | 20705/48008 [2:58:05<3:36:24,  2.10it/s] 43%|████▎     | 20706/48008 [2:58:06<3:40:29,  2.06it/s] 43%|████▎     | 20707/48008 [2:58:06<3:47:42,  2.00it/s] 43%|████▎     | 20708/48008 [2:58:07<3:45:33,  2.02it/s] 43%|████▎     | 20709/48008 [2:58:07<3:46:24,  2.01it/s] 43%|████▎     | 20710/48008 [2:58:08<3:50:01,  1.98it/s] 43%|████▎     | 20711/48008 [2:58:08<3:50:00,  1.98it/s] 43%|████▎     | 20712/48008 [2:58:09<3:46:52,  2.01it/s] 43%|████▎     | 20713/48008 [2:58:10<4:37:45,  1.64it/s] 43%|████▎     | 20714/48008 [2:58:10<4:25:02,  1.72it/s] 43%|████▎     | 20715/48008 [2:58:11<4:14:05,  1.79it/s] 43%|████▎     | 20716/48008 [2:58:11<4:57:24,  1.53it/s] 43%|████▎     | 20717/48008 [2:58:12<4:33:35,  1.66it/s] 43%|████▎     | 20718/48008 [2:58:12<4:17:11,  1.77it/s] 43%|████▎     | 20719/48008 [2:58:13<4:05:20,  1.85it/s] 43%|████▎     | 20720/48008 [2:58:13<3:57:19,  1.92it/s] 43%|████▎     | 20721/48008 [2:58:14<3:42:52,  2.04it/s] 43%|████▎     | 20722/48008 [2:58:14<3:46:43,  2.01it/s] 43%|████▎     | 20723/48008 [2:58:15<3:30:43,  2.16it/s] 43%|████▎     | 20724/48008 [2:58:15<3:32:28,  2.14it/s] 43%|████▎     | 20725/48008 [2:58:16<5:20:33,  1.42it/s] 43%|████▎     | 20726/48008 [2:58:17<5:43:17,  1.32it/s] 43%|████▎     | 20727/48008 [2:58:18<4:56:45,  1.53it/s] 43%|████▎     | 20728/48008 [2:58:18<4:33:25,  1.66it/s] 43%|████▎     | 20729/48008 [2:58:19<4:16:37,  1.77it/s] 43%|████▎     | 20730/48008 [2:58:19<3:55:56,  1.93it/s] 43%|████▎     | 20731/48008 [2:58:20<5:35:19,  1.36it/s] 43%|████▎     | 20732/48008 [2:58:21<5:04:04,  1.50it/s] 43%|████▎     | 20733/48008 [2:58:21<4:29:41,  1.69it/s] 43%|████▎     | 20734/48008 [2:58:22<4:17:13,  1.77it/s] 43%|████▎     | 20735/48008 [2:58:22<3:56:29,  1.92it/s] 43%|████▎     | 20736/48008 [2:58:23<3:51:38,  1.96it/s] 43%|████▎     | 20737/48008 [2:58:23<4:13:30,  1.79it/s] 43%|████▎     | 20738/48008 [2:58:24<4:10:16,  1.82it/s] 43%|████▎     | 20739/48008 [2:58:24<4:00:22,  1.89it/s] 43%|████▎     | 20740/48008 [2:58:25<3:53:34,  1.95it/s] 43%|████▎     | 20741/48008 [2:58:25<3:48:46,  1.99it/s] 43%|████▎     | 20742/48008 [2:58:26<3:53:29,  1.95it/s] 43%|████▎     | 20743/48008 [2:58:26<3:52:25,  1.96it/s] 43%|████▎     | 20744/48008 [2:58:27<5:00:07,  1.51it/s] 43%|████▎     | 20745/48008 [2:58:28<4:41:22,  1.61it/s] 43%|████▎     | 20746/48008 [2:58:28<4:30:12,  1.68it/s] 43%|████▎     | 20747/48008 [2:58:29<4:14:20,  1.79it/s] 43%|████▎     | 20748/48008 [2:58:29<4:03:09,  1.87it/s] 43%|████▎     | 20749/48008 [2:58:30<3:46:44,  2.00it/s] 43%|████▎     | 20750/48008 [2:58:31<5:28:21,  1.38it/s]                                                         {'loss': 4.3256, 'grad_norm': 0.517545223236084, 'learning_rate': 0.00011356023996000666, 'epoch': 0.43} 43%|████▎     | 20750/48008 [2:58:31<5:28:21,  1.38it/s]
 43%|████▎     | 20751/48008 [2:58:32<4:55:06,  1.54it/s] 43%|████▎     | 20752/48008 [2:58:32<4:39:48,  1.62it/s] 43%|████▎     | 20753/48008 [2:58:33<4:21:45,  1.74it/s] 43%|████▎     | 20754/48008 [2:58:33<4:08:08,  1.83it/s] 43%|████▎     | 20755/48008 [2:58:33<3:50:05,  1.97it/s] 43%|████▎     | 20756/48008 [2:58:34<4:40:28,  1.62it/s] 43%|████▎     | 20757/48008 [2:58:36<6:06:38,  1.24it/s] 43%|████▎     | 20758/48008 [2:58:36<5:13:29,  1.45it/s] 43%|████▎     | 20759/48008 [2:58:36<4:48:06,  1.58it/s] 43%|████▎     | 20760/48008 [2:58:37<4:30:28,  1.68it/s] 43%|████▎     | 20761/48008 [2:58:37<4:14:35,  1.78it/s] 43%|████▎     | 20762/48008 [2:58:38<4:08:16,  1.83it/s] 43%|████▎     | 20763/48008 [2:58:38<3:59:02,  1.90it/s] 43%|████▎     | 20764/48008 [2:58:39<3:43:45,  2.03it/s] 43%|████▎     | 20765/48008 [2:58:39<3:49:49,  1.98it/s] 43%|████▎     | 20766/48008 [2:58:40<3:45:52,  2.01it/s] 43%|████▎     | 20767/48008 [2:58:40<3:43:20,  2.03it/s] 43%|████▎     | 20768/48008 [2:58:41<3:32:58,  2.13it/s] 43%|████▎     | 20769/48008 [2:58:41<3:25:42,  2.21it/s] 43%|████▎     | 20770/48008 [2:58:42<3:29:31,  2.17it/s] 43%|████▎     | 20771/48008 [2:58:42<3:23:16,  2.23it/s] 43%|████▎     | 20772/48008 [2:58:43<4:21:02,  1.74it/s] 43%|████▎     | 20773/48008 [2:58:43<4:11:34,  1.80it/s] 43%|████▎     | 20774/48008 [2:58:44<4:04:23,  1.86it/s] 43%|████▎     | 20775/48008 [2:58:44<3:59:55,  1.89it/s] 43%|████▎     | 20776/48008 [2:58:45<3:44:23,  2.02it/s] 43%|████▎     | 20777/48008 [2:58:45<3:42:01,  2.04it/s] 43%|████▎     | 20778/48008 [2:58:46<3:44:16,  2.02it/s] 43%|████▎     | 20779/48008 [2:58:46<3:50:23,  1.97it/s] 43%|████▎     | 20780/48008 [2:58:47<3:54:39,  1.93it/s] 43%|████▎     | 20781/48008 [2:58:47<3:41:11,  2.05it/s] 43%|████▎     | 20782/48008 [2:58:48<4:06:05,  1.84it/s] 43%|████▎     | 20783/48008 [2:58:48<3:48:48,  1.98it/s] 43%|████▎     | 20784/48008 [2:58:49<3:50:21,  1.97it/s] 43%|████▎     | 20785/48008 [2:58:49<3:46:25,  2.00it/s] 43%|████▎     | 20786/48008 [2:58:50<3:43:35,  2.03it/s] 43%|████▎     | 20787/48008 [2:58:50<3:47:11,  2.00it/s] 43%|████▎     | 20788/48008 [2:58:51<3:47:53,  1.99it/s] 43%|████▎     | 20789/48008 [2:58:51<3:48:01,  1.99it/s] 43%|████▎     | 20790/48008 [2:58:52<3:52:50,  1.95it/s] 43%|████▎     | 20791/48008 [2:58:52<3:39:16,  2.07it/s] 43%|████▎     | 20792/48008 [2:58:53<3:41:45,  2.05it/s] 43%|████▎     | 20793/48008 [2:58:54<4:06:24,  1.84it/s] 43%|████▎     | 20794/48008 [2:58:54<3:49:02,  1.98it/s] 43%|████▎     | 20795/48008 [2:58:54<3:36:47,  2.09it/s] 43%|████▎     | 20796/48008 [2:58:55<3:42:56,  2.03it/s] 43%|████▎     | 20797/48008 [2:58:55<3:41:12,  2.05it/s] 43%|████▎     | 20798/48008 [2:58:56<4:06:27,  1.84it/s] 43%|████▎     | 20799/48008 [2:58:57<4:03:06,  1.87it/s] 43%|████▎     | 20800/48008 [2:58:57<3:58:40,  1.90it/s]                                                         {'loss': 4.3293, 'grad_norm': 0.5245833396911621, 'learning_rate': 0.00011335194134310949, 'epoch': 0.43} 43%|████▎     | 20800/48008 [2:58:57<3:58:40,  1.90it/s]
 43%|████▎     | 20801/48008 [2:58:58<3:55:49,  1.92it/s] 43%|████▎     | 20802/48008 [2:58:58<3:41:42,  2.05it/s] 43%|████▎     | 20803/48008 [2:58:59<3:44:03,  2.02it/s] 43%|████▎     | 20804/48008 [2:58:59<3:42:08,  2.04it/s] 43%|████▎     | 20805/48008 [2:59:00<4:06:49,  1.84it/s] 43%|████▎     | 20806/48008 [2:59:00<3:58:05,  1.90it/s] 43%|████▎     | 20807/48008 [2:59:01<3:55:36,  1.92it/s] 43%|████▎     | 20808/48008 [2:59:01<3:50:34,  1.97it/s] 43%|████▎     | 20809/48008 [2:59:02<3:51:33,  1.96it/s] 43%|████▎     | 20810/48008 [2:59:02<3:46:53,  2.00it/s] 43%|████▎     | 20811/48008 [2:59:03<3:47:36,  1.99it/s] 43%|████▎     | 20812/48008 [2:59:03<3:47:19,  1.99it/s] 43%|████▎     | 20813/48008 [2:59:04<3:44:13,  2.02it/s] 43%|████▎     | 20814/48008 [2:59:04<3:41:35,  2.05it/s] 43%|████▎     | 20815/48008 [2:59:05<3:31:44,  2.14it/s] 43%|████▎     | 20816/48008 [2:59:06<5:17:27,  1.43it/s] 43%|████▎     | 20817/48008 [2:59:06<4:47:48,  1.57it/s] 43%|████▎     | 20818/48008 [2:59:07<4:27:28,  1.69it/s] 43%|████▎     | 20819/48008 [2:59:07<4:20:25,  1.74it/s] 43%|████▎     | 20820/48008 [2:59:08<4:10:47,  1.81it/s] 43%|████▎     | 20821/48008 [2:59:08<4:03:43,  1.86it/s] 43%|████▎     | 20822/48008 [2:59:09<3:55:51,  1.92it/s] 43%|████▎     | 20823/48008 [2:59:09<3:41:26,  2.05it/s] 43%|████▎     | 20824/48008 [2:59:10<3:40:13,  2.06it/s] 43%|████▎     | 20825/48008 [2:59:10<3:39:28,  2.06it/s] 43%|████▎     | 20826/48008 [2:59:11<3:38:59,  2.07it/s] 43%|████▎     | 20827/48008 [2:59:11<3:38:57,  2.07it/s] 43%|████▎     | 20828/48008 [2:59:12<3:46:20,  2.00it/s] 43%|████▎     | 20829/48008 [2:59:12<3:43:24,  2.03it/s] 43%|████▎     | 20830/48008 [2:59:13<3:47:05,  1.99it/s] 43%|████▎     | 20831/48008 [2:59:13<3:52:48,  1.95it/s] 43%|████▎     | 20832/48008 [2:59:14<3:39:56,  2.06it/s] 43%|████▎     | 20833/48008 [2:59:14<3:42:27,  2.04it/s] 43%|████▎     | 20834/48008 [2:59:15<3:32:37,  2.13it/s] 43%|████▎     | 20835/48008 [2:59:15<3:33:56,  2.12it/s] 43%|████▎     | 20836/48008 [2:59:16<3:42:36,  2.03it/s] 43%|████▎     | 20837/48008 [2:59:16<3:41:09,  2.05it/s] 43%|████▎     | 20838/48008 [2:59:17<3:43:31,  2.03it/s] 43%|████▎     | 20839/48008 [2:59:17<3:44:40,  2.02it/s] 43%|████▎     | 20840/48008 [2:59:17<3:33:35,  2.12it/s] 43%|████▎     | 20841/48008 [2:59:18<3:25:53,  2.20it/s] 43%|████▎     | 20842/48008 [2:59:18<3:20:29,  2.26it/s] 43%|████▎     | 20843/48008 [2:59:19<3:34:14,  2.11it/s] 43%|████▎     | 20844/48008 [2:59:19<3:26:06,  2.20it/s] 43%|████▎     | 20845/48008 [2:59:20<3:55:44,  1.92it/s] 43%|████▎     | 20846/48008 [2:59:20<3:49:41,  1.97it/s] 43%|████▎     | 20847/48008 [2:59:21<3:45:09,  2.01it/s] 43%|████▎     | 20848/48008 [2:59:21<3:42:43,  2.03it/s] 43%|████▎     | 20849/48008 [2:59:22<3:44:15,  2.02it/s] 43%|████▎     | 20850/48008 [2:59:22<3:47:29,  1.99it/s]                                                         {'loss': 4.276, 'grad_norm': 0.30840641260147095, 'learning_rate': 0.0001131436427262123, 'epoch': 0.43}
 43%|████▎     | 20850/48008 [2:59:22<3:47:29,  1.99it/s] 43%|████▎     | 20851/48008 [2:59:23<3:49:36,  1.97it/s] 43%|████▎     | 20852/48008 [2:59:23<3:48:27,  1.98it/s] 43%|████▎     | 20853/48008 [2:59:24<3:47:35,  1.99it/s] 43%|████▎     | 20854/48008 [2:59:24<3:50:19,  1.96it/s] 43%|████▎     | 20855/48008 [2:59:25<3:54:03,  1.93it/s] 43%|████▎     | 20856/48008 [2:59:25<3:55:07,  1.92it/s] 43%|████▎     | 20857/48008 [2:59:26<3:40:32,  2.05it/s] 43%|████▎     | 20858/48008 [2:59:26<3:39:48,  2.06it/s] 43%|████▎     | 20859/48008 [2:59:27<3:38:32,  2.07it/s] 43%|████▎     | 20860/48008 [2:59:28<4:04:41,  1.85it/s] 43%|████▎     | 20861/48008 [2:59:28<3:56:47,  1.91it/s] 43%|████▎     | 20862/48008 [2:59:28<3:50:39,  1.96it/s] 43%|████▎     | 20863/48008 [2:59:29<3:37:52,  2.08it/s] 43%|████▎     | 20864/48008 [2:59:29<3:37:57,  2.08it/s] 43%|████▎     | 20865/48008 [2:59:30<3:38:07,  2.07it/s] 43%|████▎     | 20866/48008 [2:59:30<3:29:13,  2.16it/s] 43%|████▎     | 20867/48008 [2:59:31<3:31:21,  2.14it/s] 43%|████▎     | 20868/48008 [2:59:31<3:36:12,  2.09it/s] 43%|████▎     | 20869/48008 [2:59:32<4:03:29,  1.86it/s] 43%|████▎     | 20870/48008 [2:59:32<3:55:25,  1.92it/s] 43%|████▎     | 20871/48008 [2:59:33<3:50:19,  1.96it/s] 43%|████▎     | 20872/48008 [2:59:33<3:46:27,  2.00it/s] 43%|████▎     | 20873/48008 [2:59:34<3:43:36,  2.02it/s] 43%|████▎     | 20874/48008 [2:59:34<3:41:45,  2.04it/s] 43%|████▎     | 20875/48008 [2:59:35<3:39:57,  2.06it/s] 43%|████▎     | 20876/48008 [2:59:35<3:42:16,  2.03it/s] 43%|████▎     | 20877/48008 [2:59:36<3:27:33,  2.18it/s] 43%|████▎     | 20878/48008 [2:59:36<3:31:17,  2.14it/s] 43%|████▎     | 20879/48008 [2:59:37<3:35:54,  2.09it/s] 43%|████▎     | 20880/48008 [2:59:37<3:44:05,  2.02it/s] 43%|████▎     | 20881/48008 [2:59:38<3:42:20,  2.03it/s] 43%|████▎     | 20882/48008 [2:59:38<3:43:43,  2.02it/s] 43%|████▎     | 20883/48008 [2:59:39<3:41:13,  2.04it/s] 44%|████▎     | 20884/48008 [2:59:39<3:39:28,  2.06it/s] 44%|████▎     | 20885/48008 [2:59:40<3:42:09,  2.03it/s] 44%|████▎     | 20886/48008 [2:59:41<4:34:42,  1.65it/s] 44%|████▎     | 20887/48008 [2:59:41<4:17:33,  1.76it/s] 44%|████▎     | 20888/48008 [2:59:42<4:05:54,  1.84it/s] 44%|████▎     | 20889/48008 [2:59:42<3:47:59,  1.98it/s] 44%|████▎     | 20890/48008 [2:59:42<3:35:19,  2.10it/s] 44%|████▎     | 20891/48008 [2:59:43<3:35:44,  2.09it/s] 44%|████▎     | 20892/48008 [2:59:43<3:38:39,  2.07it/s] 44%|████▎     | 20893/48008 [2:59:44<4:03:41,  1.85it/s] 44%|████▎     | 20894/48008 [2:59:44<3:55:25,  1.92it/s] 44%|████▎     | 20895/48008 [2:59:45<4:16:11,  1.76it/s] 44%|████▎     | 20896/48008 [2:59:46<5:48:46,  1.30it/s] 44%|████▎     | 20897/48008 [2:59:47<5:00:24,  1.50it/s] 44%|████▎     | 20898/48008 [2:59:47<4:35:31,  1.64it/s] 44%|████▎     | 20899/48008 [2:59:48<4:17:17,  1.76it/s] 44%|████▎     | 20900/48008 [2:59:48<4:05:08,  1.84it/s]                                                         {'loss': 4.2935, 'grad_norm': 0.366311639547348, 'learning_rate': 0.00011293534410931513, 'epoch': 0.44} 44%|████▎     | 20900/48008 [2:59:48<4:05:08,  1.84it/s]
 44%|████▎     | 20901/48008 [2:59:49<3:47:56,  1.98it/s] 44%|████▎     | 20902/48008 [2:59:49<3:47:30,  1.99it/s] 44%|████▎     | 20903/48008 [2:59:50<4:10:18,  1.80it/s] 44%|████▎     | 20904/48008 [2:59:50<4:00:17,  1.88it/s] 44%|████▎     | 20905/48008 [2:59:51<3:52:31,  1.94it/s] 44%|████▎     | 20906/48008 [2:59:51<3:56:07,  1.91it/s] 44%|████▎     | 20907/48008 [2:59:52<3:50:22,  1.96it/s] 44%|████▎     | 20908/48008 [2:59:52<3:46:32,  1.99it/s] 44%|████▎     | 20909/48008 [2:59:53<3:43:49,  2.02it/s] 44%|████▎     | 20910/48008 [2:59:53<3:41:40,  2.04it/s] 44%|████▎     | 20911/48008 [2:59:54<3:40:43,  2.05it/s] 44%|████▎     | 20912/48008 [2:59:54<3:42:38,  2.03it/s] 44%|████▎     | 20913/48008 [2:59:55<3:40:39,  2.05it/s] 44%|████▎     | 20914/48008 [2:59:55<3:42:00,  2.03it/s] 44%|████▎     | 20915/48008 [2:59:56<3:40:07,  2.05it/s] 44%|████▎     | 20916/48008 [2:59:57<4:32:03,  1.66it/s] 44%|████▎     | 20917/48008 [2:59:57<4:18:51,  1.74it/s] 44%|████▎     | 20918/48008 [2:59:58<5:00:06,  1.50it/s] 44%|████▎     | 20919/48008 [2:59:58<4:35:21,  1.64it/s] 44%|████▎     | 20920/48008 [2:59:59<4:09:08,  1.81it/s] 44%|████▎     | 20921/48008 [2:59:59<4:04:16,  1.85it/s] 44%|████▎     | 20922/48008 [3:00:00<3:59:25,  1.89it/s] 44%|████▎     | 20923/48008 [3:00:00<3:55:38,  1.92it/s] 44%|████▎     | 20924/48008 [3:00:01<3:49:42,  1.97it/s] 44%|████▎     | 20925/48008 [3:00:02<5:29:17,  1.37it/s] 44%|████▎     | 20926/48008 [3:00:03<4:47:02,  1.57it/s] 44%|████▎     | 20927/48008 [3:00:03<4:26:04,  1.70it/s] 44%|████▎     | 20928/48008 [3:00:04<4:16:23,  1.76it/s] 44%|████▎     | 20929/48008 [3:00:04<3:55:11,  1.92it/s] 44%|████▎     | 20930/48008 [3:00:04<3:58:03,  1.90it/s] 44%|████▎     | 20931/48008 [3:00:05<3:56:42,  1.91it/s] 44%|████▎     | 20932/48008 [3:00:05<3:54:18,  1.93it/s] 44%|████▎     | 20933/48008 [3:00:06<3:35:43,  2.09it/s] 44%|████▎     | 20934/48008 [3:00:07<4:29:55,  1.67it/s] 44%|████▎     | 20935/48008 [3:00:07<4:13:45,  1.78it/s] 44%|████▎     | 20936/48008 [3:00:08<4:10:51,  1.80it/s] 44%|████▎     | 20937/48008 [3:00:08<4:05:19,  1.84it/s] 44%|████▎     | 20938/48008 [3:00:09<3:56:58,  1.90it/s] 44%|████▎     | 20939/48008 [3:00:09<3:53:52,  1.93it/s] 44%|████▎     | 20940/48008 [3:00:10<3:48:57,  1.97it/s] 44%|████▎     | 20941/48008 [3:00:10<3:36:08,  2.09it/s] 44%|████▎     | 20942/48008 [3:00:11<3:27:32,  2.17it/s] 44%|████▎     | 20943/48008 [3:00:11<3:33:19,  2.11it/s] 44%|████▎     | 20944/48008 [3:00:12<4:28:47,  1.68it/s] 44%|████▎     | 20945/48008 [3:00:12<4:04:50,  1.84it/s] 44%|████▎     | 20946/48008 [3:00:13<3:56:25,  1.91it/s] 44%|████▎     | 20947/48008 [3:00:13<3:41:39,  2.03it/s] 44%|████▎     | 20948/48008 [3:00:14<4:06:48,  1.83it/s] 44%|████▎     | 20949/48008 [3:00:14<4:02:51,  1.86it/s] 44%|████▎     | 20950/48008 [3:00:15<4:00:57,  1.87it/s]                                                         {'loss': 4.2899, 'grad_norm': 0.25311318039894104, 'learning_rate': 0.00011272704549241793, 'epoch': 0.44} 44%|████▎     | 20950/48008 [3:00:15<4:00:57,  1.87it/s]
 44%|████▎     | 20951/48008 [3:00:15<3:53:53,  1.93it/s] 44%|████▎     | 20952/48008 [3:00:16<3:48:10,  1.98it/s] 44%|████▎     | 20953/48008 [3:00:16<3:52:10,  1.94it/s] 44%|████▎     | 20954/48008 [3:00:17<3:52:27,  1.94it/s] 44%|████▎     | 20955/48008 [3:00:17<3:46:56,  1.99it/s] 44%|████▎     | 20956/48008 [3:00:18<3:43:23,  2.02it/s] 44%|████▎     | 20957/48008 [3:00:18<3:41:22,  2.04it/s] 44%|████▎     | 20958/48008 [3:00:19<3:40:09,  2.05it/s] 44%|████▎     | 20959/48008 [3:00:19<3:39:36,  2.05it/s] 44%|████▎     | 20960/48008 [3:00:20<3:41:51,  2.03it/s] 44%|████▎     | 20961/48008 [3:00:20<3:40:08,  2.05it/s] 44%|████▎     | 20962/48008 [3:00:21<3:39:22,  2.05it/s] 44%|████▎     | 20963/48008 [3:00:21<3:41:30,  2.03it/s] 44%|████▎     | 20964/48008 [3:00:22<3:39:39,  2.05it/s] 44%|████▎     | 20965/48008 [3:00:22<3:42:14,  2.03it/s] 44%|████▎     | 20966/48008 [3:00:23<3:40:18,  2.05it/s] 44%|████▎     | 20967/48008 [3:00:23<3:39:18,  2.05it/s] 44%|████▎     | 20968/48008 [3:00:24<3:41:53,  2.03it/s] 44%|████▎     | 20969/48008 [3:00:24<3:42:42,  2.02it/s] 44%|████▎     | 20970/48008 [3:00:25<3:31:46,  2.13it/s] 44%|████▎     | 20971/48008 [3:00:25<3:36:08,  2.08it/s] 44%|████▎     | 20972/48008 [3:00:26<3:36:02,  2.09it/s] 44%|████▎     | 20973/48008 [3:00:26<3:38:44,  2.06it/s] 44%|████▎     | 20974/48008 [3:00:27<3:41:25,  2.03it/s] 44%|████▎     | 20975/48008 [3:00:27<3:30:56,  2.14it/s] 44%|████▎     | 20976/48008 [3:00:28<3:32:04,  2.12it/s] 44%|████▎     | 20977/48008 [3:00:28<3:41:12,  2.04it/s] 44%|████▎     | 20978/48008 [3:00:29<3:42:44,  2.02it/s] 44%|████▎     | 20979/48008 [3:00:29<4:06:23,  1.83it/s] 44%|████▎     | 20980/48008 [3:00:30<3:48:16,  1.97it/s] 44%|████▎     | 20981/48008 [3:00:30<3:49:58,  1.96it/s] 44%|████▎     | 20982/48008 [3:00:31<3:46:02,  1.99it/s] 44%|████▎     | 20983/48008 [3:00:31<3:43:36,  2.01it/s] 44%|████▎     | 20984/48008 [3:00:32<3:32:37,  2.12it/s] 44%|████▎     | 20985/48008 [3:00:32<3:36:36,  2.08it/s] 44%|████▎     | 20986/48008 [3:00:33<3:27:40,  2.17it/s] 44%|████▎     | 20987/48008 [3:00:33<3:35:29,  2.09it/s] 44%|████▎     | 20988/48008 [3:00:34<4:01:33,  1.86it/s] 44%|████▎     | 20989/48008 [3:00:34<3:54:03,  1.92it/s] 44%|████▎     | 20990/48008 [3:00:35<3:52:06,  1.94it/s] 44%|████▎     | 20991/48008 [3:00:36<5:31:50,  1.36it/s] 44%|████▎     | 20992/48008 [3:00:37<5:23:33,  1.39it/s] 44%|████▎     | 20993/48008 [3:00:37<4:51:19,  1.55it/s] 44%|████▎     | 20994/48008 [3:00:38<4:32:30,  1.65it/s] 44%|████▎     | 20995/48008 [3:00:38<4:15:43,  1.76it/s] 44%|████▎     | 20996/48008 [3:00:39<4:03:55,  1.85it/s] 44%|████▎     | 20997/48008 [3:00:39<3:58:26,  1.89it/s] 44%|████▎     | 20998/48008 [3:00:40<3:57:23,  1.90it/s] 44%|████▎     | 20999/48008 [3:00:40<3:50:58,  1.95it/s] 44%|████▎     | 21000/48008 [3:00:41<3:37:54,  2.07it/s]                                                         {'loss': 4.3024, 'grad_norm': 0.17673219740390778, 'learning_rate': 0.00011251874687552075, 'epoch': 0.44} 44%|████▎     | 21000/48008 [3:00:41<3:37:54,  2.07it/s]
 44%|████▎     | 21001/48008 [3:00:41<3:41:22,  2.03it/s] 44%|████▎     | 21002/48008 [3:00:41<3:30:57,  2.13it/s] 44%|████▎     | 21003/48008 [3:00:42<3:35:44,  2.09it/s] 44%|████▍     | 21004/48008 [3:00:42<3:35:49,  2.09it/s] 44%|████▍     | 21005/48008 [3:00:43<3:36:13,  2.08it/s] 44%|████▍     | 21006/48008 [3:00:43<3:35:26,  2.09it/s] 44%|████▍     | 21007/48008 [3:00:44<3:40:54,  2.04it/s] 44%|████▍     | 21008/48008 [3:00:45<5:23:41,  1.39it/s] 44%|████▍     | 21009/48008 [3:00:46<4:57:05,  1.51it/s] 44%|████▍     | 21010/48008 [3:00:46<4:32:28,  1.65it/s] 44%|████▍     | 21011/48008 [3:00:47<4:18:12,  1.74it/s] 44%|████▍     | 21012/48008 [3:00:47<4:31:40,  1.66it/s] 44%|████▍     | 21013/48008 [3:00:48<4:41:08,  1.60it/s] 44%|████▍     | 21014/48008 [3:00:49<4:21:33,  1.72it/s] 44%|████▍     | 21015/48008 [3:00:49<4:33:58,  1.64it/s] 44%|████▍     | 21016/48008 [3:00:50<4:19:43,  1.73it/s] 44%|████▍     | 21017/48008 [3:00:50<3:57:43,  1.89it/s] 44%|████▍     | 21018/48008 [3:00:51<3:51:19,  1.94it/s] 44%|████▍     | 21019/48008 [3:00:51<4:13:01,  1.78it/s] 44%|████▍     | 21020/48008 [3:00:52<4:01:49,  1.86it/s] 44%|████▍     | 21021/48008 [3:00:52<3:45:02,  2.00it/s] 44%|████▍     | 21022/48008 [3:00:53<3:42:15,  2.02it/s] 44%|████▍     | 21023/48008 [3:00:53<3:43:44,  2.01it/s] 44%|████▍     | 21024/48008 [3:00:54<3:41:28,  2.03it/s] 44%|████▍     | 21025/48008 [3:00:54<4:06:14,  1.83it/s] 44%|████▍     | 21026/48008 [3:00:55<3:57:17,  1.90it/s] 44%|████▍     | 21027/48008 [3:00:55<4:16:20,  1.75it/s] 44%|████▍     | 21028/48008 [3:00:56<4:04:17,  1.84it/s] 44%|████▍     | 21029/48008 [3:00:56<3:58:54,  1.88it/s] 44%|████▍     | 21030/48008 [3:00:57<3:51:36,  1.94it/s] 44%|████▍     | 21031/48008 [3:00:57<3:49:12,  1.96it/s] 44%|████▍     | 21032/48008 [3:00:58<3:47:57,  1.97it/s] 44%|████▍     | 21033/48008 [3:00:58<3:47:10,  1.98it/s] 44%|████▍     | 21034/48008 [3:00:59<3:34:54,  2.09it/s] 44%|████▍     | 21035/48008 [3:00:59<3:34:50,  2.09it/s] 44%|████▍     | 21036/48008 [3:01:00<3:26:30,  2.18it/s] 44%|████▍     | 21037/48008 [3:01:00<3:20:26,  2.24it/s] 44%|████▍     | 21038/48008 [3:01:01<3:27:48,  2.16it/s] 44%|████▍     | 21039/48008 [3:01:01<3:38:27,  2.06it/s] 44%|████▍     | 21040/48008 [3:01:02<3:37:19,  2.07it/s] 44%|████▍     | 21041/48008 [3:01:03<4:30:20,  1.66it/s] 44%|████▍     | 21042/48008 [3:01:03<4:13:41,  1.77it/s] 44%|████▍     | 21043/48008 [3:01:03<4:02:32,  1.85it/s] 44%|████▍     | 21044/48008 [3:01:04<3:59:49,  1.87it/s] 44%|████▍     | 21045/48008 [3:01:04<3:52:51,  1.93it/s] 44%|████▍     | 21046/48008 [3:01:05<3:47:53,  1.97it/s] 44%|████▍     | 21047/48008 [3:01:05<3:51:52,  1.94it/s] 44%|████▍     | 21048/48008 [3:01:06<4:13:18,  1.77it/s] 44%|████▍     | 21049/48008 [3:01:07<4:27:59,  1.68it/s] 44%|████▍     | 21050/48008 [3:01:07<4:16:01,  1.75it/s]                                                         {'loss': 4.2709, 'grad_norm': 0.15633675456047058, 'learning_rate': 0.00011231044825862355, 'epoch': 0.44} 44%|████▍     | 21050/48008 [3:01:07<4:16:01,  1.75it/s]
 44%|████▍     | 21051/48008 [3:01:08<4:06:39,  1.82it/s] 44%|████▍     | 21052/48008 [3:01:08<3:48:40,  1.96it/s] 44%|████▍     | 21053/48008 [3:01:09<3:47:37,  1.97it/s] 44%|████▍     | 21054/48008 [3:01:09<3:47:31,  1.97it/s] 44%|████▍     | 21055/48008 [3:01:10<3:47:38,  1.97it/s] 44%|████▍     | 21056/48008 [3:01:10<3:47:16,  1.98it/s] 44%|████▍     | 21057/48008 [3:01:11<3:43:47,  2.01it/s] 44%|████▍     | 21058/48008 [3:01:11<3:41:32,  2.03it/s] 44%|████▍     | 21059/48008 [3:01:12<3:31:08,  2.13it/s] 44%|████▍     | 21060/48008 [3:01:12<3:38:11,  2.06it/s] 44%|████▍     | 21061/48008 [3:01:13<3:42:26,  2.02it/s] 44%|████▍     | 21062/48008 [3:01:13<3:40:03,  2.04it/s] 44%|████▍     | 21063/48008 [3:01:14<3:29:50,  2.14it/s] 44%|████▍     | 21064/48008 [3:01:14<3:37:03,  2.07it/s] 44%|████▍     | 21065/48008 [3:01:15<5:19:41,  1.40it/s] 44%|████▍     | 21066/48008 [3:01:16<4:39:43,  1.61it/s] 44%|████▍     | 21067/48008 [3:01:16<4:23:44,  1.70it/s] 44%|████▍     | 21068/48008 [3:01:17<4:11:50,  1.78it/s] 44%|████▍     | 21069/48008 [3:01:17<3:51:34,  1.94it/s] 44%|████▍     | 21070/48008 [3:01:18<3:46:47,  1.98it/s] 44%|████▍     | 21071/48008 [3:01:18<3:51:15,  1.94it/s] 44%|████▍     | 21072/48008 [3:01:19<3:46:40,  1.98it/s] 44%|████▍     | 21073/48008 [3:01:19<3:35:07,  2.09it/s] 44%|████▍     | 21074/48008 [3:01:20<3:40:50,  2.03it/s] 44%|████▍     | 21075/48008 [3:01:20<3:30:35,  2.13it/s] 44%|████▍     | 21076/48008 [3:01:21<3:35:10,  2.09it/s] 44%|████▍     | 21077/48008 [3:01:21<3:26:37,  2.17it/s] 44%|████▍     | 21078/48008 [3:01:21<3:15:46,  2.29it/s] 44%|████▍     | 21079/48008 [3:01:22<3:22:07,  2.22it/s] 44%|████▍     | 21080/48008 [3:01:22<3:26:16,  2.18it/s] 44%|████▍     | 21081/48008 [3:01:23<3:29:38,  2.14it/s] 44%|████▍     | 21082/48008 [3:01:23<3:36:36,  2.07it/s] 44%|████▍     | 21083/48008 [3:01:24<3:36:19,  2.07it/s] 44%|████▍     | 21084/48008 [3:01:24<4:02:05,  1.85it/s] 44%|████▍     | 21085/48008 [3:01:25<3:45:18,  1.99it/s] 44%|████▍     | 21086/48008 [3:01:25<3:41:50,  2.02it/s] 44%|████▍     | 21087/48008 [3:01:26<3:47:07,  1.98it/s] 44%|████▍     | 21088/48008 [3:01:26<3:34:23,  2.09it/s] 44%|████▍     | 21089/48008 [3:01:27<3:35:03,  2.09it/s] 44%|████▍     | 21090/48008 [3:01:27<3:35:24,  2.08it/s] 44%|████▍     | 21091/48008 [3:01:28<3:40:18,  2.04it/s] 44%|████▍     | 21092/48008 [3:01:28<3:38:34,  2.05it/s] 44%|████▍     | 21093/48008 [3:01:29<3:37:38,  2.06it/s] 44%|████▍     | 21094/48008 [3:01:29<3:36:45,  2.07it/s] 44%|████▍     | 21095/48008 [3:01:30<3:35:55,  2.08it/s] 44%|████▍     | 21096/48008 [3:01:30<3:35:28,  2.08it/s] 44%|████▍     | 21097/48008 [3:01:31<3:40:26,  2.03it/s] 44%|████▍     | 21098/48008 [3:01:31<3:30:01,  2.14it/s] 44%|████▍     | 21099/48008 [3:01:32<3:31:30,  2.12it/s] 44%|████▍     | 21100/48008 [3:01:32<3:36:06,  2.08it/s]                                                         {'loss': 4.2203, 'grad_norm': 0.09423404186964035, 'learning_rate': 0.00011210214964172638, 'epoch': 0.44}
 44%|████▍     | 21100/48008 [3:01:32<3:36:06,  2.08it/s] 44%|████▍     | 21101/48008 [3:01:33<3:35:50,  2.08it/s] 44%|████▍     | 21102/48008 [3:01:33<3:26:55,  2.17it/s] 44%|████▍     | 21103/48008 [3:01:34<3:34:28,  2.09it/s] 44%|████▍     | 21104/48008 [3:01:34<3:39:48,  2.04it/s] 44%|████▍     | 21105/48008 [3:01:35<3:41:13,  2.03it/s] 44%|████▍     | 21106/48008 [3:01:35<3:39:15,  2.04it/s] 44%|████▍     | 21107/48008 [3:01:36<3:45:51,  1.99it/s] 44%|████▍     | 21108/48008 [3:01:36<4:08:38,  1.80it/s] 44%|████▍     | 21109/48008 [3:01:37<3:58:08,  1.88it/s] 44%|████▍     | 21110/48008 [3:01:37<3:51:33,  1.94it/s] 44%|████▍     | 21111/48008 [3:01:38<3:49:42,  1.95it/s] 44%|████▍     | 21112/48008 [3:01:38<3:45:17,  1.99it/s] 44%|████▍     | 21113/48008 [3:01:39<4:08:25,  1.80it/s] 44%|████▍     | 21114/48008 [3:01:39<3:58:16,  1.88it/s] 44%|████▍     | 21115/48008 [3:01:40<3:51:17,  1.94it/s] 44%|████▍     | 21116/48008 [3:01:40<3:37:42,  2.06it/s] 44%|████▍     | 21117/48008 [3:01:41<3:28:18,  2.15it/s] 44%|████▍     | 21118/48008 [3:01:41<3:33:31,  2.10it/s] 44%|████▍     | 21119/48008 [3:01:42<3:34:19,  2.09it/s] 44%|████▍     | 21120/48008 [3:01:42<3:38:11,  2.05it/s] 44%|████▍     | 21121/48008 [3:01:43<3:36:32,  2.07it/s] 44%|████▍     | 21122/48008 [3:01:43<3:27:27,  2.16it/s] 44%|████▍     | 21123/48008 [3:01:44<3:33:05,  2.10it/s] 44%|████▍     | 21124/48008 [3:01:44<3:33:49,  2.10it/s] 44%|████▍     | 21125/48008 [3:01:44<3:33:53,  2.09it/s] 44%|████▍     | 21126/48008 [3:01:45<3:25:29,  2.18it/s] 44%|████▍     | 21127/48008 [3:01:45<3:27:42,  2.16it/s] 44%|████▍     | 21128/48008 [3:01:46<3:20:38,  2.23it/s] 44%|████▍     | 21129/48008 [3:01:46<3:16:12,  2.28it/s] 44%|████▍     | 21130/48008 [3:01:47<3:21:12,  2.23it/s] 44%|████▍     | 21131/48008 [3:01:47<3:33:48,  2.10it/s] 44%|████▍     | 21132/48008 [3:01:48<3:33:42,  2.10it/s] 44%|████▍     | 21133/48008 [3:01:48<3:34:15,  2.09it/s] 44%|████▍     | 21134/48008 [3:01:49<3:33:57,  2.09it/s] 44%|████▍     | 21135/48008 [3:01:49<3:34:01,  2.09it/s] 44%|████▍     | 21136/48008 [3:01:50<3:35:08,  2.08it/s] 44%|████▍     | 21137/48008 [3:01:50<3:38:21,  2.05it/s] 44%|████▍     | 21138/48008 [3:01:51<3:28:40,  2.15it/s] 44%|████▍     | 21139/48008 [3:01:51<3:30:37,  2.13it/s] 44%|████▍     | 21140/48008 [3:01:51<3:31:26,  2.12it/s] 44%|████▍     | 21141/48008 [3:01:52<3:32:43,  2.10it/s] 44%|████▍     | 21142/48008 [3:01:52<3:39:01,  2.04it/s] 44%|████▍     | 21143/48008 [3:01:53<3:37:53,  2.05it/s] 44%|████▍     | 21144/48008 [3:01:53<3:40:18,  2.03it/s] 44%|████▍     | 21145/48008 [3:01:54<3:39:03,  2.04it/s] 44%|████▍     | 21146/48008 [3:01:54<3:24:24,  2.19it/s] 44%|████▍     | 21147/48008 [3:01:55<3:32:19,  2.11it/s] 44%|████▍     | 21148/48008 [3:01:55<3:24:23,  2.19it/s] 44%|████▍     | 21149/48008 [3:01:56<3:27:28,  2.16it/s] 44%|████▍     | 21150/48008 [3:01:56<3:29:16,  2.14it/s]                                                         {'loss': 4.2157, 'grad_norm': 0.11404489725828171, 'learning_rate': 0.00011189385102482921, 'epoch': 0.44} 44%|████▍     | 21150/48008 [3:01:56<3:29:16,  2.14it/s]
 44%|████▍     | 21151/48008 [3:01:57<3:22:12,  2.21it/s] 44%|████▍     | 21152/48008 [3:01:58<5:09:04,  1.45it/s] 44%|████▍     | 21153/48008 [3:01:58<4:41:33,  1.59it/s] 44%|████▍     | 21154/48008 [3:01:59<4:12:28,  1.77it/s] 44%|████▍     | 21155/48008 [3:01:59<4:01:01,  1.86it/s] 44%|████▍     | 21156/48008 [3:02:00<3:53:44,  1.91it/s] 44%|████▍     | 21157/48008 [3:02:00<3:48:01,  1.96it/s] 44%|████▍     | 21158/48008 [3:02:01<3:46:59,  1.97it/s] 44%|████▍     | 21159/48008 [3:02:01<3:42:58,  2.01it/s] 44%|████▍     | 21160/48008 [3:02:02<3:40:35,  2.03it/s] 44%|████▍     | 21161/48008 [3:02:02<3:39:01,  2.04it/s] 44%|████▍     | 21162/48008 [3:02:03<3:45:41,  1.98it/s] 44%|████▍     | 21163/48008 [3:02:03<3:45:48,  1.98it/s] 44%|████▍     | 21164/48008 [3:02:04<3:47:31,  1.97it/s] 44%|████▍     | 21165/48008 [3:02:04<3:35:18,  2.08it/s] 44%|████▍     | 21166/48008 [3:02:05<3:35:04,  2.08it/s] 44%|████▍     | 21167/48008 [3:02:05<3:38:48,  2.04it/s] 44%|████▍     | 21168/48008 [3:02:06<3:28:49,  2.14it/s] 44%|████▍     | 21169/48008 [3:02:06<3:30:54,  2.12it/s] 44%|████▍     | 21170/48008 [3:02:07<3:36:33,  2.07it/s] 44%|████▍     | 21171/48008 [3:02:07<3:36:11,  2.07it/s] 44%|████▍     | 21172/48008 [3:02:08<3:36:02,  2.07it/s] 44%|████▍     | 21173/48008 [3:02:08<3:38:12,  2.05it/s] 44%|████▍     | 21174/48008 [3:02:09<4:02:46,  1.84it/s] 44%|████▍     | 21175/48008 [3:02:09<3:54:35,  1.91it/s] 44%|████▍     | 21176/48008 [3:02:10<3:51:28,  1.93it/s] 44%|████▍     | 21177/48008 [3:02:10<3:37:32,  2.06it/s] 44%|████▍     | 21178/48008 [3:02:11<4:02:36,  1.84it/s] 44%|████▍     | 21179/48008 [3:02:11<3:57:17,  1.88it/s] 44%|████▍     | 21180/48008 [3:02:12<3:55:31,  1.90it/s] 44%|████▍     | 21181/48008 [3:02:12<3:49:04,  1.95it/s] 44%|████▍     | 21182/48008 [3:02:13<3:52:02,  1.93it/s] 44%|████▍     | 21183/48008 [3:02:13<3:49:43,  1.95it/s] 44%|████▍     | 21184/48008 [3:02:14<3:45:31,  1.98it/s] 44%|████▍     | 21185/48008 [3:02:14<3:45:09,  1.99it/s] 44%|████▍     | 21186/48008 [3:02:15<3:45:00,  1.99it/s] 44%|████▍     | 21187/48008 [3:02:15<3:42:02,  2.01it/s] 44%|████▍     | 21188/48008 [3:02:16<3:39:39,  2.03it/s] 44%|████▍     | 21189/48008 [3:02:16<3:38:28,  2.05it/s] 44%|████▍     | 21190/48008 [3:02:17<3:37:02,  2.06it/s] 44%|████▍     | 21191/48008 [3:02:17<3:36:06,  2.07it/s] 44%|████▍     | 21192/48008 [3:02:18<3:35:44,  2.07it/s] 44%|████▍     | 21193/48008 [3:02:18<3:26:33,  2.16it/s] 44%|████▍     | 21194/48008 [3:02:19<3:28:52,  2.14it/s] 44%|████▍     | 21195/48008 [3:02:19<3:57:08,  1.88it/s] 44%|████▍     | 21196/48008 [3:02:20<3:50:55,  1.94it/s] 44%|████▍     | 21197/48008 [3:02:20<3:45:40,  1.98it/s] 44%|████▍     | 21198/48008 [3:02:21<3:42:21,  2.01it/s] 44%|████▍     | 21199/48008 [3:02:21<3:48:01,  1.96it/s] 44%|████▍     | 21200/48008 [3:02:22<3:48:39,  1.95it/s]                                                         {'loss': 4.2387, 'grad_norm': 0.10545452684164047, 'learning_rate': 0.00011168555240793202, 'epoch': 0.44}
 44%|████▍     | 21200/48008 [3:02:22<3:48:39,  1.95it/s] 44%|████▍     | 21201/48008 [3:02:22<3:44:44,  1.99it/s] 44%|████▍     | 21202/48008 [3:02:23<3:45:32,  1.98it/s] 44%|████▍     | 21203/48008 [3:02:23<3:45:10,  1.98it/s] 44%|████▍     | 21204/48008 [3:02:24<3:45:22,  1.98it/s] 44%|████▍     | 21205/48008 [3:02:24<3:41:52,  2.01it/s] 44%|████▍     | 21206/48008 [3:02:25<3:39:37,  2.03it/s] 44%|████▍     | 21207/48008 [3:02:25<3:43:10,  2.00it/s] 44%|████▍     | 21208/48008 [3:02:26<3:42:57,  2.00it/s] 44%|████▍     | 21209/48008 [3:02:26<3:43:03,  2.00it/s] 44%|████▍     | 21210/48008 [3:02:27<3:43:27,  2.00it/s] 44%|████▍     | 21211/48008 [3:02:27<3:32:10,  2.10it/s] 44%|████▍     | 21212/48008 [3:02:28<3:32:45,  2.10it/s] 44%|████▍     | 21213/48008 [3:02:28<3:36:36,  2.06it/s] 44%|████▍     | 21214/48008 [3:02:29<5:19:02,  1.40it/s] 44%|████▍     | 21215/48008 [3:02:30<4:55:28,  1.51it/s] 44%|████▍     | 21216/48008 [3:02:30<4:30:42,  1.65it/s] 44%|████▍     | 21217/48008 [3:02:31<4:14:07,  1.76it/s] 44%|████▍     | 21218/48008 [3:02:31<3:53:43,  1.91it/s] 44%|████▍     | 21219/48008 [3:02:32<3:39:27,  2.03it/s] 44%|████▍     | 21220/48008 [3:02:32<3:41:18,  2.02it/s] 44%|████▍     | 21221/48008 [3:02:33<3:30:28,  2.12it/s] 44%|████▍     | 21222/48008 [3:02:33<3:35:26,  2.07it/s] 44%|████▍     | 21223/48008 [3:02:34<3:26:29,  2.16it/s] 44%|████▍     | 21224/48008 [3:02:34<3:32:09,  2.10it/s] 44%|████▍     | 21225/48008 [3:02:35<3:58:41,  1.87it/s] 44%|████▍     | 21226/48008 [3:02:35<3:51:21,  1.93it/s] 44%|████▍     | 21227/48008 [3:02:36<3:54:00,  1.91it/s] 44%|████▍     | 21228/48008 [3:02:36<3:52:46,  1.92it/s] 44%|████▍     | 21229/48008 [3:02:37<3:47:31,  1.96it/s] 44%|████▍     | 21230/48008 [3:02:37<3:43:48,  1.99it/s] 44%|████▍     | 21231/48008 [3:02:38<3:44:37,  1.99it/s] 44%|████▍     | 21232/48008 [3:02:38<3:41:54,  2.01it/s] 44%|████▍     | 21233/48008 [3:02:39<3:43:10,  2.00it/s] 44%|████▍     | 21234/48008 [3:02:39<3:40:19,  2.03it/s] 44%|████▍     | 21235/48008 [3:02:40<3:38:33,  2.04it/s] 44%|████▍     | 21236/48008 [3:02:40<3:37:43,  2.05it/s] 44%|████▍     | 21237/48008 [3:02:41<3:44:02,  1.99it/s] 44%|████▍     | 21238/48008 [3:02:41<3:44:16,  1.99it/s] 44%|████▍     | 21239/48008 [3:02:42<3:43:45,  1.99it/s] 44%|████▍     | 21240/48008 [3:02:43<5:25:04,  1.37it/s] 44%|████▍     | 21241/48008 [3:02:43<4:54:47,  1.51it/s] 44%|████▍     | 21242/48008 [3:02:44<4:33:32,  1.63it/s] 44%|████▍     | 21243/48008 [3:02:44<4:06:56,  1.81it/s] 44%|████▍     | 21244/48008 [3:02:45<4:05:01,  1.82it/s] 44%|████▍     | 21245/48008 [3:02:45<3:47:07,  1.96it/s] 44%|████▍     | 21246/48008 [3:02:46<3:46:01,  1.97it/s] 44%|████▍     | 21247/48008 [3:02:46<3:42:29,  2.00it/s] 44%|████▍     | 21248/48008 [3:02:47<3:40:00,  2.03it/s] 44%|████▍     | 21249/48008 [3:02:47<3:29:33,  2.13it/s] 44%|████▍     | 21250/48008 [3:02:48<3:30:32,  2.12it/s]                                                         {'loss': 4.2378, 'grad_norm': 0.10071592032909393, 'learning_rate': 0.00011147725379103484, 'epoch': 0.44}
 44%|████▍     | 21250/48008 [3:02:48<3:30:32,  2.12it/s] 44%|████▍     | 21251/48008 [3:02:48<3:31:57,  2.10it/s] 44%|████▍     | 21252/48008 [3:02:49<3:35:02,  2.07it/s] 44%|████▍     | 21253/48008 [3:02:49<3:39:44,  2.03it/s] 44%|████▍     | 21254/48008 [3:02:50<3:42:38,  2.00it/s] 44%|████▍     | 21255/48008 [3:02:50<3:31:17,  2.11it/s] 44%|████▍     | 21256/48008 [3:02:51<3:37:01,  2.05it/s] 44%|████▍     | 21257/48008 [3:02:51<3:38:52,  2.04it/s] 44%|████▍     | 21258/48008 [3:02:52<3:28:38,  2.14it/s] 44%|████▍     | 21259/48008 [3:02:52<3:30:29,  2.12it/s] 44%|████▍     | 21260/48008 [3:02:52<3:23:13,  2.19it/s] 44%|████▍     | 21261/48008 [3:02:53<3:26:11,  2.16it/s] 44%|████▍     | 21262/48008 [3:02:54<4:21:04,  1.71it/s] 44%|████▍     | 21263/48008 [3:02:54<3:58:17,  1.87it/s] 44%|████▍     | 21264/48008 [3:02:55<3:55:45,  1.89it/s] 44%|████▍     | 21265/48008 [3:02:55<3:40:48,  2.02it/s] 44%|████▍     | 21266/48008 [3:02:56<3:41:50,  2.01it/s] 44%|████▍     | 21267/48008 [3:02:56<3:39:36,  2.03it/s] 44%|████▍     | 21268/48008 [3:02:57<3:40:56,  2.02it/s] 44%|████▍     | 21269/48008 [3:02:58<5:22:55,  1.38it/s] 44%|████▍     | 21270/48008 [3:02:58<4:49:57,  1.54it/s] 44%|████▍     | 21271/48008 [3:02:59<4:30:29,  1.65it/s] 44%|████▍     | 21272/48008 [3:03:00<5:56:38,  1.25it/s] 44%|████▍     | 21273/48008 [3:03:01<5:13:52,  1.42it/s] 44%|████▍     | 21274/48008 [3:03:01<4:51:41,  1.53it/s] 44%|████▍     | 21275/48008 [3:03:02<4:28:06,  1.66it/s] 44%|████▍     | 21276/48008 [3:03:02<4:14:56,  1.75it/s] 44%|████▍     | 21277/48008 [3:03:03<4:05:54,  1.81it/s] 44%|████▍     | 21278/48008 [3:03:03<3:59:09,  1.86it/s] 44%|████▍     | 21279/48008 [3:03:04<3:51:41,  1.92it/s] 44%|████▍     | 21280/48008 [3:03:04<3:46:29,  1.97it/s] 44%|████▍     | 21281/48008 [3:03:04<3:33:53,  2.08it/s] 44%|████▍     | 21282/48008 [3:03:05<3:36:51,  2.05it/s] 44%|████▍     | 21283/48008 [3:03:06<3:43:25,  1.99it/s] 44%|████▍     | 21284/48008 [3:03:06<4:06:58,  1.80it/s] 44%|████▍     | 21285/48008 [3:03:07<3:59:44,  1.86it/s] 44%|████▍     | 21286/48008 [3:03:07<3:51:38,  1.92it/s] 44%|████▍     | 21287/48008 [3:03:08<3:49:15,  1.94it/s] 44%|████▍     | 21288/48008 [3:03:08<3:44:42,  1.98it/s] 44%|████▍     | 21289/48008 [3:03:09<3:41:25,  2.01it/s] 44%|████▍     | 21290/48008 [3:03:09<3:39:13,  2.03it/s] 44%|████▍     | 21291/48008 [3:03:10<3:28:15,  2.14it/s] 44%|████▍     | 21292/48008 [3:03:10<3:29:22,  2.13it/s] 44%|████▍     | 21293/48008 [3:03:10<3:30:31,  2.11it/s] 44%|████▍     | 21294/48008 [3:03:11<3:33:58,  2.08it/s] 44%|████▍     | 21295/48008 [3:03:11<3:34:10,  2.08it/s] 44%|████▍     | 21296/48008 [3:03:12<3:34:11,  2.08it/s] 44%|████▍     | 21297/48008 [3:03:12<3:36:38,  2.05it/s] 44%|████▍     | 21298/48008 [3:03:13<3:35:56,  2.06it/s] 44%|████▍     | 21299/48008 [3:03:14<4:28:59,  1.65it/s] 44%|████▍     | 21300/48008 [3:03:14<4:12:15,  1.76it/s]                                                         {'loss': 4.306, 'grad_norm': 0.10500216484069824, 'learning_rate': 0.00011126895517413764, 'epoch': 0.44}
 44%|████▍     | 21300/48008 [3:03:14<4:12:15,  1.76it/s] 44%|████▍     | 21301/48008 [3:03:16<5:43:31,  1.30it/s] 44%|████▍     | 21302/48008 [3:03:16<5:07:05,  1.45it/s] 44%|████▍     | 21303/48008 [3:03:17<4:38:57,  1.60it/s] 44%|████▍     | 21304/48008 [3:03:17<4:45:01,  1.56it/s] 44%|████▍     | 21305/48008 [3:03:18<4:26:34,  1.67it/s] 44%|████▍     | 21306/48008 [3:03:18<4:37:07,  1.61it/s] 44%|████▍     | 21307/48008 [3:03:19<4:09:35,  1.78it/s] 44%|████▍     | 21308/48008 [3:03:19<4:01:47,  1.84it/s] 44%|████▍     | 21309/48008 [3:03:20<3:52:58,  1.91it/s] 44%|████▍     | 21310/48008 [3:03:20<3:47:00,  1.96it/s] 44%|████▍     | 21311/48008 [3:03:21<3:43:06,  1.99it/s] 44%|████▍     | 21312/48008 [3:03:21<3:44:00,  1.99it/s] 44%|████▍     | 21313/48008 [3:03:22<3:32:22,  2.09it/s] 44%|████▍     | 21314/48008 [3:03:22<3:32:42,  2.09it/s] 44%|████▍     | 21315/48008 [3:03:23<3:32:34,  2.09it/s] 44%|████▍     | 21316/48008 [3:03:23<3:35:47,  2.06it/s] 44%|████▍     | 21317/48008 [3:03:24<3:39:54,  2.02it/s] 44%|████▍     | 21318/48008 [3:03:24<3:40:39,  2.02it/s] 44%|████▍     | 21319/48008 [3:03:25<3:38:37,  2.03it/s] 44%|████▍     | 21320/48008 [3:03:25<3:27:47,  2.14it/s] 44%|████▍     | 21321/48008 [3:03:26<3:34:27,  2.07it/s] 44%|████▍     | 21322/48008 [3:03:26<3:37:04,  2.05it/s] 44%|████▍     | 21323/48008 [3:03:26<3:26:57,  2.15it/s] 44%|████▍     | 21324/48008 [3:03:27<3:32:13,  2.10it/s] 44%|████▍     | 21325/48008 [3:03:27<3:35:31,  2.06it/s] 44%|████▍     | 21326/48008 [3:03:28<4:01:23,  1.84it/s] 44%|████▍     | 21327/48008 [3:03:29<3:53:27,  1.90it/s] 44%|████▍     | 21328/48008 [3:03:29<3:47:05,  1.96it/s] 44%|████▍     | 21329/48008 [3:03:30<3:43:44,  1.99it/s] 44%|████▍     | 21330/48008 [3:03:30<3:41:19,  2.01it/s] 44%|████▍     | 21331/48008 [3:03:31<3:41:32,  2.01it/s] 44%|████▍     | 21332/48008 [3:03:31<3:42:32,  2.00it/s] 44%|████▍     | 21333/48008 [3:03:32<3:45:38,  1.97it/s] 44%|████▍     | 21334/48008 [3:03:32<3:41:52,  2.00it/s] 44%|████▍     | 21335/48008 [3:03:33<4:05:25,  1.81it/s] 44%|████▍     | 21336/48008 [3:03:33<3:47:20,  1.96it/s] 44%|████▍     | 21337/48008 [3:03:34<3:43:34,  1.99it/s] 44%|████▍     | 21338/48008 [3:03:34<3:31:56,  2.10it/s] 44%|████▍     | 21339/48008 [3:03:35<3:35:10,  2.07it/s] 44%|████▍     | 21340/48008 [3:03:35<3:35:17,  2.06it/s] 44%|████▍     | 21341/48008 [3:03:35<3:26:08,  2.16it/s] 44%|████▍     | 21342/48008 [3:03:36<3:29:36,  2.12it/s] 44%|████▍     | 21343/48008 [3:03:36<3:30:44,  2.11it/s] 44%|████▍     | 21344/48008 [3:03:37<3:36:14,  2.06it/s] 44%|████▍     | 21345/48008 [3:03:38<4:01:45,  1.84it/s] 44%|████▍     | 21346/48008 [3:03:38<3:53:29,  1.90it/s] 44%|████▍     | 21347/48008 [3:03:39<3:47:50,  1.95it/s] 44%|████▍     | 21348/48008 [3:03:39<3:35:10,  2.07it/s] 44%|████▍     | 21349/48008 [3:03:40<3:34:21,  2.07it/s] 44%|████▍     | 21350/48008 [3:03:40<3:33:55,  2.08it/s]                                                         {'loss': 4.2709, 'grad_norm': 0.10616964846849442, 'learning_rate': 0.00011106065655724047, 'epoch': 0.44}
 44%|████▍     | 21350/48008 [3:03:40<3:33:55,  2.08it/s] 44%|████▍     | 21351/48008 [3:03:40<3:34:31,  2.07it/s] 44%|████▍     | 21352/48008 [3:03:41<3:39:52,  2.02it/s] 44%|████▍     | 21353/48008 [3:03:41<3:41:17,  2.01it/s] 44%|████▍     | 21354/48008 [3:03:42<3:39:22,  2.03it/s] 44%|████▍     | 21355/48008 [3:03:42<3:36:54,  2.05it/s] 44%|████▍     | 21356/48008 [3:03:43<3:38:22,  2.03it/s] 44%|████▍     | 21357/48008 [3:03:43<3:28:13,  2.13it/s] 44%|████▍     | 21358/48008 [3:03:44<3:30:12,  2.11it/s] 44%|████▍     | 21359/48008 [3:03:44<3:30:51,  2.11it/s] 44%|████▍     | 21360/48008 [3:03:45<3:31:38,  2.10it/s] 44%|████▍     | 21361/48008 [3:03:45<3:32:16,  2.09it/s] 44%|████▍     | 21362/48008 [3:03:46<3:35:42,  2.06it/s] 44%|████▍     | 21363/48008 [3:03:46<3:40:34,  2.01it/s] 45%|████▍     | 21364/48008 [3:03:47<3:38:22,  2.03it/s] 45%|████▍     | 21365/48008 [3:03:47<3:36:56,  2.05it/s] 45%|████▍     | 21366/48008 [3:03:48<3:35:59,  2.06it/s] 45%|████▍     | 21367/48008 [3:03:48<3:34:50,  2.07it/s] 45%|████▍     | 21368/48008 [3:03:49<3:37:47,  2.04it/s] 45%|████▍     | 21369/48008 [3:03:49<3:36:39,  2.05it/s] 45%|████▍     | 21370/48008 [3:03:50<4:28:51,  1.65it/s] 45%|████▍     | 21371/48008 [3:03:51<4:15:24,  1.74it/s] 45%|████▍     | 21372/48008 [3:03:51<4:05:30,  1.81it/s] 45%|████▍     | 21373/48008 [3:03:52<3:47:15,  1.95it/s] 45%|████▍     | 21374/48008 [3:03:52<3:46:23,  1.96it/s] 45%|████▍     | 21375/48008 [3:03:53<3:45:48,  1.97it/s] 45%|████▍     | 21376/48008 [3:03:53<3:49:34,  1.93it/s] 45%|████▍     | 21377/48008 [3:03:54<3:48:05,  1.95it/s] 45%|████▍     | 21378/48008 [3:03:54<3:34:56,  2.06it/s] 45%|████▍     | 21379/48008 [3:03:54<3:34:34,  2.07it/s] 45%|████▍     | 21380/48008 [3:03:55<3:34:35,  2.07it/s] 45%|████▍     | 21381/48008 [3:03:55<3:34:06,  2.07it/s] 45%|████▍     | 21382/48008 [3:03:56<3:33:33,  2.08it/s] 45%|████▍     | 21383/48008 [3:03:56<3:33:18,  2.08it/s] 45%|████▍     | 21384/48008 [3:03:57<3:36:02,  2.05it/s] 45%|████▍     | 21385/48008 [3:03:57<3:34:59,  2.06it/s] 45%|████▍     | 21386/48008 [3:03:58<3:33:45,  2.08it/s] 45%|████▍     | 21387/48008 [3:03:58<3:40:47,  2.01it/s] 45%|████▍     | 21388/48008 [3:03:59<3:43:49,  1.98it/s] 45%|████▍     | 21389/48008 [3:03:59<3:40:49,  2.01it/s] 45%|████▍     | 21390/48008 [3:04:00<3:29:43,  2.12it/s] 45%|████▍     | 21391/48008 [3:04:00<3:35:17,  2.06it/s] 45%|████▍     | 21392/48008 [3:04:01<3:25:21,  2.16it/s] 45%|████▍     | 21393/48008 [3:04:02<4:39:32,  1.59it/s] 45%|████▍     | 21394/48008 [3:04:02<4:27:02,  1.66it/s] 45%|████▍     | 21395/48008 [3:04:03<4:02:24,  1.83it/s] 45%|████▍     | 21396/48008 [3:04:03<3:54:06,  1.89it/s] 45%|████▍     | 21397/48008 [3:04:04<3:50:48,  1.92it/s] 45%|████▍     | 21398/48008 [3:04:04<3:36:44,  2.05it/s] 45%|████▍     | 21399/48008 [3:04:05<3:38:33,  2.03it/s] 45%|████▍     | 21400/48008 [3:04:05<3:39:42,  2.02it/s]                                                         {'loss': 4.2435, 'grad_norm': 0.09534292668104172, 'learning_rate': 0.00011085235794034327, 'epoch': 0.45}
 45%|████▍     | 21400/48008 [3:04:05<3:39:42,  2.02it/s] 45%|████▍     | 21401/48008 [3:04:06<3:45:15,  1.97it/s] 45%|████▍     | 21402/48008 [3:04:06<3:41:49,  2.00it/s] 45%|████▍     | 21403/48008 [3:04:07<3:39:33,  2.02it/s] 45%|████▍     | 21404/48008 [3:04:07<3:37:18,  2.04it/s] 45%|████▍     | 21405/48008 [3:04:08<3:43:16,  1.99it/s] 45%|████▍     | 21406/48008 [3:04:08<3:43:02,  1.99it/s] 45%|████▍     | 21407/48008 [3:04:09<3:39:49,  2.02it/s] 45%|████▍     | 21408/48008 [3:04:09<3:41:06,  2.01it/s] 45%|████▍     | 21409/48008 [3:04:10<3:41:15,  2.00it/s] 45%|████▍     | 21410/48008 [3:04:10<3:38:41,  2.03it/s] 45%|████▍     | 21411/48008 [3:04:11<3:28:26,  2.13it/s] 45%|████▍     | 21412/48008 [3:04:11<3:20:56,  2.21it/s] 45%|████▍     | 21413/48008 [3:04:11<3:24:28,  2.17it/s] 45%|████▍     | 21414/48008 [3:04:12<3:27:21,  2.14it/s] 45%|████▍     | 21415/48008 [3:04:12<3:32:22,  2.09it/s] 45%|████▍     | 21416/48008 [3:04:13<3:32:56,  2.08it/s] 45%|████▍     | 21417/48008 [3:04:13<3:24:14,  2.17it/s] 45%|████▍     | 21418/48008 [3:04:14<3:26:33,  2.15it/s] 45%|████▍     | 21419/48008 [3:04:14<3:19:16,  2.22it/s] 45%|████▍     | 21420/48008 [3:04:15<3:23:49,  2.17it/s] 45%|████▍     | 21421/48008 [3:04:15<3:26:03,  2.15it/s] 45%|████▍     | 21422/48008 [3:04:16<3:19:45,  2.22it/s] 45%|████▍     | 21423/48008 [3:04:16<3:26:47,  2.14it/s] 45%|████▍     | 21424/48008 [3:04:17<3:31:40,  2.09it/s] 45%|████▍     | 21425/48008 [3:04:17<3:37:34,  2.04it/s] 45%|████▍     | 21426/48008 [3:04:18<3:36:39,  2.04it/s] 45%|████▍     | 21427/48008 [3:04:18<3:39:00,  2.02it/s] 45%|████▍     | 21428/48008 [3:04:19<3:40:27,  2.01it/s] 45%|████▍     | 21429/48008 [3:04:19<3:38:03,  2.03it/s] 45%|████▍     | 21430/48008 [3:04:19<3:27:43,  2.13it/s] 45%|████▍     | 21431/48008 [3:04:20<3:29:35,  2.11it/s] 45%|████▍     | 21432/48008 [3:04:20<3:33:05,  2.08it/s] 45%|████▍     | 21433/48008 [3:04:21<3:24:46,  2.16it/s] 45%|████▍     | 21434/48008 [3:04:21<3:31:02,  2.10it/s] 45%|████▍     | 21435/48008 [3:04:22<3:31:43,  2.09it/s] 45%|████▍     | 21436/48008 [3:04:22<3:32:03,  2.09it/s] 45%|████▍     | 21437/48008 [3:04:23<3:32:54,  2.08it/s] 45%|████▍     | 21438/48008 [3:04:23<3:32:30,  2.08it/s] 45%|████▍     | 21439/48008 [3:04:24<3:33:03,  2.08it/s] 45%|████▍     | 21440/48008 [3:04:24<3:37:58,  2.03it/s] 45%|████▍     | 21441/48008 [3:04:25<3:22:57,  2.18it/s] 45%|████▍     | 21442/48008 [3:04:25<3:25:49,  2.15it/s] 45%|████▍     | 21443/48008 [3:04:26<3:27:20,  2.14it/s] 45%|████▍     | 21444/48008 [3:04:26<3:20:04,  2.21it/s] 45%|████▍     | 21445/48008 [3:04:27<3:23:12,  2.18it/s] 45%|████▍     | 21446/48008 [3:04:27<3:25:55,  2.15it/s] 45%|████▍     | 21447/48008 [3:04:28<3:33:12,  2.08it/s] 45%|████▍     | 21448/48008 [3:04:29<5:16:08,  1.40it/s] 45%|████▍     | 21449/48008 [3:04:29<4:36:41,  1.60it/s] 45%|████▍     | 21450/48008 [3:04:30<4:08:48,  1.78it/s]                                                         {'loss': 4.2453, 'grad_norm': 0.12183956801891327, 'learning_rate': 0.0001106440593234461, 'epoch': 0.45}
 45%|████▍     | 21450/48008 [3:04:30<4:08:48,  1.78it/s] 45%|████▍     | 21451/48008 [3:04:30<4:01:20,  1.83it/s] 45%|████▍     | 21452/48008 [3:04:31<3:57:32,  1.86it/s] 45%|████▍     | 21453/48008 [3:04:31<3:49:27,  1.93it/s] 45%|████▍     | 21454/48008 [3:04:32<3:44:02,  1.98it/s] 45%|████▍     | 21455/48008 [3:04:32<3:40:27,  2.01it/s] 45%|████▍     | 21456/48008 [3:04:33<3:37:53,  2.03it/s] 45%|████▍     | 21457/48008 [3:04:33<3:44:13,  1.97it/s] 45%|████▍     | 21458/48008 [3:04:34<3:45:54,  1.96it/s] 45%|████▍     | 21459/48008 [3:04:34<3:41:38,  2.00it/s] 45%|████▍     | 21460/48008 [3:04:35<3:44:22,  1.97it/s] 45%|████▍     | 21461/48008 [3:04:35<3:41:05,  2.00it/s] 45%|████▍     | 21462/48008 [3:04:36<3:38:42,  2.02it/s] 45%|████▍     | 21463/48008 [3:04:36<3:39:59,  2.01it/s] 45%|████▍     | 21464/48008 [3:04:37<4:03:18,  1.82it/s] 45%|████▍     | 21465/48008 [3:04:37<3:57:14,  1.86it/s] 45%|████▍     | 21466/48008 [3:04:38<4:42:19,  1.57it/s] 45%|████▍     | 21467/48008 [3:04:39<4:28:53,  1.65it/s] 45%|████▍     | 21468/48008 [3:04:39<4:17:33,  1.72it/s] 45%|████▍     | 21469/48008 [3:04:40<4:03:56,  1.81it/s] 45%|████▍     | 21470/48008 [3:04:40<3:45:55,  1.96it/s] 45%|████▍     | 21471/48008 [3:04:41<3:45:04,  1.97it/s] 45%|████▍     | 21472/48008 [3:04:41<3:41:38,  2.00it/s] 45%|████▍     | 21473/48008 [3:04:42<3:29:44,  2.11it/s] 45%|████▍     | 21474/48008 [3:04:42<3:30:26,  2.10it/s] 45%|████▍     | 21475/48008 [3:04:42<3:34:32,  2.06it/s] 45%|████▍     | 21476/48008 [3:04:43<3:39:21,  2.02it/s] 45%|████▍     | 21477/48008 [3:04:43<3:28:46,  2.12it/s] 45%|████▍     | 21478/48008 [3:04:44<3:29:50,  2.11it/s] 45%|████▍     | 21479/48008 [3:04:44<3:34:18,  2.06it/s] 45%|████▍     | 21480/48008 [3:04:45<3:41:50,  1.99it/s] 45%|████▍     | 21481/48008 [3:04:45<3:39:06,  2.02it/s] 45%|████▍     | 21482/48008 [3:04:46<3:40:49,  2.00it/s] 45%|████▍     | 21483/48008 [3:04:46<3:38:08,  2.03it/s] 45%|████▍     | 21484/48008 [3:04:47<3:36:18,  2.04it/s] 45%|████▍     | 21485/48008 [3:04:47<3:42:39,  1.99it/s] 45%|████▍     | 21486/48008 [3:04:48<3:42:50,  1.98it/s] 45%|████▍     | 21487/48008 [3:04:48<3:39:47,  2.01it/s] 45%|████▍     | 21488/48008 [3:04:49<3:37:19,  2.03it/s] 45%|████▍     | 21489/48008 [3:04:50<4:01:52,  1.83it/s] 45%|████▍     | 21490/48008 [3:04:50<4:18:05,  1.71it/s] 45%|████▍     | 21491/48008 [3:04:51<4:04:20,  1.81it/s] 45%|████▍     | 21492/48008 [3:04:51<3:54:33,  1.88it/s] 45%|████▍     | 21493/48008 [3:04:52<3:48:21,  1.94it/s] 45%|████▍     | 21494/48008 [3:04:52<4:09:21,  1.77it/s] 45%|████▍     | 21495/48008 [3:04:53<3:58:17,  1.85it/s] 45%|████▍     | 21496/48008 [3:04:53<3:54:04,  1.89it/s] 45%|████▍     | 21497/48008 [3:04:54<3:47:10,  1.95it/s] 45%|████▍     | 21498/48008 [3:04:54<3:42:57,  1.98it/s] 45%|████▍     | 21499/48008 [3:04:55<3:31:41,  2.09it/s] 45%|████▍     | 21500/48008 [3:04:55<3:32:00,  2.08it/s]                                                         {'loss': 4.3007, 'grad_norm': 0.10172649472951889, 'learning_rate': 0.00011043576070654891, 'epoch': 0.45}
 45%|████▍     | 21500/48008 [3:04:55<3:32:00,  2.08it/s] 45%|████▍     | 21501/48008 [3:04:56<3:37:35,  2.03it/s] 45%|████▍     | 21502/48008 [3:04:56<3:36:02,  2.04it/s] 45%|████▍     | 21503/48008 [3:04:58<5:41:56,  1.29it/s] 45%|████▍     | 21504/48008 [3:04:58<5:02:32,  1.46it/s] 45%|████▍     | 21505/48008 [3:04:59<4:41:08,  1.57it/s] 45%|████▍     | 21506/48008 [3:04:59<4:20:51,  1.69it/s] 45%|████▍     | 21507/48008 [3:05:00<3:57:56,  1.86it/s] 45%|████▍     | 21508/48008 [3:05:00<3:54:42,  1.88it/s] 45%|████▍     | 21509/48008 [3:05:02<6:17:55,  1.17it/s] 45%|████▍     | 21510/48008 [3:05:02<5:32:50,  1.33it/s] 45%|████▍     | 21511/48008 [3:05:03<4:59:51,  1.47it/s] 45%|████▍     | 21512/48008 [3:05:03<4:36:30,  1.60it/s] 45%|████▍     | 21513/48008 [3:05:04<4:17:12,  1.72it/s] 45%|████▍     | 21514/48008 [3:05:04<4:09:01,  1.77it/s] 45%|████▍     | 21515/48008 [3:05:05<5:13:18,  1.41it/s] 45%|████▍     | 21516/48008 [3:05:06<4:42:49,  1.56it/s] 45%|████▍     | 21517/48008 [3:05:06<4:24:23,  1.67it/s] 45%|████▍     | 21518/48008 [3:05:07<4:11:37,  1.75it/s] 45%|████▍     | 21519/48008 [3:05:07<3:51:13,  1.91it/s] 45%|████▍     | 21520/48008 [3:05:08<3:36:44,  2.04it/s] 45%|████▍     | 21521/48008 [3:05:08<3:43:00,  1.98it/s] 45%|████▍     | 21522/48008 [3:05:09<3:42:51,  1.98it/s] 45%|████▍     | 21523/48008 [3:05:09<3:47:24,  1.94it/s] 45%|████▍     | 21524/48008 [3:05:10<3:47:36,  1.94it/s] 45%|████▍     | 21525/48008 [3:05:10<3:50:26,  1.92it/s] 45%|████▍     | 21526/48008 [3:05:11<3:44:38,  1.96it/s] 45%|████▍     | 21527/48008 [3:05:11<3:32:06,  2.08it/s] 45%|████▍     | 21528/48008 [3:05:12<3:32:28,  2.08it/s] 45%|████▍     | 21529/48008 [3:05:12<3:37:35,  2.03it/s] 45%|████▍     | 21530/48008 [3:05:13<3:36:21,  2.04it/s] 45%|████▍     | 21531/48008 [3:05:13<3:26:05,  2.14it/s] 45%|████▍     | 21532/48008 [3:05:14<3:30:08,  2.10it/s] 45%|████▍     | 21533/48008 [3:05:14<3:33:45,  2.06it/s] 45%|████▍     | 21534/48008 [3:05:14<3:24:40,  2.16it/s] 45%|████▍     | 21535/48008 [3:05:15<3:27:00,  2.13it/s] 45%|████▍     | 21536/48008 [3:05:15<3:28:41,  2.11it/s] 45%|████▍     | 21537/48008 [3:05:16<3:29:27,  2.11it/s] 45%|████▍     | 21538/48008 [3:05:16<3:30:06,  2.10it/s] 45%|████▍     | 21539/48008 [3:05:17<3:30:52,  2.09it/s] 45%|████▍     | 21540/48008 [3:05:17<3:30:48,  2.09it/s] 45%|████▍     | 21541/48008 [3:05:18<3:31:43,  2.08it/s] 45%|████▍     | 21542/48008 [3:05:18<3:22:55,  2.17it/s] 45%|████▍     | 21543/48008 [3:05:19<3:28:05,  2.12it/s] 45%|████▍     | 21544/48008 [3:05:19<3:34:07,  2.06it/s] 45%|████▍     | 21545/48008 [3:05:20<3:58:33,  1.85it/s] 45%|████▍     | 21546/48008 [3:05:20<3:49:47,  1.92it/s] 45%|████▍     | 21547/48008 [3:05:21<3:44:33,  1.96it/s] 45%|████▍     | 21548/48008 [3:05:22<4:05:49,  1.79it/s] 45%|████▍     | 21549/48008 [3:05:22<3:55:11,  1.87it/s] 45%|████▍     | 21550/48008 [3:05:23<4:13:42,  1.74it/s]                                                         {'loss': 4.2775, 'grad_norm': 0.0905095562338829, 'learning_rate': 0.00011022746208965174, 'epoch': 0.45}
 45%|████▍     | 21550/48008 [3:05:23<4:13:42,  1.74it/s] 45%|████▍     | 21551/48008 [3:05:23<4:06:10,  1.79it/s] 45%|████▍     | 21552/48008 [3:05:24<3:55:46,  1.87it/s] 45%|████▍     | 21553/48008 [3:05:24<3:39:20,  2.01it/s] 45%|████▍     | 21554/48008 [3:05:25<3:44:25,  1.96it/s] 45%|████▍     | 21555/48008 [3:05:25<3:43:14,  1.97it/s] 45%|████▍     | 21556/48008 [3:05:26<3:39:42,  2.01it/s] 45%|████▍     | 21557/48008 [3:05:26<3:37:07,  2.03it/s] 45%|████▍     | 21558/48008 [3:05:27<3:35:48,  2.04it/s] 45%|████▍     | 21559/48008 [3:05:27<3:42:13,  1.98it/s] 45%|████▍     | 21560/48008 [3:05:28<3:44:29,  1.96it/s] 45%|████▍     | 21561/48008 [3:05:28<3:48:24,  1.93it/s] 45%|████▍     | 21562/48008 [3:05:29<3:46:28,  1.95it/s] 45%|████▍     | 21563/48008 [3:05:29<3:33:41,  2.06it/s] 45%|████▍     | 21564/48008 [3:05:30<3:59:11,  1.84it/s] 45%|████▍     | 21565/48008 [3:05:30<3:54:16,  1.88it/s] 45%|████▍     | 21566/48008 [3:05:31<3:48:24,  1.93it/s] 45%|████▍     | 21567/48008 [3:05:31<3:46:01,  1.95it/s] 45%|████▍     | 21568/48008 [3:05:32<3:42:42,  1.98it/s] 45%|████▍     | 21569/48008 [3:05:32<3:44:08,  1.97it/s] 45%|████▍     | 21570/48008 [3:05:33<3:48:09,  1.93it/s] 45%|████▍     | 21571/48008 [3:05:33<3:43:27,  1.97it/s] 45%|████▍     | 21572/48008 [3:05:34<3:40:30,  2.00it/s] 45%|████▍     | 21573/48008 [3:05:34<3:40:55,  1.99it/s] 45%|████▍     | 21574/48008 [3:05:35<3:29:40,  2.10it/s] 45%|████▍     | 21575/48008 [3:05:35<3:38:32,  2.02it/s] 45%|████▍     | 21576/48008 [3:05:36<3:35:58,  2.04it/s] 45%|████▍     | 21577/48008 [3:05:36<3:35:54,  2.04it/s] 45%|████▍     | 21578/48008 [3:05:37<3:26:24,  2.13it/s] 45%|████▍     | 21579/48008 [3:05:37<4:21:28,  1.68it/s] 45%|████▍     | 21580/48008 [3:05:38<4:07:01,  1.78it/s] 45%|████▍     | 21581/48008 [3:05:39<4:02:07,  1.82it/s] 45%|████▍     | 21582/48008 [3:05:39<3:58:02,  1.85it/s] 45%|████▍     | 21583/48008 [3:05:40<3:58:28,  1.85it/s] 45%|████▍     | 21584/48008 [3:05:40<3:50:26,  1.91it/s] 45%|████▍     | 21585/48008 [3:05:41<3:45:30,  1.95it/s] 45%|████▍     | 21586/48008 [3:05:41<3:41:46,  1.99it/s] 45%|████▍     | 21587/48008 [3:05:42<3:43:43,  1.97it/s] 45%|████▍     | 21588/48008 [3:05:42<3:31:44,  2.08it/s] 45%|████▍     | 21589/48008 [3:05:42<3:31:23,  2.08it/s] 45%|████▍     | 21590/48008 [3:05:43<3:23:05,  2.17it/s] 45%|████▍     | 21591/48008 [3:05:43<3:28:25,  2.11it/s] 45%|████▍     | 21592/48008 [3:05:44<3:31:39,  2.08it/s] 45%|████▍     | 21593/48008 [3:05:44<3:31:23,  2.08it/s] 45%|████▍     | 21594/48008 [3:05:45<3:30:39,  2.09it/s] 45%|████▍     | 21595/48008 [3:05:45<3:36:10,  2.04it/s] 45%|████▍     | 21596/48008 [3:05:46<3:42:37,  1.98it/s] 45%|████▍     | 21597/48008 [3:05:46<3:31:13,  2.08it/s] 45%|████▍     | 21598/48008 [3:05:47<3:34:34,  2.05it/s] 45%|████▍     | 21599/48008 [3:05:47<3:25:27,  2.14it/s] 45%|████▍     | 21600/48008 [3:05:48<3:18:48,  2.21it/s]                                                         {'loss': 4.2614, 'grad_norm': 0.1058778315782547, 'learning_rate': 0.00011001916347275454, 'epoch': 0.45}
 45%|████▍     | 21600/48008 [3:05:48<3:18:48,  2.21it/s] 45%|████▍     | 21601/48008 [3:05:48<3:23:03,  2.17it/s] 45%|████▍     | 21602/48008 [3:05:49<3:28:50,  2.11it/s] 45%|████▍     | 21603/48008 [3:05:49<3:34:05,  2.06it/s] 45%|████▌     | 21604/48008 [3:05:50<3:36:30,  2.03it/s] 45%|████▌     | 21605/48008 [3:05:50<3:37:54,  2.02it/s] 45%|████▌     | 21606/48008 [3:05:51<3:35:55,  2.04it/s] 45%|████▌     | 21607/48008 [3:05:51<3:35:11,  2.04it/s] 45%|████▌     | 21608/48008 [3:05:52<3:25:40,  2.14it/s] 45%|████▌     | 21609/48008 [3:05:52<3:30:19,  2.09it/s] 45%|████▌     | 21610/48008 [3:05:52<3:30:58,  2.09it/s] 45%|████▌     | 21611/48008 [3:05:53<3:30:58,  2.09it/s] 45%|████▌     | 21612/48008 [3:05:53<3:32:06,  2.07it/s] 45%|████▌     | 21613/48008 [3:05:54<3:31:38,  2.08it/s] 45%|████▌     | 21614/48008 [3:05:54<3:23:22,  2.16it/s] 45%|████▌     | 21615/48008 [3:05:55<3:29:08,  2.10it/s] 45%|████▌     | 21616/48008 [3:05:55<3:32:46,  2.07it/s] 45%|████▌     | 21617/48008 [3:05:56<3:38:17,  2.01it/s] 45%|████▌     | 21618/48008 [3:05:56<3:35:30,  2.04it/s] 45%|████▌     | 21619/48008 [3:05:57<3:39:07,  2.01it/s] 45%|████▌     | 21620/48008 [3:05:57<3:37:02,  2.03it/s] 45%|████▌     | 21621/48008 [3:05:58<3:42:55,  1.97it/s] 45%|████▌     | 21622/48008 [3:05:58<3:42:00,  1.98it/s] 45%|████▌     | 21623/48008 [3:05:59<3:38:48,  2.01it/s] 45%|████▌     | 21624/48008 [3:06:00<5:17:49,  1.38it/s] 45%|████▌     | 21625/48008 [3:06:01<4:51:25,  1.51it/s] 45%|████▌     | 21626/48008 [3:06:01<4:18:39,  1.70it/s] 45%|████▌     | 21627/48008 [3:06:02<4:04:10,  1.80it/s] 45%|████▌     | 21628/48008 [3:06:02<3:54:37,  1.87it/s] 45%|████▌     | 21629/48008 [3:06:03<3:50:42,  1.91it/s] 45%|████▌     | 21630/48008 [3:06:03<3:50:28,  1.91it/s] 45%|████▌     | 21631/48008 [3:06:04<3:49:08,  1.92it/s] 45%|████▌     | 21632/48008 [3:06:04<3:34:49,  2.05it/s] 45%|████▌     | 21633/48008 [3:06:04<3:33:29,  2.06it/s] 45%|████▌     | 21634/48008 [3:06:05<3:33:20,  2.06it/s] 45%|████▌     | 21635/48008 [3:06:05<3:35:19,  2.04it/s] 45%|████▌     | 21636/48008 [3:06:06<3:33:58,  2.05it/s] 45%|████▌     | 21637/48008 [3:06:06<3:32:59,  2.06it/s] 45%|████▌     | 21638/48008 [3:06:07<3:36:10,  2.03it/s] 45%|████▌     | 21639/48008 [3:06:07<3:34:54,  2.04it/s] 45%|████▌     | 21640/48008 [3:06:08<3:25:27,  2.14it/s] 45%|████▌     | 21641/48008 [3:06:08<3:27:07,  2.12it/s] 45%|████▌     | 21642/48008 [3:06:09<3:32:45,  2.07it/s] 45%|████▌     | 21643/48008 [3:06:09<3:23:21,  2.16it/s] 45%|████▌     | 21644/48008 [3:06:10<3:26:00,  2.13it/s] 45%|████▌     | 21645/48008 [3:06:10<3:34:55,  2.04it/s] 45%|████▌     | 21646/48008 [3:06:11<3:25:42,  2.14it/s] 45%|████▌     | 21647/48008 [3:06:11<3:30:44,  2.08it/s] 45%|████▌     | 21648/48008 [3:06:12<3:30:42,  2.09it/s] 45%|████▌     | 21649/48008 [3:06:12<3:34:04,  2.05it/s] 45%|████▌     | 21650/48008 [3:06:13<3:38:43,  2.01it/s]                                                         {'loss': 4.2661, 'grad_norm': 0.10392377525568008, 'learning_rate': 0.00010981086485585736, 'epoch': 0.45} 45%|████▌     | 21650/48008 [3:06:13<3:38:43,  2.01it/s]
 45%|████▌     | 21651/48008 [3:06:13<3:37:12,  2.02it/s] 45%|████▌     | 21652/48008 [3:06:14<3:34:48,  2.04it/s] 45%|████▌     | 21653/48008 [3:06:14<3:33:29,  2.06it/s] 45%|████▌     | 21654/48008 [3:06:15<3:35:53,  2.03it/s] 45%|████▌     | 21655/48008 [3:06:15<3:33:53,  2.05it/s] 45%|████▌     | 21656/48008 [3:06:16<3:33:06,  2.06it/s] 45%|████▌     | 21657/48008 [3:06:17<5:13:39,  1.40it/s] 45%|████▌     | 21658/48008 [3:06:17<4:48:00,  1.52it/s] 45%|████▌     | 21659/48008 [3:06:18<4:25:17,  1.66it/s] 45%|████▌     | 21660/48008 [3:06:18<4:08:43,  1.77it/s] 45%|████▌     | 21661/48008 [3:06:19<4:22:51,  1.67it/s] 45%|████▌     | 21662/48008 [3:06:19<3:58:41,  1.84it/s] 45%|████▌     | 21663/48008 [3:06:20<4:42:17,  1.56it/s] 45%|████▌     | 21664/48008 [3:06:21<4:20:32,  1.69it/s] 45%|████▌     | 21665/48008 [3:06:21<4:10:19,  1.75it/s] 45%|████▌     | 21666/48008 [3:06:22<3:50:06,  1.91it/s] 45%|████▌     | 21667/48008 [3:06:22<3:50:00,  1.91it/s] 45%|████▌     | 21668/48008 [3:06:23<3:44:25,  1.96it/s] 45%|████▌     | 21669/48008 [3:06:23<3:45:44,  1.94it/s] 45%|████▌     | 21670/48008 [3:06:24<3:44:18,  1.96it/s] 45%|████▌     | 21671/48008 [3:06:24<3:39:51,  2.00it/s] 45%|████▌     | 21672/48008 [3:06:25<3:37:23,  2.02it/s] 45%|████▌     | 21673/48008 [3:06:25<3:35:14,  2.04it/s] 45%|████▌     | 21674/48008 [3:06:26<3:59:22,  1.83it/s] 45%|████▌     | 21675/48008 [3:06:27<4:16:12,  1.71it/s] 45%|████▌     | 21676/48008 [3:06:27<4:07:08,  1.78it/s] 45%|████▌     | 21677/48008 [3:06:28<3:58:53,  1.84it/s] 45%|████▌     | 21678/48008 [3:06:28<4:15:56,  1.71it/s] 45%|████▌     | 21679/48008 [3:06:29<4:02:23,  1.81it/s] 45%|████▌     | 21680/48008 [3:06:29<3:44:08,  1.96it/s] 45%|████▌     | 21681/48008 [3:06:30<3:40:00,  1.99it/s] 45%|████▌     | 21682/48008 [3:06:30<4:29:19,  1.63it/s] 45%|████▌     | 21683/48008 [3:06:31<4:15:32,  1.72it/s] 45%|████▌     | 21684/48008 [3:06:31<4:06:56,  1.78it/s] 45%|████▌     | 21685/48008 [3:06:32<3:47:29,  1.93it/s] 45%|████▌     | 21686/48008 [3:06:32<3:50:29,  1.90it/s] 45%|████▌     | 21687/48008 [3:06:33<4:10:12,  1.75it/s] 45%|████▌     | 21688/48008 [3:06:34<3:58:03,  1.84it/s] 45%|████▌     | 21689/48008 [3:06:34<3:42:11,  1.97it/s] 45%|████▌     | 21690/48008 [3:06:35<3:46:51,  1.93it/s] 45%|████▌     | 21691/48008 [3:06:35<3:42:46,  1.97it/s] 45%|████▌     | 21692/48008 [3:06:36<3:46:45,  1.93it/s] 45%|████▌     | 21693/48008 [3:06:36<3:50:12,  1.91it/s] 45%|████▌     | 21694/48008 [3:06:37<3:35:54,  2.03it/s] 45%|████▌     | 21695/48008 [3:06:37<3:37:15,  2.02it/s] 45%|████▌     | 21696/48008 [3:06:38<3:35:26,  2.04it/s] 45%|████▌     | 21697/48008 [3:06:38<3:25:48,  2.13it/s] 45%|████▌     | 21698/48008 [3:06:38<3:30:04,  2.09it/s] 45%|████▌     | 21699/48008 [3:06:39<3:29:45,  2.09it/s] 45%|████▌     | 21700/48008 [3:06:39<3:33:43,  2.05it/s]                                                         {'loss': 4.2542, 'grad_norm': 0.09622257947921753, 'learning_rate': 0.00010960256623896016, 'epoch': 0.45} 45%|████▌     | 21700/48008 [3:06:39<3:33:43,  2.05it/s]
 45%|████▌     | 21701/48008 [3:06:40<3:33:14,  2.06it/s] 45%|████▌     | 21702/48008 [3:06:40<3:40:21,  1.99it/s] 45%|████▌     | 21703/48008 [3:06:41<3:36:43,  2.02it/s] 45%|████▌     | 21704/48008 [3:06:41<3:37:37,  2.01it/s] 45%|████▌     | 21705/48008 [3:06:42<3:35:39,  2.03it/s] 45%|████▌     | 21706/48008 [3:06:42<3:34:35,  2.04it/s] 45%|████▌     | 21707/48008 [3:06:43<3:33:16,  2.06it/s] 45%|████▌     | 21708/48008 [3:06:43<3:35:27,  2.03it/s] 45%|████▌     | 21709/48008 [3:06:44<3:42:25,  1.97it/s] 45%|████▌     | 21710/48008 [3:06:44<3:38:35,  2.01it/s] 45%|████▌     | 21711/48008 [3:06:45<3:39:50,  1.99it/s] 45%|████▌     | 21712/48008 [3:06:45<3:37:17,  2.02it/s] 45%|████▌     | 21713/48008 [3:06:46<3:38:50,  2.00it/s] 45%|████▌     | 21714/48008 [3:06:46<3:42:17,  1.97it/s] 45%|████▌     | 21715/48008 [3:06:47<3:38:35,  2.00it/s] 45%|████▌     | 21716/48008 [3:06:48<4:01:44,  1.81it/s] 45%|████▌     | 21717/48008 [3:06:48<3:43:04,  1.96it/s] 45%|████▌     | 21718/48008 [3:06:48<3:39:51,  1.99it/s] 45%|████▌     | 21719/48008 [3:06:49<3:36:25,  2.02it/s] 45%|████▌     | 21720/48008 [3:06:49<3:39:26,  2.00it/s] 45%|████▌     | 21721/48008 [3:06:50<3:36:20,  2.03it/s] 45%|████▌     | 21722/48008 [3:06:50<3:34:27,  2.04it/s] 45%|████▌     | 21723/48008 [3:06:51<3:33:49,  2.05it/s] 45%|████▌     | 21724/48008 [3:06:51<3:33:17,  2.05it/s] 45%|████▌     | 21725/48008 [3:06:52<3:32:34,  2.06it/s] 45%|████▌     | 21726/48008 [3:06:52<3:23:12,  2.16it/s] 45%|████▌     | 21727/48008 [3:06:53<3:28:33,  2.10it/s] 45%|████▌     | 21728/48008 [3:06:53<3:28:51,  2.10it/s] 45%|████▌     | 21729/48008 [3:06:54<3:34:40,  2.04it/s] 45%|████▌     | 21730/48008 [3:06:54<3:35:50,  2.03it/s] 45%|████▌     | 21731/48008 [3:06:55<3:25:27,  2.13it/s] 45%|████▌     | 21732/48008 [3:06:55<3:31:27,  2.07it/s] 45%|████▌     | 21733/48008 [3:06:56<3:31:02,  2.08it/s] 45%|████▌     | 21734/48008 [3:06:56<3:22:27,  2.16it/s] 45%|████▌     | 21735/48008 [3:06:57<3:25:02,  2.14it/s] 45%|████▌     | 21736/48008 [3:06:57<3:31:53,  2.07it/s] 45%|████▌     | 21737/48008 [3:06:58<3:34:31,  2.04it/s] 45%|████▌     | 21738/48008 [3:06:58<3:25:00,  2.14it/s] 45%|████▌     | 21739/48008 [3:06:59<3:26:33,  2.12it/s] 45%|████▌     | 21740/48008 [3:06:59<3:33:02,  2.05it/s] 45%|████▌     | 21741/48008 [3:07:00<3:32:16,  2.06it/s] 45%|████▌     | 21742/48008 [3:07:00<4:23:59,  1.66it/s] 45%|████▌     | 21743/48008 [3:07:01<4:07:39,  1.77it/s] 45%|████▌     | 21744/48008 [3:07:01<3:59:01,  1.83it/s] 45%|████▌     | 21745/48008 [3:07:02<3:55:35,  1.86it/s] 45%|████▌     | 21746/48008 [3:07:02<3:48:15,  1.92it/s] 45%|████▌     | 21747/48008 [3:07:03<3:47:56,  1.92it/s] 45%|████▌     | 21748/48008 [3:07:03<3:34:06,  2.04it/s] 45%|████▌     | 21749/48008 [3:07:04<3:36:02,  2.03it/s] 45%|████▌     | 21750/48008 [3:07:04<3:34:40,  2.04it/s]                                                         {'loss': 4.2574, 'grad_norm': 0.10384730249643326, 'learning_rate': 0.000109394267622063, 'epoch': 0.45}
 45%|████▌     | 21750/48008 [3:07:04<3:34:40,  2.04it/s] 45%|████▌     | 21751/48008 [3:07:05<3:36:14,  2.02it/s] 45%|████▌     | 21752/48008 [3:07:05<3:34:30,  2.04it/s] 45%|████▌     | 21753/48008 [3:07:06<3:38:19,  2.00it/s] 45%|████▌     | 21754/48008 [3:07:06<3:35:33,  2.03it/s] 45%|████▌     | 21755/48008 [3:07:07<3:34:14,  2.04it/s] 45%|████▌     | 21756/48008 [3:07:07<3:24:38,  2.14it/s] 45%|████▌     | 21757/48008 [3:07:08<3:17:46,  2.21it/s] 45%|████▌     | 21758/48008 [3:07:08<3:21:33,  2.17it/s] 45%|████▌     | 21759/48008 [3:07:09<3:24:19,  2.14it/s] 45%|████▌     | 21760/48008 [3:07:09<4:18:09,  1.69it/s] 45%|████▌     | 21761/48008 [3:07:10<3:55:51,  1.85it/s] 45%|████▌     | 21762/48008 [3:07:10<3:50:40,  1.90it/s] 45%|████▌     | 21763/48008 [3:07:11<3:44:19,  1.95it/s] 45%|████▌     | 21764/48008 [3:07:11<3:43:42,  1.96it/s] 45%|████▌     | 21765/48008 [3:07:12<3:39:32,  1.99it/s] 45%|████▌     | 21766/48008 [3:07:12<3:39:30,  1.99it/s] 45%|████▌     | 21767/48008 [3:07:13<3:28:27,  2.10it/s] 45%|████▌     | 21768/48008 [3:07:13<3:54:25,  1.87it/s] 45%|████▌     | 21769/48008 [3:07:14<3:47:01,  1.93it/s] 45%|████▌     | 21770/48008 [3:07:14<3:41:49,  1.97it/s] 45%|████▌     | 21771/48008 [3:07:15<3:38:42,  2.00it/s] 45%|████▌     | 21772/48008 [3:07:15<3:36:57,  2.02it/s] 45%|████▌     | 21773/48008 [3:07:16<3:35:25,  2.03it/s] 45%|████▌     | 21774/48008 [3:07:16<3:36:36,  2.02it/s] 45%|████▌     | 21775/48008 [3:07:17<3:34:50,  2.03it/s] 45%|████▌     | 21776/48008 [3:07:17<3:24:49,  2.13it/s] 45%|████▌     | 21777/48008 [3:07:18<3:29:17,  2.09it/s] 45%|████▌     | 21778/48008 [3:07:18<3:29:54,  2.08it/s] 45%|████▌     | 21779/48008 [3:07:19<3:21:22,  2.17it/s] 45%|████▌     | 21780/48008 [3:07:19<3:24:15,  2.14it/s] 45%|████▌     | 21781/48008 [3:07:20<3:31:19,  2.07it/s] 45%|████▌     | 21782/48008 [3:07:20<3:22:32,  2.16it/s] 45%|████▌     | 21783/48008 [3:07:21<3:33:09,  2.05it/s] 45%|████▌     | 21784/48008 [3:07:21<3:35:04,  2.03it/s] 45%|████▌     | 21785/48008 [3:07:22<3:58:56,  1.83it/s] 45%|████▌     | 21786/48008 [3:07:22<3:58:24,  1.83it/s] 45%|████▌     | 21787/48008 [3:07:23<3:54:42,  1.86it/s] 45%|████▌     | 21788/48008 [3:07:23<3:47:24,  1.92it/s] 45%|████▌     | 21789/48008 [3:07:24<4:08:16,  1.76it/s] 45%|████▌     | 21790/48008 [3:07:25<4:04:03,  1.79it/s] 45%|████▌     | 21791/48008 [3:07:25<3:56:35,  1.85it/s] 45%|████▌     | 21792/48008 [3:07:25<3:40:13,  1.98it/s] 45%|████▌     | 21793/48008 [3:07:26<3:36:55,  2.01it/s] 45%|████▌     | 21794/48008 [3:07:27<4:00:16,  1.82it/s] 45%|████▌     | 21795/48008 [3:07:27<3:51:27,  1.89it/s] 45%|████▌     | 21796/48008 [3:07:28<3:49:48,  1.90it/s] 45%|████▌     | 21797/48008 [3:07:28<3:43:13,  1.96it/s] 45%|████▌     | 21798/48008 [3:07:28<3:30:43,  2.07it/s] 45%|████▌     | 21799/48008 [3:07:29<3:31:14,  2.07it/s] 45%|████▌     | 21800/48008 [3:07:30<3:36:42,  2.02it/s]                                                         {'loss': 4.2836, 'grad_norm': 0.13829024136066437, 'learning_rate': 0.0001091859690051658, 'epoch': 0.45}
 45%|████▌     | 21800/48008 [3:07:30<3:36:42,  2.02it/s] 45%|████▌     | 21801/48008 [3:07:30<3:21:49,  2.16it/s] 45%|████▌     | 21802/48008 [3:07:31<3:49:45,  1.90it/s] 45%|████▌     | 21803/48008 [3:07:31<3:35:13,  2.03it/s] 45%|████▌     | 21804/48008 [3:07:32<3:41:27,  1.97it/s] 45%|████▌     | 21805/48008 [3:07:32<3:37:52,  2.00it/s] 45%|████▌     | 21806/48008 [3:07:33<3:39:53,  1.99it/s] 45%|████▌     | 21807/48008 [3:07:33<3:28:27,  2.09it/s] 45%|████▌     | 21808/48008 [3:07:33<3:32:20,  2.06it/s] 45%|████▌     | 21809/48008 [3:07:34<3:32:19,  2.06it/s] 45%|████▌     | 21810/48008 [3:07:34<3:36:43,  2.01it/s] 45%|████▌     | 21811/48008 [3:07:35<3:37:53,  2.00it/s] 45%|████▌     | 21812/48008 [3:07:35<3:43:00,  1.96it/s] 45%|████▌     | 21813/48008 [3:07:36<3:43:34,  1.95it/s] 45%|████▌     | 21814/48008 [3:07:36<3:31:02,  2.07it/s] 45%|████▌     | 21815/48008 [3:07:37<3:30:52,  2.07it/s] 45%|████▌     | 21816/48008 [3:07:37<3:30:47,  2.07it/s] 45%|████▌     | 21817/48008 [3:07:38<3:37:32,  2.01it/s] 45%|████▌     | 21818/48008 [3:07:38<3:40:09,  1.98it/s] 45%|████▌     | 21819/48008 [3:07:39<3:43:15,  1.96it/s] 45%|████▌     | 21820/48008 [3:07:39<3:42:05,  1.97it/s] 45%|████▌     | 21821/48008 [3:07:40<3:45:55,  1.93it/s] 45%|████▌     | 21822/48008 [3:07:41<3:45:52,  1.93it/s] 45%|████▌     | 21823/48008 [3:07:41<4:06:18,  1.77it/s] 45%|████▌     | 21824/48008 [3:07:42<3:59:54,  1.82it/s] 45%|████▌     | 21825/48008 [3:07:42<3:54:26,  1.86it/s] 45%|████▌     | 21826/48008 [3:07:43<3:54:18,  1.86it/s] 45%|████▌     | 21827/48008 [3:07:43<3:47:22,  1.92it/s] 45%|████▌     | 21828/48008 [3:07:44<3:49:14,  1.90it/s] 45%|████▌     | 21829/48008 [3:07:44<4:09:06,  1.75it/s] 45%|████▌     | 21830/48008 [3:07:45<4:02:51,  1.80it/s] 45%|████▌     | 21831/48008 [3:07:45<3:52:48,  1.87it/s] 45%|████▌     | 21832/48008 [3:07:46<3:49:36,  1.90it/s] 45%|████▌     | 21833/48008 [3:07:47<3:52:00,  1.88it/s] 45%|████▌     | 21834/48008 [3:07:47<3:49:47,  1.90it/s] 45%|████▌     | 21835/48008 [3:07:48<3:47:11,  1.92it/s] 45%|████▌     | 21836/48008 [3:07:49<5:22:06,  1.35it/s] 45%|████▌     | 21837/48008 [3:07:49<5:13:32,  1.39it/s] 45%|████▌     | 21838/48008 [3:07:50<4:41:50,  1.55it/s] 45%|████▌     | 21839/48008 [3:07:50<4:23:31,  1.66it/s] 45%|████▌     | 21840/48008 [3:07:51<4:06:54,  1.77it/s] 45%|████▌     | 21841/48008 [3:07:51<4:00:35,  1.81it/s] 45%|████▌     | 21842/48008 [3:07:52<3:58:48,  1.83it/s] 45%|████▌     | 21843/48008 [3:07:52<3:53:48,  1.87it/s] 46%|████▌     | 21844/48008 [3:07:53<3:49:16,  1.90it/s] 46%|████▌     | 21845/48008 [3:07:53<3:46:40,  1.92it/s] 46%|████▌     | 21846/48008 [3:07:54<3:33:27,  2.04it/s] 46%|████▌     | 21847/48008 [3:07:54<3:32:10,  2.06it/s] 46%|████▌     | 21848/48008 [3:07:55<3:31:43,  2.06it/s] 46%|████▌     | 21849/48008 [3:07:55<3:33:47,  2.04it/s] 46%|████▌     | 21850/48008 [3:07:56<3:24:27,  2.13it/s]                                                         {'loss': 4.3033, 'grad_norm': 0.10086361318826675, 'learning_rate': 0.00010897767038826863, 'epoch': 0.46}
 46%|████▌     | 21850/48008 [3:07:56<3:24:27,  2.13it/s] 46%|████▌     | 21851/48008 [3:07:56<3:26:14,  2.11it/s] 46%|████▌     | 21852/48008 [3:07:57<3:51:58,  1.88it/s] 46%|████▌     | 21853/48008 [3:07:57<3:37:11,  2.01it/s] 46%|████▌     | 21854/48008 [3:07:58<3:37:16,  2.01it/s] 46%|████▌     | 21855/48008 [3:07:58<3:35:24,  2.02it/s] 46%|████▌     | 21856/48008 [3:07:59<3:33:37,  2.04it/s] 46%|████▌     | 21857/48008 [3:07:59<3:57:46,  1.83it/s] 46%|████▌     | 21858/48008 [3:08:00<3:49:03,  1.90it/s] 46%|████▌     | 21859/48008 [3:08:01<5:25:09,  1.34it/s] 46%|████▌     | 21860/48008 [3:08:02<4:50:02,  1.50it/s] 46%|████▌     | 21861/48008 [3:08:02<4:17:03,  1.70it/s] 46%|████▌     | 21862/48008 [3:08:03<4:03:13,  1.79it/s] 46%|████▌     | 21863/48008 [3:08:03<4:18:23,  1.69it/s] 46%|████▌     | 21864/48008 [3:08:04<4:04:08,  1.78it/s] 46%|████▌     | 21865/48008 [3:08:04<3:56:31,  1.84it/s] 46%|████▌     | 21866/48008 [3:08:05<3:56:34,  1.84it/s] 46%|████▌     | 21867/48008 [3:08:05<3:56:00,  1.85it/s] 46%|████▌     | 21868/48008 [3:08:07<5:28:06,  1.33it/s] 46%|████▌     | 21869/48008 [3:08:07<4:52:16,  1.49it/s] 46%|████▌     | 21870/48008 [3:08:08<4:26:42,  1.63it/s] 46%|████▌     | 21871/48008 [3:08:08<4:14:13,  1.71it/s] 46%|████▌     | 21872/48008 [3:08:09<4:01:13,  1.81it/s] 46%|████▌     | 21873/48008 [3:08:09<3:54:20,  1.86it/s] 46%|████▌     | 21874/48008 [3:08:10<3:46:44,  1.92it/s] 46%|████▌     | 21875/48008 [3:08:10<3:41:51,  1.96it/s] 46%|████▌     | 21876/48008 [3:08:11<3:39:10,  1.99it/s] 46%|████▌     | 21877/48008 [3:08:11<3:39:35,  1.98it/s] 46%|████▌     | 21878/48008 [3:08:12<3:43:13,  1.95it/s] 46%|████▌     | 21879/48008 [3:08:12<3:42:36,  1.96it/s] 46%|████▌     | 21880/48008 [3:08:13<3:39:02,  1.99it/s] 46%|████▌     | 21881/48008 [3:08:13<3:36:08,  2.01it/s] 46%|████▌     | 21882/48008 [3:08:14<3:37:04,  2.01it/s] 46%|████▌     | 21883/48008 [3:08:14<3:42:19,  1.96it/s] 46%|████▌     | 21884/48008 [3:08:15<3:42:31,  1.96it/s] 46%|████▌     | 21885/48008 [3:08:15<3:38:24,  1.99it/s] 46%|████▌     | 21886/48008 [3:08:16<3:39:22,  1.98it/s] 46%|████▌     | 21887/48008 [3:08:16<4:28:07,  1.62it/s] 46%|████▌     | 21888/48008 [3:08:17<4:16:41,  1.70it/s] 46%|████▌     | 21889/48008 [3:08:17<3:54:38,  1.86it/s] 46%|████▌     | 21890/48008 [3:08:18<3:48:16,  1.91it/s] 46%|████▌     | 21891/48008 [3:08:18<3:48:01,  1.91it/s] 46%|████▌     | 21892/48008 [3:08:19<3:43:35,  1.95it/s] 46%|████▌     | 21893/48008 [3:08:19<3:31:33,  2.06it/s] 46%|████▌     | 21894/48008 [3:08:20<3:31:12,  2.06it/s] 46%|████▌     | 21895/48008 [3:08:20<3:22:09,  2.15it/s] 46%|████▌     | 21896/48008 [3:08:21<3:31:58,  2.05it/s] 46%|████▌     | 21897/48008 [3:08:21<3:33:25,  2.04it/s] 46%|████▌     | 21898/48008 [3:08:22<3:32:11,  2.05it/s] 46%|████▌     | 21899/48008 [3:08:22<3:31:49,  2.05it/s] 46%|████▌     | 21900/48008 [3:08:23<3:36:23,  2.01it/s]{'loss': 4.2567, 'grad_norm': 0.10303930938243866, 'learning_rate': 0.00010876937177137145, 'epoch': 0.46}                                                          46%|████▌     | 21900/48008 [3:08:23<3:36:23,  2.01it/s]
 46%|████▌     | 21901/48008 [3:08:23<3:34:42,  2.03it/s] 46%|████▌     | 21902/48008 [3:08:24<3:32:16,  2.05it/s] 46%|████▌     | 21903/48008 [3:08:24<3:35:49,  2.02it/s] 46%|████▌     | 21904/48008 [3:08:25<3:25:08,  2.12it/s] 46%|████▌     | 21905/48008 [3:08:25<3:26:37,  2.11it/s] 46%|████▌     | 21906/48008 [3:08:26<3:27:12,  2.10it/s] 46%|████▌     | 21907/48008 [3:08:26<3:33:02,  2.04it/s] 46%|████▌     | 21908/48008 [3:08:27<3:32:16,  2.05it/s] 46%|████▌     | 21909/48008 [3:08:27<3:35:42,  2.02it/s] 46%|████▌     | 21910/48008 [3:08:28<3:35:09,  2.02it/s] 46%|████▌     | 21911/48008 [3:08:28<3:41:40,  1.96it/s] 46%|████▌     | 21912/48008 [3:08:29<3:40:56,  1.97it/s] 46%|████▌     | 21913/48008 [3:08:29<3:29:30,  2.08it/s] 46%|████▌     | 21914/48008 [3:08:30<3:29:05,  2.08it/s] 46%|████▌     | 21915/48008 [3:08:30<3:28:53,  2.08it/s] 46%|████▌     | 21916/48008 [3:08:31<3:34:22,  2.03it/s] 46%|████▌     | 21917/48008 [3:08:32<5:12:57,  1.39it/s] 46%|████▌     | 21918/48008 [3:08:32<4:44:38,  1.53it/s] 46%|████▌     | 21919/48008 [3:08:33<4:21:27,  1.66it/s] 46%|████▌     | 21920/48008 [3:08:33<4:05:37,  1.77it/s] 46%|████▌     | 21921/48008 [3:08:34<3:56:54,  1.84it/s] 46%|████▌     | 21922/48008 [3:08:34<3:48:47,  1.90it/s] 46%|████▌     | 21923/48008 [3:08:35<3:43:51,  1.94it/s] 46%|████▌     | 21924/48008 [3:08:35<3:43:01,  1.95it/s] 46%|████▌     | 21925/48008 [3:08:36<3:38:36,  1.99it/s] 46%|████▌     | 21926/48008 [3:08:36<3:38:45,  1.99it/s] 46%|████▌     | 21927/48008 [3:08:37<3:41:23,  1.96it/s] 46%|████▌     | 21928/48008 [3:08:37<3:37:50,  2.00it/s] 46%|████▌     | 21929/48008 [3:08:38<3:34:39,  2.02it/s] 46%|████▌     | 21930/48008 [3:08:38<3:32:40,  2.04it/s] 46%|████▌     | 21931/48008 [3:08:39<3:31:32,  2.05it/s] 46%|████▌     | 21932/48008 [3:08:39<3:31:47,  2.05it/s] 46%|████▌     | 21933/48008 [3:08:40<3:22:26,  2.15it/s] 46%|████▌     | 21934/48008 [3:08:40<3:15:37,  2.22it/s] 46%|████▌     | 21935/48008 [3:08:40<3:19:26,  2.18it/s] 46%|████▌     | 21936/48008 [3:08:41<3:28:09,  2.09it/s] 46%|████▌     | 21937/48008 [3:08:42<5:08:54,  1.41it/s] 46%|████▌     | 21938/48008 [3:08:43<4:39:13,  1.56it/s] 46%|████▌     | 21939/48008 [3:08:43<4:10:20,  1.74it/s] 46%|████▌     | 21940/48008 [3:08:44<3:45:15,  1.93it/s] 46%|████▌     | 21941/48008 [3:08:44<4:06:20,  1.76it/s] 46%|████▌     | 21942/48008 [3:08:45<4:21:36,  1.66it/s] 46%|████▌     | 21943/48008 [3:08:45<4:05:49,  1.77it/s] 46%|████▌     | 21944/48008 [3:08:46<3:58:04,  1.82it/s] 46%|████▌     | 21945/48008 [3:08:47<5:29:29,  1.32it/s] 46%|████▌     | 21946/48008 [3:08:48<4:53:53,  1.48it/s] 46%|████▌     | 21947/48008 [3:08:48<4:20:13,  1.67it/s] 46%|████▌     | 21948/48008 [3:08:48<3:56:52,  1.83it/s] 46%|████▌     | 21949/48008 [3:08:49<3:51:16,  1.88it/s] 46%|████▌     | 21950/48008 [3:08:49<3:47:23,  1.91it/s]                                                         {'loss': 4.2144, 'grad_norm': 0.09944955259561539, 'learning_rate': 0.00010856107315447425, 'epoch': 0.46} 46%|████▌     | 21950/48008 [3:08:49<3:47:23,  1.91it/s]
 46%|████▌     | 21951/48008 [3:08:50<3:42:20,  1.95it/s] 46%|████▌     | 21952/48008 [3:08:50<3:41:38,  1.96it/s] 46%|████▌     | 21953/48008 [3:08:51<3:41:18,  1.96it/s] 46%|████▌     | 21954/48008 [3:08:51<3:40:01,  1.97it/s] 46%|████▌     | 21955/48008 [3:08:52<3:40:34,  1.97it/s] 46%|████▌     | 21956/48008 [3:08:52<3:28:42,  2.08it/s] 46%|████▌     | 21957/48008 [3:08:53<3:28:13,  2.09it/s] 46%|████▌     | 21958/48008 [3:08:53<3:32:01,  2.05it/s] 46%|████▌     | 21959/48008 [3:08:54<3:35:29,  2.01it/s] 46%|████▌     | 21960/48008 [3:08:54<3:25:35,  2.11it/s] 46%|████▌     | 21961/48008 [3:08:55<3:26:48,  2.10it/s] 46%|████▌     | 21962/48008 [3:08:55<3:27:28,  2.09it/s] 46%|████▌     | 21963/48008 [3:08:56<3:35:26,  2.01it/s] 46%|████▌     | 21964/48008 [3:08:57<5:13:36,  1.38it/s] 46%|████▌     | 21965/48008 [3:08:58<4:48:14,  1.51it/s] 46%|████▌     | 21966/48008 [3:08:58<4:24:34,  1.64it/s] 46%|████▌     | 21967/48008 [3:08:59<4:10:29,  1.73it/s] 46%|████▌     | 21968/48008 [3:08:59<4:00:53,  1.80it/s] 46%|████▌     | 21969/48008 [3:09:00<3:55:22,  1.84it/s] 46%|████▌     | 21970/48008 [3:09:00<3:46:53,  1.91it/s] 46%|████▌     | 21971/48008 [3:09:01<3:44:47,  1.93it/s] 46%|████▌     | 21972/48008 [3:09:01<3:39:50,  1.97it/s] 46%|████▌     | 21973/48008 [3:09:02<3:40:03,  1.97it/s] 46%|████▌     | 21974/48008 [3:09:02<3:38:57,  1.98it/s] 46%|████▌     | 21975/48008 [3:09:02<3:27:36,  2.09it/s] 46%|████▌     | 21976/48008 [3:09:03<3:27:49,  2.09it/s] 46%|████▌     | 21977/48008 [3:09:03<3:20:06,  2.17it/s] 46%|████▌     | 21978/48008 [3:09:04<3:25:32,  2.11it/s] 46%|████▌     | 21979/48008 [3:09:05<5:05:55,  1.42it/s] 46%|████▌     | 21980/48008 [3:09:06<4:36:45,  1.57it/s] 46%|████▌     | 21981/48008 [3:09:06<4:08:22,  1.75it/s] 46%|████▌     | 21982/48008 [3:09:07<3:56:25,  1.83it/s] 46%|████▌     | 21983/48008 [3:09:07<3:48:03,  1.90it/s] 46%|████▌     | 21984/48008 [3:09:07<3:42:40,  1.95it/s] 46%|████▌     | 21985/48008 [3:09:08<3:42:38,  1.95it/s] 46%|████▌     | 21986/48008 [3:09:08<3:29:46,  2.07it/s] 46%|████▌     | 21987/48008 [3:09:09<3:29:45,  2.07it/s] 46%|████▌     | 21988/48008 [3:09:09<3:29:47,  2.07it/s] 46%|████▌     | 21989/48008 [3:09:10<3:32:31,  2.04it/s] 46%|████▌     | 21990/48008 [3:09:10<3:31:08,  2.05it/s] 46%|████▌     | 21991/48008 [3:09:11<3:30:46,  2.06it/s] 46%|████▌     | 21992/48008 [3:09:11<3:33:34,  2.03it/s] 46%|████▌     | 21993/48008 [3:09:12<4:23:29,  1.65it/s] 46%|████▌     | 21994/48008 [3:09:13<4:09:33,  1.74it/s] 46%|████▌     | 21995/48008 [3:09:14<4:48:36,  1.50it/s] 46%|████▌     | 21996/48008 [3:09:14<4:25:07,  1.64it/s] 46%|████▌     | 21997/48008 [3:09:15<4:07:50,  1.75it/s] 46%|████▌     | 21998/48008 [3:09:15<4:00:55,  1.80it/s] 46%|████▌     | 21999/48008 [3:09:15<3:43:27,  1.94it/s] 46%|████▌     | 22000/48008 [3:09:16<3:42:24,  1.95it/s]                                                         {'loss': 4.2894, 'grad_norm': 0.10040361434221268, 'learning_rate': 0.00010835277453757708, 'epoch': 0.46} 46%|████▌     | 22000/48008 [3:09:16<3:42:24,  1.95it/s]
 46%|████▌     | 22001/48008 [3:09:17<3:43:34,  1.94it/s] 46%|████▌     | 22002/48008 [3:09:17<3:42:41,  1.95it/s] 46%|████▌     | 22003/48008 [3:09:18<5:17:46,  1.36it/s] 46%|████▌     | 22004/48008 [3:09:19<4:45:20,  1.52it/s] 46%|████▌     | 22005/48008 [3:09:19<4:25:54,  1.63it/s] 46%|████▌     | 22006/48008 [3:09:20<4:11:37,  1.72it/s] 46%|████▌     | 22007/48008 [3:09:20<4:01:21,  1.80it/s] 46%|████▌     | 22008/48008 [3:09:21<3:52:25,  1.86it/s] 46%|████▌     | 22009/48008 [3:09:21<3:48:35,  1.90it/s] 46%|████▌     | 22010/48008 [3:09:22<3:45:43,  1.92it/s] 46%|████▌     | 22011/48008 [3:09:22<3:44:07,  1.93it/s] 46%|████▌     | 22012/48008 [3:09:23<3:42:50,  1.94it/s] 46%|████▌     | 22013/48008 [3:09:23<3:45:48,  1.92it/s] 46%|████▌     | 22014/48008 [3:09:24<3:32:32,  2.04it/s] 46%|████▌     | 22015/48008 [3:09:24<3:39:01,  1.98it/s] 46%|████▌     | 22016/48008 [3:09:25<3:40:35,  1.96it/s] 46%|████▌     | 22017/48008 [3:09:25<3:37:13,  1.99it/s] 46%|████▌     | 22018/48008 [3:09:26<3:34:50,  2.02it/s] 46%|████▌     | 22019/48008 [3:09:26<3:33:24,  2.03it/s] 46%|████▌     | 22020/48008 [3:09:27<3:23:13,  2.13it/s] 46%|████▌     | 22021/48008 [3:09:27<3:25:12,  2.11it/s] 46%|████▌     | 22022/48008 [3:09:28<3:26:37,  2.10it/s] 46%|████▌     | 22023/48008 [3:09:28<3:35:09,  2.01it/s] 46%|████▌     | 22024/48008 [3:09:29<3:33:26,  2.03it/s] 46%|████▌     | 22025/48008 [3:09:29<3:36:39,  2.00it/s] 46%|████▌     | 22026/48008 [3:09:30<3:25:36,  2.11it/s] 46%|████▌     | 22027/48008 [3:09:30<3:17:52,  2.19it/s] 46%|████▌     | 22028/48008 [3:09:31<3:28:34,  2.08it/s] 46%|████▌     | 22029/48008 [3:09:31<3:28:20,  2.08it/s] 46%|████▌     | 22030/48008 [3:09:32<3:36:10,  2.00it/s] 46%|████▌     | 22031/48008 [3:09:33<5:13:31,  1.38it/s] 46%|████▌     | 22032/48008 [3:09:33<4:44:53,  1.52it/s] 46%|████▌     | 22033/48008 [3:09:34<4:24:11,  1.64it/s] 46%|████▌     | 22034/48008 [3:09:34<4:11:58,  1.72it/s] 46%|████▌     | 22035/48008 [3:09:35<4:23:36,  1.64it/s] 46%|████▌     | 22036/48008 [3:09:36<4:12:33,  1.71it/s] 46%|████▌     | 22037/48008 [3:09:36<4:23:59,  1.64it/s] 46%|████▌     | 22038/48008 [3:09:37<4:06:55,  1.75it/s] 46%|████▌     | 22039/48008 [3:09:37<3:55:06,  1.84it/s] 46%|████▌     | 22040/48008 [3:09:38<3:49:58,  1.88it/s] 46%|████▌     | 22041/48008 [3:09:38<3:43:26,  1.94it/s] 46%|████▌     | 22042/48008 [3:09:39<3:41:11,  1.96it/s] 46%|████▌     | 22043/48008 [3:09:39<3:28:49,  2.07it/s] 46%|████▌     | 22044/48008 [3:09:40<3:32:28,  2.04it/s] 46%|████▌     | 22045/48008 [3:09:40<3:38:25,  1.98it/s] 46%|████▌     | 22046/48008 [3:09:41<3:34:44,  2.01it/s] 46%|████▌     | 22047/48008 [3:09:41<3:24:18,  2.12it/s] 46%|████▌     | 22048/48008 [3:09:41<3:17:11,  2.19it/s] 46%|████▌     | 22049/48008 [3:09:42<3:12:20,  2.25it/s] 46%|████▌     | 22050/48008 [3:09:42<3:20:23,  2.16it/s]                                                         {'loss': 4.3165, 'grad_norm': 0.10917115211486816, 'learning_rate': 0.00010814447592067989, 'epoch': 0.46} 46%|████▌     | 22050/48008 [3:09:42<3:20:23,  2.16it/s]
 46%|████▌     | 22051/48008 [3:09:43<3:25:20,  2.11it/s] 46%|████▌     | 22052/48008 [3:09:43<3:25:40,  2.10it/s] 46%|████▌     | 22053/48008 [3:09:44<3:26:29,  2.09it/s] 46%|████▌     | 22054/48008 [3:09:44<3:29:46,  2.06it/s] 46%|████▌     | 22055/48008 [3:09:45<3:29:41,  2.06it/s] 46%|████▌     | 22056/48008 [3:09:45<3:29:20,  2.07it/s] 46%|████▌     | 22057/48008 [3:09:46<3:28:11,  2.08it/s] 46%|████▌     | 22058/48008 [3:09:46<3:33:27,  2.03it/s] 46%|████▌     | 22059/48008 [3:09:47<3:22:52,  2.13it/s] 46%|████▌     | 22060/48008 [3:09:47<3:15:55,  2.21it/s] 46%|████▌     | 22061/48008 [3:09:48<3:11:10,  2.26it/s] 46%|████▌     | 22062/48008 [3:09:48<3:16:35,  2.20it/s] 46%|████▌     | 22063/48008 [3:09:48<3:19:37,  2.17it/s] 46%|████▌     | 22064/48008 [3:09:49<3:27:04,  2.09it/s] 46%|████▌     | 22065/48008 [3:09:50<3:30:04,  2.06it/s] 46%|████▌     | 22066/48008 [3:09:50<3:29:26,  2.06it/s] 46%|████▌     | 22067/48008 [3:09:50<3:28:52,  2.07it/s] 46%|████▌     | 22068/48008 [3:09:51<3:28:28,  2.07it/s] 46%|████▌     | 22069/48008 [3:09:52<4:20:18,  1.66it/s] 46%|████▌     | 22070/48008 [3:09:52<4:04:24,  1.77it/s] 46%|████▌     | 22071/48008 [3:09:53<3:56:34,  1.83it/s] 46%|████▌     | 22072/48008 [3:09:53<3:47:11,  1.90it/s] 46%|████▌     | 22073/48008 [3:09:54<3:45:52,  1.91it/s] 46%|████▌     | 22074/48008 [3:09:54<3:40:40,  1.96it/s] 46%|████▌     | 22075/48008 [3:09:55<3:37:18,  1.99it/s] 46%|████▌     | 22076/48008 [3:09:55<3:39:22,  1.97it/s] 46%|████▌     | 22077/48008 [3:09:56<3:43:44,  1.93it/s] 46%|████▌     | 22078/48008 [3:09:56<3:42:18,  1.94it/s] 46%|████▌     | 22079/48008 [3:09:57<3:45:22,  1.92it/s] 46%|████▌     | 22080/48008 [3:09:57<3:27:23,  2.08it/s] 46%|████▌     | 22081/48008 [3:09:58<3:28:02,  2.08it/s] 46%|████▌     | 22082/48008 [3:09:58<3:27:21,  2.08it/s] 46%|████▌     | 22083/48008 [3:09:59<3:30:40,  2.05it/s] 46%|████▌     | 22084/48008 [3:09:59<3:32:10,  2.04it/s] 46%|████▌     | 22085/48008 [3:10:00<3:31:00,  2.05it/s] 46%|████▌     | 22086/48008 [3:10:00<3:30:01,  2.06it/s] 46%|████▌     | 22087/48008 [3:10:01<3:32:06,  2.04it/s] 46%|████▌     | 22088/48008 [3:10:01<3:33:57,  2.02it/s] 46%|████▌     | 22089/48008 [3:10:02<3:23:20,  2.12it/s] 46%|████▌     | 22090/48008 [3:10:02<3:16:01,  2.20it/s] 46%|████▌     | 22091/48008 [3:10:03<3:25:01,  2.11it/s] 46%|████▌     | 22092/48008 [3:10:03<3:30:40,  2.05it/s] 46%|████▌     | 22093/48008 [3:10:04<3:29:25,  2.06it/s] 46%|████▌     | 22094/48008 [3:10:04<3:29:06,  2.07it/s] 46%|████▌     | 22095/48008 [3:10:04<3:20:21,  2.16it/s] 46%|████▌     | 22096/48008 [3:10:05<3:27:30,  2.08it/s] 46%|████▌     | 22097/48008 [3:10:05<3:30:30,  2.05it/s] 46%|████▌     | 22098/48008 [3:10:06<3:29:37,  2.06it/s] 46%|████▌     | 22099/48008 [3:10:06<3:33:36,  2.02it/s] 46%|████▌     | 22100/48008 [3:10:07<3:37:10,  1.99it/s]                                                         {'loss': 4.2211, 'grad_norm': 0.14650548994541168, 'learning_rate': 0.00010793617730378272, 'epoch': 0.46}
 46%|████▌     | 22100/48008 [3:10:07<3:37:10,  1.99it/s] 46%|████▌     | 22101/48008 [3:10:07<3:25:53,  2.10it/s] 46%|████▌     | 22102/48008 [3:10:08<3:26:40,  2.09it/s] 46%|████▌     | 22103/48008 [3:10:08<3:32:28,  2.03it/s] 46%|████▌     | 22104/48008 [3:10:09<3:33:33,  2.02it/s] 46%|████▌     | 22105/48008 [3:10:09<3:31:10,  2.04it/s] 46%|████▌     | 22106/48008 [3:10:10<3:30:27,  2.05it/s] 46%|████▌     | 22107/48008 [3:10:10<3:29:26,  2.06it/s] 46%|████▌     | 22108/48008 [3:10:11<3:28:15,  2.07it/s] 46%|████▌     | 22109/48008 [3:10:11<3:30:35,  2.05it/s] 46%|████▌     | 22110/48008 [3:10:12<3:30:00,  2.06it/s] 46%|████▌     | 22111/48008 [3:10:12<3:28:27,  2.07it/s] 46%|████▌     | 22112/48008 [3:10:14<5:07:16,  1.40it/s] 46%|████▌     | 22113/48008 [3:10:14<4:28:36,  1.61it/s] 46%|████▌     | 22114/48008 [3:10:14<4:10:01,  1.73it/s] 46%|████▌     | 22115/48008 [3:10:15<3:57:10,  1.82it/s] 46%|████▌     | 22116/48008 [3:10:15<3:48:36,  1.89it/s] 46%|████▌     | 22117/48008 [3:10:16<3:42:17,  1.94it/s] 46%|████▌     | 22118/48008 [3:10:16<3:37:32,  1.98it/s] 46%|████▌     | 22119/48008 [3:10:17<3:26:00,  2.09it/s] 46%|████▌     | 22120/48008 [3:10:17<3:31:41,  2.04it/s] 46%|████▌     | 22121/48008 [3:10:18<4:22:16,  1.65it/s] 46%|████▌     | 22122/48008 [3:10:19<4:05:57,  1.75it/s] 46%|████▌     | 22123/48008 [3:10:19<3:53:49,  1.84it/s] 46%|████▌     | 22124/48008 [3:10:20<4:10:55,  1.72it/s] 46%|████▌     | 22125/48008 [3:10:20<3:57:51,  1.81it/s] 46%|████▌     | 22126/48008 [3:10:21<3:48:32,  1.89it/s] 46%|████▌     | 22127/48008 [3:10:21<3:33:36,  2.02it/s] 46%|████▌     | 22128/48008 [3:10:22<3:31:02,  2.04it/s] 46%|████▌     | 22129/48008 [3:10:22<3:21:22,  2.14it/s] 46%|████▌     | 22130/48008 [3:10:22<3:14:57,  2.21it/s] 46%|████▌     | 22131/48008 [3:10:23<3:20:51,  2.15it/s] 46%|████▌     | 22132/48008 [3:10:23<3:22:31,  2.13it/s] 46%|████▌     | 22133/48008 [3:10:24<3:11:07,  2.26it/s] 46%|████▌     | 22134/48008 [3:10:24<3:18:18,  2.17it/s] 46%|████▌     | 22135/48008 [3:10:25<3:12:37,  2.24it/s] 46%|████▌     | 22136/48008 [3:10:25<3:24:56,  2.10it/s] 46%|████▌     | 22137/48008 [3:10:26<3:33:08,  2.02it/s] 46%|████▌     | 22138/48008 [3:10:26<3:34:10,  2.01it/s] 46%|████▌     | 22139/48008 [3:10:27<3:32:35,  2.03it/s] 46%|████▌     | 22140/48008 [3:10:27<3:31:19,  2.04it/s] 46%|████▌     | 22141/48008 [3:10:28<3:32:45,  2.03it/s] 46%|████▌     | 22142/48008 [3:10:28<3:34:16,  2.01it/s] 46%|████▌     | 22143/48008 [3:10:29<3:39:17,  1.97it/s] 46%|████▌     | 22144/48008 [3:10:29<3:35:59,  2.00it/s] 46%|████▌     | 22145/48008 [3:10:30<3:33:01,  2.02it/s] 46%|████▌     | 22146/48008 [3:10:31<4:22:19,  1.64it/s] 46%|████▌     | 22147/48008 [3:10:31<4:09:03,  1.73it/s] 46%|████▌     | 22148/48008 [3:10:32<3:59:43,  1.80it/s] 46%|████▌     | 22149/48008 [3:10:32<3:49:59,  1.87it/s] 46%|████▌     | 22150/48008 [3:10:33<3:45:35,  1.91it/s]                                                         {'loss': 4.2766, 'grad_norm': 0.10312355309724808, 'learning_rate': 0.00010772787868688552, 'epoch': 0.46} 46%|████▌     | 22150/48008 [3:10:33<3:45:35,  1.91it/s]
 46%|████▌     | 22151/48008 [3:10:33<3:44:56,  1.92it/s] 46%|████▌     | 22152/48008 [3:10:35<5:48:29,  1.24it/s] 46%|████▌     | 22153/48008 [3:10:35<5:05:56,  1.41it/s] 46%|████▌     | 22154/48008 [3:10:36<4:39:29,  1.54it/s] 46%|████▌     | 22155/48008 [3:10:36<4:20:51,  1.65it/s] 46%|████▌     | 22156/48008 [3:10:37<4:04:51,  1.76it/s] 46%|████▌     | 22157/48008 [3:10:37<3:53:34,  1.84it/s] 46%|████▌     | 22158/48008 [3:10:38<5:40:29,  1.27it/s] 46%|████▌     | 22159/48008 [3:10:39<5:00:29,  1.43it/s] 46%|████▌     | 22160/48008 [3:10:40<5:22:55,  1.33it/s] 46%|████▌     | 22161/48008 [3:10:40<4:53:29,  1.47it/s] 46%|████▌     | 22162/48008 [3:10:41<4:27:27,  1.61it/s] 46%|████▌     | 22163/48008 [3:10:41<4:12:39,  1.70it/s] 46%|████▌     | 22164/48008 [3:10:42<5:11:30,  1.38it/s] 46%|████▌     | 22165/48008 [3:10:43<4:45:43,  1.51it/s] 46%|████▌     | 22166/48008 [3:10:43<4:24:59,  1.63it/s] 46%|████▌     | 22167/48008 [3:10:44<3:59:21,  1.80it/s] 46%|████▌     | 22168/48008 [3:10:44<3:49:52,  1.87it/s] 46%|████▌     | 22169/48008 [3:10:45<3:43:21,  1.93it/s] 46%|████▌     | 22170/48008 [3:10:45<3:38:28,  1.97it/s] 46%|████▌     | 22171/48008 [3:10:46<3:34:42,  2.01it/s] 46%|████▌     | 22172/48008 [3:10:46<3:39:28,  1.96it/s] 46%|████▌     | 22173/48008 [3:10:48<5:15:13,  1.37it/s] 46%|████▌     | 22174/48008 [3:10:48<4:48:16,  1.49it/s] 46%|████▌     | 22175/48008 [3:10:48<4:15:42,  1.68it/s] 46%|████▌     | 22176/48008 [3:10:49<4:01:09,  1.79it/s] 46%|████▌     | 22177/48008 [3:10:50<3:57:55,  1.81it/s] 46%|████▌     | 22178/48008 [3:10:50<3:48:37,  1.88it/s] 46%|████▌     | 22179/48008 [3:10:50<3:44:35,  1.92it/s] 46%|████▌     | 22180/48008 [3:10:51<3:43:49,  1.92it/s] 46%|████▌     | 22181/48008 [3:10:51<3:38:30,  1.97it/s] 46%|████▌     | 22182/48008 [3:10:52<3:35:07,  2.00it/s] 46%|████▌     | 22183/48008 [3:10:53<4:24:03,  1.63it/s] 46%|████▌     | 22184/48008 [3:10:53<3:58:41,  1.80it/s] 46%|████▌     | 22185/48008 [3:10:54<3:52:46,  1.85it/s] 46%|████▌     | 22186/48008 [3:10:54<3:36:38,  1.99it/s] 46%|████▌     | 22187/48008 [3:10:55<3:36:38,  1.99it/s] 46%|████▌     | 22188/48008 [3:10:55<3:32:56,  2.02it/s] 46%|████▌     | 22189/48008 [3:10:56<3:30:27,  2.04it/s] 46%|████▌     | 22190/48008 [3:10:56<3:34:57,  2.00it/s] 46%|████▌     | 22191/48008 [3:10:57<3:57:55,  1.81it/s] 46%|████▌     | 22192/48008 [3:10:57<3:56:07,  1.82it/s] 46%|████▌     | 22193/48008 [3:10:58<3:55:58,  1.82it/s] 46%|████▌     | 22194/48008 [3:10:58<3:46:48,  1.90it/s] 46%|████▌     | 22195/48008 [3:10:59<3:41:10,  1.95it/s] 46%|████▌     | 22196/48008 [3:11:00<4:01:41,  1.78it/s] 46%|████▌     | 22197/48008 [3:11:00<3:51:42,  1.86it/s] 46%|████▌     | 22198/48008 [3:11:01<3:43:58,  1.92it/s] 46%|████▌     | 22199/48008 [3:11:01<3:41:56,  1.94it/s] 46%|████▌     | 22200/48008 [3:11:01<3:28:47,  2.06it/s]                                                         {'loss': 4.29, 'grad_norm': 0.2188795655965805, 'learning_rate': 0.00010751958006998835, 'epoch': 0.46}
 46%|████▌     | 22200/48008 [3:11:01<3:28:47,  2.06it/s] 46%|████▌     | 22201/48008 [3:11:02<3:28:34,  2.06it/s] 46%|████▌     | 22202/48008 [3:11:02<3:19:32,  2.16it/s] 46%|████▌     | 22203/48008 [3:11:03<3:46:37,  1.90it/s] 46%|████▋     | 22204/48008 [3:11:03<3:40:40,  1.95it/s] 46%|████▋     | 22205/48008 [3:11:04<3:35:40,  1.99it/s] 46%|████▋     | 22206/48008 [3:11:04<3:24:39,  2.10it/s] 46%|████▋     | 22207/48008 [3:11:05<3:30:37,  2.04it/s] 46%|████▋     | 22208/48008 [3:11:05<3:32:34,  2.02it/s] 46%|████▋     | 22209/48008 [3:11:06<3:34:21,  2.01it/s] 46%|████▋     | 22210/48008 [3:11:06<3:39:36,  1.96it/s] 46%|████▋     | 22211/48008 [3:11:07<3:38:04,  1.97it/s] 46%|████▋     | 22212/48008 [3:11:07<3:35:03,  2.00it/s] 46%|████▋     | 22213/48008 [3:11:08<3:35:36,  1.99it/s] 46%|████▋     | 22214/48008 [3:11:08<3:33:07,  2.02it/s] 46%|████▋     | 22215/48008 [3:11:09<3:31:39,  2.03it/s] 46%|████▋     | 22216/48008 [3:11:09<3:33:42,  2.01it/s] 46%|████▋     | 22217/48008 [3:11:10<3:35:06,  2.00it/s] 46%|████▋     | 22218/48008 [3:11:10<3:35:39,  1.99it/s] 46%|████▋     | 22219/48008 [3:11:12<5:13:16,  1.37it/s] 46%|████▋     | 22220/48008 [3:11:12<4:44:53,  1.51it/s] 46%|████▋     | 22221/48008 [3:11:13<4:21:40,  1.64it/s] 46%|████▋     | 22222/48008 [3:11:13<4:05:31,  1.75it/s] 46%|████▋     | 22223/48008 [3:11:14<3:54:10,  1.84it/s] 46%|████▋     | 22224/48008 [3:11:14<3:50:56,  1.86it/s] 46%|████▋     | 22225/48008 [3:11:15<3:43:34,  1.92it/s] 46%|████▋     | 22226/48008 [3:11:15<3:41:40,  1.94it/s] 46%|████▋     | 22227/48008 [3:11:16<3:37:24,  1.98it/s] 46%|████▋     | 22228/48008 [3:11:16<3:34:00,  2.01it/s] 46%|████▋     | 22229/48008 [3:11:17<3:31:10,  2.03it/s] 46%|████▋     | 22230/48008 [3:11:17<3:55:13,  1.83it/s] 46%|████▋     | 22231/48008 [3:11:18<3:49:43,  1.87it/s] 46%|████▋     | 22232/48008 [3:11:18<3:43:19,  1.92it/s] 46%|████▋     | 22233/48008 [3:11:19<3:41:06,  1.94it/s] 46%|████▋     | 22234/48008 [3:11:19<3:28:38,  2.06it/s] 46%|████▋     | 22235/48008 [3:11:20<3:19:36,  2.15it/s] 46%|████▋     | 22236/48008 [3:11:20<3:21:24,  2.13it/s] 46%|████▋     | 22237/48008 [3:11:21<3:30:22,  2.04it/s] 46%|████▋     | 22238/48008 [3:11:21<3:20:53,  2.14it/s] 46%|████▋     | 22239/48008 [3:11:22<3:25:48,  2.09it/s] 46%|████▋     | 22240/48008 [3:11:22<3:28:21,  2.06it/s] 46%|████▋     | 22241/48008 [3:11:23<3:28:00,  2.06it/s] 46%|████▋     | 22242/48008 [3:11:23<3:26:43,  2.08it/s] 46%|████▋     | 22243/48008 [3:11:23<3:26:41,  2.08it/s] 46%|████▋     | 22244/48008 [3:11:24<3:26:53,  2.08it/s] 46%|████▋     | 22245/48008 [3:11:24<3:25:57,  2.08it/s] 46%|████▋     | 22246/48008 [3:11:25<3:26:12,  2.08it/s] 46%|████▋     | 22247/48008 [3:11:25<3:26:19,  2.08it/s] 46%|████▋     | 22248/48008 [3:11:26<3:31:28,  2.03it/s] 46%|████▋     | 22249/48008 [3:11:26<3:29:25,  2.05it/s] 46%|████▋     | 22250/48008 [3:11:27<3:28:26,  2.06it/s]                                                         {'loss': 4.2721, 'grad_norm': 0.2511872947216034, 'learning_rate': 0.00010731128145309116, 'epoch': 0.46}
 46%|████▋     | 22250/48008 [3:11:27<3:28:26,  2.06it/s] 46%|████▋     | 22251/48008 [3:11:27<3:35:53,  1.99it/s] 46%|████▋     | 22252/48008 [3:11:28<3:20:16,  2.14it/s] 46%|████▋     | 22253/48008 [3:11:28<3:25:13,  2.09it/s] 46%|████▋     | 22254/48008 [3:11:29<3:26:00,  2.08it/s] 46%|████▋     | 22255/48008 [3:11:29<3:50:34,  1.86it/s] 46%|████▋     | 22256/48008 [3:11:30<3:48:26,  1.88it/s] 46%|████▋     | 22257/48008 [3:11:30<3:44:22,  1.91it/s] 46%|████▋     | 22258/48008 [3:11:31<3:39:00,  1.96it/s] 46%|████▋     | 22259/48008 [3:11:31<3:26:55,  2.07it/s] 46%|████▋     | 22260/48008 [3:11:32<3:18:19,  2.16it/s] 46%|████▋     | 22261/48008 [3:11:32<3:20:22,  2.14it/s] 46%|████▋     | 22262/48008 [3:11:33<3:25:03,  2.09it/s] 46%|████▋     | 22263/48008 [3:11:33<3:50:50,  1.86it/s] 46%|████▋     | 22264/48008 [3:11:34<3:51:05,  1.86it/s] 46%|████▋     | 22265/48008 [3:11:35<3:46:04,  1.90it/s] 46%|████▋     | 22266/48008 [3:11:35<3:42:24,  1.93it/s] 46%|████▋     | 22267/48008 [3:11:35<3:37:24,  1.97it/s] 46%|████▋     | 22268/48008 [3:11:36<3:37:35,  1.97it/s] 46%|████▋     | 22269/48008 [3:11:37<3:39:20,  1.96it/s] 46%|████▋     | 22270/48008 [3:11:37<3:35:43,  1.99it/s] 46%|████▋     | 22271/48008 [3:11:38<3:37:27,  1.97it/s] 46%|████▋     | 22272/48008 [3:11:38<3:34:17,  2.00it/s] 46%|████▋     | 22273/48008 [3:11:38<3:32:00,  2.02it/s] 46%|████▋     | 22274/48008 [3:11:39<3:33:39,  2.01it/s] 46%|████▋     | 22275/48008 [3:11:39<3:31:30,  2.03it/s] 46%|████▋     | 22276/48008 [3:11:41<5:08:30,  1.39it/s] 46%|████▋     | 22277/48008 [3:11:41<4:38:20,  1.54it/s] 46%|████▋     | 22278/48008 [3:11:42<4:17:07,  1.67it/s] 46%|████▋     | 22279/48008 [3:11:42<4:01:45,  1.77it/s] 46%|████▋     | 22280/48008 [3:11:43<3:54:26,  1.83it/s] 46%|████▋     | 22281/48008 [3:11:43<3:45:27,  1.90it/s] 46%|████▋     | 22282/48008 [3:11:44<4:05:01,  1.75it/s] 46%|████▋     | 22283/48008 [3:11:44<3:58:15,  1.80it/s] 46%|████▋     | 22284/48008 [3:11:45<3:51:15,  1.85it/s] 46%|████▋     | 22285/48008 [3:11:45<3:46:09,  1.90it/s] 46%|████▋     | 22286/48008 [3:11:46<3:45:31,  1.90it/s] 46%|████▋     | 22287/48008 [3:11:46<3:39:53,  1.95it/s] 46%|████▋     | 22288/48008 [3:11:47<3:40:40,  1.94it/s] 46%|████▋     | 22289/48008 [3:11:47<3:41:21,  1.94it/s] 46%|████▋     | 22290/48008 [3:11:48<3:36:16,  1.98it/s] 46%|████▋     | 22291/48008 [3:11:49<3:57:32,  1.80it/s] 46%|████▋     | 22292/48008 [3:11:49<3:47:19,  1.89it/s] 46%|████▋     | 22293/48008 [3:11:49<3:41:29,  1.93it/s] 46%|████▋     | 22294/48008 [3:11:50<3:37:19,  1.97it/s] 46%|████▋     | 22295/48008 [3:11:50<3:21:03,  2.13it/s] 46%|████▋     | 22296/48008 [3:11:51<3:14:17,  2.21it/s] 46%|████▋     | 22297/48008 [3:11:52<4:56:12,  1.45it/s] 46%|████▋     | 22298/48008 [3:11:52<4:29:01,  1.59it/s] 46%|████▋     | 22299/48008 [3:11:53<4:10:11,  1.71it/s] 46%|████▋     | 22300/48008 [3:11:53<3:57:06,  1.81it/s]                                                         {'loss': 4.2798, 'grad_norm': 0.30382493138313293, 'learning_rate': 0.00010710298283619397, 'epoch': 0.46}
 46%|████▋     | 22300/48008 [3:11:53<3:57:06,  1.81it/s] 46%|████▋     | 22301/48008 [3:11:54<3:52:38,  1.84it/s] 46%|████▋     | 22302/48008 [3:11:54<3:45:02,  1.90it/s] 46%|████▋     | 22303/48008 [3:11:55<3:46:16,  1.89it/s] 46%|████▋     | 22304/48008 [3:11:56<3:47:42,  1.88it/s] 46%|████▋     | 22305/48008 [3:11:56<3:44:25,  1.91it/s] 46%|████▋     | 22306/48008 [3:11:57<3:38:39,  1.96it/s] 46%|████▋     | 22307/48008 [3:11:57<3:37:42,  1.97it/s] 46%|████▋     | 22308/48008 [3:11:58<3:33:48,  2.00it/s] 46%|████▋     | 22309/48008 [3:11:58<3:34:20,  2.00it/s] 46%|████▋     | 22310/48008 [3:11:58<3:31:53,  2.02it/s] 46%|████▋     | 22311/48008 [3:11:59<3:30:12,  2.04it/s] 46%|████▋     | 22312/48008 [3:11:59<3:34:08,  2.00it/s] 46%|████▋     | 22313/48008 [3:12:01<5:11:27,  1.37it/s] 46%|████▋     | 22314/48008 [3:12:01<4:44:16,  1.51it/s] 46%|████▋     | 22315/48008 [3:12:02<4:28:42,  1.59it/s] 46%|████▋     | 22316/48008 [3:12:02<4:12:49,  1.69it/s] 46%|████▋     | 22317/48008 [3:12:03<3:58:55,  1.79it/s] 46%|████▋     | 22318/48008 [3:12:03<3:49:14,  1.87it/s] 46%|████▋     | 22319/48008 [3:12:04<3:42:35,  1.92it/s] 46%|████▋     | 22320/48008 [3:12:04<4:01:48,  1.77it/s] 46%|████▋     | 22321/48008 [3:12:05<4:16:19,  1.67it/s] 46%|████▋     | 22322/48008 [3:12:06<4:04:01,  1.75it/s] 46%|████▋     | 22323/48008 [3:12:06<3:55:50,  1.82it/s] 47%|████▋     | 22324/48008 [3:12:07<3:46:26,  1.89it/s] 47%|████▋     | 22325/48008 [3:12:07<3:32:13,  2.02it/s] 47%|████▋     | 22326/48008 [3:12:08<4:21:33,  1.64it/s] 47%|████▋     | 22327/48008 [3:12:08<4:12:40,  1.69it/s] 47%|████▋     | 22328/48008 [3:12:09<4:04:04,  1.75it/s] 47%|████▋     | 22329/48008 [3:12:09<3:52:21,  1.84it/s] 47%|████▋     | 22330/48008 [3:12:10<3:43:54,  1.91it/s] 47%|████▋     | 22331/48008 [3:12:10<3:41:45,  1.93it/s] 47%|████▋     | 22332/48008 [3:12:11<3:37:01,  1.97it/s] 47%|████▋     | 22333/48008 [3:12:11<3:25:10,  2.09it/s] 47%|████▋     | 22334/48008 [3:12:12<3:28:22,  2.05it/s] 47%|████▋     | 22335/48008 [3:12:12<3:29:54,  2.04it/s] 47%|████▋     | 22336/48008 [3:12:13<3:33:51,  2.00it/s] 47%|████▋     | 22337/48008 [3:12:13<3:34:21,  2.00it/s] 47%|████▋     | 22338/48008 [3:12:14<3:31:53,  2.02it/s] 47%|████▋     | 22339/48008 [3:12:14<3:30:05,  2.04it/s] 47%|████▋     | 22340/48008 [3:12:15<3:31:48,  2.02it/s] 47%|████▋     | 22341/48008 [3:12:15<3:32:34,  2.01it/s] 47%|████▋     | 22342/48008 [3:12:16<3:22:02,  2.12it/s] 47%|████▋     | 22343/48008 [3:12:16<3:28:10,  2.05it/s] 47%|████▋     | 22344/48008 [3:12:17<3:32:01,  2.02it/s] 47%|████▋     | 22345/48008 [3:12:17<3:29:35,  2.04it/s] 47%|████▋     | 22346/48008 [3:12:18<3:35:15,  1.99it/s] 47%|████▋     | 22347/48008 [3:12:18<3:35:29,  1.98it/s] 47%|████▋     | 22348/48008 [3:12:19<3:36:09,  1.98it/s] 47%|████▋     | 22349/48008 [3:12:19<3:40:30,  1.94it/s] 47%|████▋     | 22350/48008 [3:12:20<3:35:20,  1.99it/s]                                                         {'loss': 4.3084, 'grad_norm': 0.24144363403320312, 'learning_rate': 0.00010689468421929678, 'epoch': 0.47}
 47%|████▋     | 22350/48008 [3:12:20<3:35:20,  1.99it/s] 47%|████▋     | 22351/48008 [3:12:20<3:37:22,  1.97it/s] 47%|████▋     | 22352/48008 [3:12:21<3:34:02,  2.00it/s] 47%|████▋     | 22353/48008 [3:12:21<3:34:45,  1.99it/s] 47%|████▋     | 22354/48008 [3:12:22<3:31:59,  2.02it/s] 47%|████▋     | 22355/48008 [3:12:22<3:33:29,  2.00it/s] 47%|████▋     | 22356/48008 [3:12:23<3:30:42,  2.03it/s] 47%|████▋     | 22357/48008 [3:12:23<3:32:21,  2.01it/s] 47%|████▋     | 22358/48008 [3:12:24<3:35:38,  1.98it/s] 47%|████▋     | 22359/48008 [3:12:24<3:32:35,  2.01it/s] 47%|████▋     | 22360/48008 [3:12:25<3:30:45,  2.03it/s] 47%|████▋     | 22361/48008 [3:12:25<3:29:18,  2.04it/s] 47%|████▋     | 22362/48008 [3:12:26<3:19:51,  2.14it/s] 47%|████▋     | 22363/48008 [3:12:26<3:21:18,  2.12it/s] 47%|████▋     | 22364/48008 [3:12:27<3:14:01,  2.20it/s] 47%|████▋     | 22365/48008 [3:12:27<3:17:50,  2.16it/s] 47%|████▋     | 22366/48008 [3:12:28<3:27:39,  2.06it/s] 47%|████▋     | 22367/48008 [3:12:28<3:26:58,  2.06it/s] 47%|████▋     | 22368/48008 [3:12:29<3:29:40,  2.04it/s] 47%|████▋     | 22369/48008 [3:12:29<3:28:35,  2.05it/s] 47%|████▋     | 22370/48008 [3:12:30<3:28:11,  2.05it/s] 47%|████▋     | 22371/48008 [3:12:30<3:30:02,  2.03it/s] 47%|████▋     | 22372/48008 [3:12:31<3:28:57,  2.04it/s] 47%|████▋     | 22373/48008 [3:12:31<3:27:32,  2.06it/s] 47%|████▋     | 22374/48008 [3:12:31<3:18:24,  2.15it/s] 47%|████▋     | 22375/48008 [3:12:32<3:12:15,  2.22it/s] 47%|████▋     | 22376/48008 [3:12:32<3:19:25,  2.14it/s] 47%|████▋     | 22377/48008 [3:12:33<3:23:56,  2.09it/s] 47%|████▋     | 22378/48008 [3:12:33<3:24:19,  2.09it/s] 47%|████▋     | 22379/48008 [3:12:34<3:16:29,  2.17it/s] 47%|████▋     | 22380/48008 [3:12:34<3:21:58,  2.11it/s] 47%|████▋     | 22381/48008 [3:12:35<3:22:54,  2.10it/s] 47%|████▋     | 22382/48008 [3:12:36<4:14:40,  1.68it/s] 47%|████▋     | 22383/48008 [3:12:36<4:05:16,  1.74it/s] 47%|████▋     | 22384/48008 [3:12:37<3:57:49,  1.80it/s] 47%|████▋     | 22385/48008 [3:12:37<3:48:22,  1.87it/s] 47%|████▋     | 22386/48008 [3:12:38<3:46:19,  1.89it/s] 47%|████▋     | 22387/48008 [3:12:38<3:47:43,  1.88it/s] 47%|████▋     | 22388/48008 [3:12:39<3:32:43,  2.01it/s] 47%|████▋     | 22389/48008 [3:12:39<3:37:55,  1.96it/s] 47%|████▋     | 22390/48008 [3:12:40<3:34:03,  1.99it/s] 47%|████▋     | 22391/48008 [3:12:40<3:23:06,  2.10it/s] 47%|████▋     | 22392/48008 [3:12:41<3:23:15,  2.10it/s] 47%|████▋     | 22393/48008 [3:12:41<3:15:23,  2.18it/s] 47%|████▋     | 22394/48008 [3:12:41<3:09:47,  2.25it/s] 47%|████▋     | 22395/48008 [3:12:42<3:17:51,  2.16it/s] 47%|████▋     | 22396/48008 [3:12:42<3:20:02,  2.13it/s] 47%|████▋     | 22397/48008 [3:12:43<3:21:31,  2.12it/s] 47%|████▋     | 22398/48008 [3:12:43<3:22:34,  2.11it/s] 47%|████▋     | 22399/48008 [3:12:44<3:23:29,  2.10it/s] 47%|████▋     | 22400/48008 [3:12:44<3:31:21,  2.02it/s]                                                         {'loss': 4.2897, 'grad_norm': 0.42465102672576904, 'learning_rate': 0.00010668638560239961, 'epoch': 0.47}
 47%|████▋     | 22400/48008 [3:12:44<3:31:21,  2.02it/s] 47%|████▋     | 22401/48008 [3:12:45<3:21:45,  2.12it/s] 47%|████▋     | 22402/48008 [3:12:45<3:22:34,  2.11it/s] 47%|████▋     | 22403/48008 [3:12:46<3:25:37,  2.08it/s] 47%|████▋     | 22404/48008 [3:12:46<3:28:13,  2.05it/s] 47%|████▋     | 22405/48008 [3:12:47<3:32:03,  2.01it/s] 47%|████▋     | 22406/48008 [3:12:47<3:29:54,  2.03it/s] 47%|████▋     | 22407/48008 [3:12:48<3:28:23,  2.05it/s] 47%|████▋     | 22408/48008 [3:12:48<3:19:01,  2.14it/s] 47%|████▋     | 22409/48008 [3:12:49<3:12:42,  2.21it/s] 47%|████▋     | 22410/48008 [3:12:49<3:23:46,  2.09it/s] 47%|████▋     | 22411/48008 [3:12:50<3:24:13,  2.09it/s] 47%|████▋     | 22412/48008 [3:12:50<3:24:50,  2.08it/s] 47%|████▋     | 22413/48008 [3:12:51<3:27:14,  2.06it/s] 47%|████▋     | 22414/48008 [3:12:51<3:29:03,  2.04it/s] 47%|████▋     | 22415/48008 [3:12:52<3:27:53,  2.05it/s] 47%|████▋     | 22416/48008 [3:12:53<5:05:11,  1.40it/s] 47%|████▋     | 22417/48008 [3:12:53<4:40:22,  1.52it/s] 47%|████▋     | 22418/48008 [3:12:54<4:17:44,  1.65it/s] 47%|████▋     | 22419/48008 [3:12:54<3:53:02,  1.83it/s] 47%|████▋     | 22420/48008 [3:12:55<3:44:24,  1.90it/s] 47%|████▋     | 22421/48008 [3:12:55<3:38:34,  1.95it/s] 47%|████▋     | 22422/48008 [3:12:56<3:38:46,  1.95it/s] 47%|████▋     | 22423/48008 [3:12:57<5:13:54,  1.36it/s] 47%|████▋     | 22424/48008 [3:12:57<4:44:26,  1.50it/s] 47%|████▋     | 22425/48008 [3:12:58<4:28:30,  1.59it/s] 47%|████▋     | 22426/48008 [3:12:58<4:09:53,  1.71it/s] 47%|████▋     | 22427/48008 [3:12:59<3:56:17,  1.80it/s] 47%|████▋     | 22428/48008 [3:12:59<3:46:48,  1.88it/s] 47%|████▋     | 22429/48008 [3:13:00<3:42:55,  1.91it/s] 47%|████▋     | 22430/48008 [3:13:00<3:42:44,  1.91it/s] 47%|████▋     | 22431/48008 [3:13:01<3:39:45,  1.94it/s] 47%|████▋     | 22432/48008 [3:13:01<3:35:09,  1.98it/s] 47%|████▋     | 22433/48008 [3:13:02<3:31:47,  2.01it/s] 47%|████▋     | 22434/48008 [3:13:02<3:33:01,  2.00it/s] 47%|████▋     | 22435/48008 [3:13:03<3:33:44,  1.99it/s] 47%|████▋     | 22436/48008 [3:13:03<3:31:33,  2.01it/s] 47%|████▋     | 22437/48008 [3:13:04<3:30:04,  2.03it/s] 47%|████▋     | 22438/48008 [3:13:05<3:52:48,  1.83it/s] 47%|████▋     | 22439/48008 [3:13:05<3:36:11,  1.97it/s] 47%|████▋     | 22440/48008 [3:13:05<3:33:10,  2.00it/s] 47%|████▋     | 22441/48008 [3:13:06<3:30:05,  2.03it/s] 47%|████▋     | 22442/48008 [3:13:06<3:35:57,  1.97it/s] 47%|████▋     | 22443/48008 [3:13:07<3:32:01,  2.01it/s] 47%|████▋     | 22444/48008 [3:13:07<3:32:34,  2.00it/s] 47%|████▋     | 22445/48008 [3:13:08<3:32:56,  2.00it/s] 47%|████▋     | 22446/48008 [3:13:08<3:30:22,  2.03it/s] 47%|████▋     | 22447/48008 [3:13:09<4:19:46,  1.64it/s] 47%|████▋     | 22448/48008 [3:13:10<3:55:01,  1.81it/s] 47%|████▋     | 22449/48008 [3:13:10<3:45:23,  1.89it/s] 47%|████▋     | 22450/48008 [3:13:11<3:46:00,  1.88it/s]                                                         {'loss': 4.2513, 'grad_norm': 0.5399575233459473, 'learning_rate': 0.00010647808698550241, 'epoch': 0.47} 47%|████▋     | 22450/48008 [3:13:11<3:46:00,  1.88it/s]
 47%|████▋     | 22451/48008 [3:13:11<3:39:28,  1.94it/s] 47%|████▋     | 22452/48008 [3:13:12<3:37:42,  1.96it/s] 47%|████▋     | 22453/48008 [3:13:12<3:38:30,  1.95it/s] 47%|████▋     | 22454/48008 [3:13:13<3:34:29,  1.99it/s] 47%|████▋     | 22455/48008 [3:13:13<3:39:30,  1.94it/s] 47%|████▋     | 22456/48008 [3:13:14<3:35:12,  1.98it/s] 47%|████▋     | 22457/48008 [3:13:14<3:23:59,  2.09it/s] 47%|████▋     | 22458/48008 [3:13:15<3:23:57,  2.09it/s] 47%|████▋     | 22459/48008 [3:13:15<3:26:52,  2.06it/s] 47%|████▋     | 22460/48008 [3:13:16<3:26:04,  2.07it/s] 47%|████▋     | 22461/48008 [3:13:16<3:25:32,  2.07it/s] 47%|████▋     | 22462/48008 [3:13:16<3:16:40,  2.16it/s] 47%|████▋     | 22463/48008 [3:13:17<3:10:49,  2.23it/s] 47%|████▋     | 22464/48008 [3:13:17<3:15:22,  2.18it/s] 47%|████▋     | 22465/48008 [3:13:18<3:18:41,  2.14it/s] 47%|████▋     | 22466/48008 [3:13:18<3:12:01,  2.22it/s] 47%|████▋     | 22467/48008 [3:13:19<3:15:31,  2.18it/s] 47%|████▋     | 22468/48008 [3:13:19<3:18:59,  2.14it/s] 47%|████▋     | 22469/48008 [3:13:20<3:24:29,  2.08it/s] 47%|████▋     | 22470/48008 [3:13:20<3:29:42,  2.03it/s] 47%|████▋     | 22471/48008 [3:13:21<3:31:31,  2.01it/s] 47%|████▋     | 22472/48008 [3:13:22<5:08:01,  1.38it/s] 47%|████▋     | 22473/48008 [3:13:23<4:40:15,  1.52it/s] 47%|████▋     | 22474/48008 [3:13:23<4:20:11,  1.64it/s] 47%|████▋     | 22475/48008 [3:13:24<4:03:12,  1.75it/s] 47%|████▋     | 22476/48008 [3:13:24<3:54:47,  1.81it/s] 47%|████▋     | 22477/48008 [3:13:25<3:45:58,  1.88it/s] 47%|████▋     | 22478/48008 [3:13:25<3:38:48,  1.94it/s] 47%|████▋     | 22479/48008 [3:13:25<3:26:24,  2.06it/s] 47%|████▋     | 22480/48008 [3:13:26<3:28:56,  2.04it/s] 47%|████▋     | 22481/48008 [3:13:26<3:19:28,  2.13it/s] 47%|████▋     | 22482/48008 [3:13:27<3:25:55,  2.07it/s] 47%|████▋     | 22483/48008 [3:13:27<3:25:37,  2.07it/s] 47%|████▋     | 22484/48008 [3:13:28<3:28:00,  2.05it/s] 47%|████▋     | 22485/48008 [3:13:28<3:13:54,  2.19it/s] 47%|████▋     | 22486/48008 [3:13:29<3:16:58,  2.16it/s] 47%|████▋     | 22487/48008 [3:13:29<3:24:13,  2.08it/s] 47%|████▋     | 22488/48008 [3:13:30<3:27:07,  2.05it/s] 47%|████▋     | 22489/48008 [3:13:30<3:28:43,  2.04it/s] 47%|████▋     | 22490/48008 [3:13:31<3:27:20,  2.05it/s] 47%|████▋     | 22491/48008 [3:13:31<3:28:39,  2.04it/s] 47%|████▋     | 22492/48008 [3:13:32<3:27:24,  2.05it/s] 47%|████▋     | 22493/48008 [3:13:32<3:25:50,  2.07it/s] 47%|████▋     | 22494/48008 [3:13:33<3:30:09,  2.02it/s] 47%|████▋     | 22495/48008 [3:13:33<3:32:45,  2.00it/s] 47%|████▋     | 22496/48008 [3:13:34<3:54:20,  1.81it/s] 47%|████▋     | 22497/48008 [3:13:34<3:50:12,  1.85it/s] 47%|████▋     | 22498/48008 [3:13:35<3:34:03,  1.99it/s] 47%|████▋     | 22499/48008 [3:13:35<3:55:33,  1.80it/s] 47%|████▋     | 22500/48008 [3:13:36<3:46:02,  1.88it/s]                                                         {'loss': 4.269, 'grad_norm': 0.670845627784729, 'learning_rate': 0.00010626978836860524, 'epoch': 0.47}
 47%|████▋     | 22500/48008 [3:13:36<3:46:02,  1.88it/s] 47%|████▋     | 22501/48008 [3:13:36<3:39:40,  1.94it/s] 47%|████▋     | 22502/48008 [3:13:37<3:40:05,  1.93it/s] 47%|████▋     | 22503/48008 [3:13:37<3:42:31,  1.91it/s] 47%|████▋     | 22504/48008 [3:13:38<3:41:26,  1.92it/s] 47%|████▋     | 22505/48008 [3:13:39<4:00:44,  1.77it/s] 47%|████▋     | 22506/48008 [3:13:39<3:41:45,  1.92it/s] 47%|████▋     | 22507/48008 [3:13:40<3:39:07,  1.94it/s] 47%|████▋     | 22508/48008 [3:13:40<3:34:30,  1.98it/s] 47%|████▋     | 22509/48008 [3:13:41<4:21:52,  1.62it/s] 47%|████▋     | 22510/48008 [3:13:41<4:09:53,  1.70it/s] 47%|████▋     | 22511/48008 [3:13:42<3:58:36,  1.78it/s] 47%|████▋     | 22512/48008 [3:13:42<3:39:56,  1.93it/s] 47%|████▋     | 22513/48008 [3:13:43<3:40:06,  1.93it/s] 47%|████▋     | 22514/48008 [3:13:43<3:39:42,  1.93it/s] 47%|████▋     | 22515/48008 [3:13:44<3:39:27,  1.94it/s] 47%|████▋     | 22516/48008 [3:13:44<3:26:17,  2.06it/s] 47%|████▋     | 22517/48008 [3:13:45<3:25:24,  2.07it/s] 47%|████▋     | 22518/48008 [3:13:45<3:24:25,  2.08it/s] 47%|████▋     | 22519/48008 [3:13:46<3:31:45,  2.01it/s] 47%|████▋     | 22520/48008 [3:13:47<4:19:23,  1.64it/s] 47%|████▋     | 22521/48008 [3:13:47<3:54:05,  1.81it/s] 47%|████▋     | 22522/48008 [3:13:48<3:47:55,  1.86it/s] 47%|████▋     | 22523/48008 [3:13:48<3:43:39,  1.90it/s] 47%|████▋     | 22524/48008 [3:13:49<3:30:12,  2.02it/s] 47%|████▋     | 22525/48008 [3:13:49<3:31:54,  2.00it/s] 47%|████▋     | 22526/48008 [3:13:50<3:32:52,  2.00it/s] 47%|████▋     | 22527/48008 [3:13:50<3:30:08,  2.02it/s] 47%|████▋     | 22528/48008 [3:13:51<3:31:20,  2.01it/s] 47%|████▋     | 22529/48008 [3:13:51<3:21:26,  2.11it/s] 47%|████▋     | 22530/48008 [3:13:51<3:22:21,  2.10it/s] 47%|████▋     | 22531/48008 [3:13:52<3:22:33,  2.10it/s] 47%|████▋     | 22532/48008 [3:13:52<3:23:19,  2.09it/s] 47%|████▋     | 22533/48008 [3:13:53<4:30:45,  1.57it/s] 47%|████▋     | 22534/48008 [3:13:54<4:11:17,  1.69it/s] 47%|████▋     | 22535/48008 [3:13:54<3:57:24,  1.79it/s] 47%|████▋     | 22536/48008 [3:13:55<3:39:22,  1.94it/s] 47%|████▋     | 22537/48008 [3:13:55<3:35:18,  1.97it/s] 47%|████▋     | 22538/48008 [3:13:56<3:35:09,  1.97it/s] 47%|████▋     | 22539/48008 [3:13:56<3:35:02,  1.97it/s] 47%|████▋     | 22540/48008 [3:13:57<3:34:56,  1.97it/s] 47%|████▋     | 22541/48008 [3:13:57<3:31:43,  2.00it/s] 47%|████▋     | 22542/48008 [3:13:58<3:28:51,  2.03it/s] 47%|████▋     | 22543/48008 [3:13:58<3:18:45,  2.14it/s] 47%|████▋     | 22544/48008 [3:13:59<3:22:57,  2.09it/s] 47%|████▋     | 22545/48008 [3:13:59<3:47:29,  1.87it/s] 47%|████▋     | 22546/48008 [3:14:00<3:39:51,  1.93it/s] 47%|████▋     | 22547/48008 [3:14:00<3:34:47,  1.98it/s] 47%|████▋     | 22548/48008 [3:14:01<3:39:02,  1.94it/s] 47%|████▋     | 22549/48008 [3:14:01<3:34:25,  1.98it/s] 47%|████▋     | 22550/48008 [3:14:02<3:31:23,  2.01it/s]                                                         {'loss': 4.2507, 'grad_norm': 0.4295805096626282, 'learning_rate': 0.00010606148975170805, 'epoch': 0.47}
 47%|████▋     | 22550/48008 [3:14:02<3:31:23,  2.01it/s] 47%|████▋     | 22551/48008 [3:14:02<3:53:27,  1.82it/s] 47%|████▋     | 22552/48008 [3:14:03<4:09:16,  1.70it/s] 47%|████▋     | 22553/48008 [3:14:04<3:47:26,  1.87it/s] 47%|████▋     | 22554/48008 [3:14:04<3:40:48,  1.92it/s] 47%|████▋     | 22555/48008 [3:14:05<3:38:07,  1.94it/s] 47%|████▋     | 22556/48008 [3:14:05<3:36:27,  1.96it/s] 47%|████▋     | 22557/48008 [3:14:06<3:35:40,  1.97it/s] 47%|████▋     | 22558/48008 [3:14:06<3:37:05,  1.95it/s] 47%|████▋     | 22559/48008 [3:14:07<3:32:51,  1.99it/s] 47%|████▋     | 22560/48008 [3:14:07<4:21:10,  1.62it/s] 47%|████▋     | 22561/48008 [3:14:08<3:55:20,  1.80it/s] 47%|████▋     | 22562/48008 [3:14:08<3:48:10,  1.86it/s] 47%|████▋     | 22563/48008 [3:14:09<3:43:33,  1.90it/s] 47%|████▋     | 22564/48008 [3:14:09<3:37:27,  1.95it/s] 47%|████▋     | 22565/48008 [3:14:10<3:33:10,  1.99it/s] 47%|████▋     | 22566/48008 [3:14:10<3:30:29,  2.01it/s] 47%|████▋     | 22567/48008 [3:14:11<3:28:23,  2.03it/s] 47%|████▋     | 22568/48008 [3:14:11<3:18:33,  2.14it/s] 47%|████▋     | 22569/48008 [3:14:12<3:22:27,  2.09it/s] 47%|████▋     | 22570/48008 [3:14:12<3:27:23,  2.04it/s] 47%|████▋     | 22571/48008 [3:14:13<3:26:01,  2.06it/s] 47%|████▋     | 22572/48008 [3:14:13<3:25:25,  2.06it/s] 47%|████▋     | 22573/48008 [3:14:14<3:16:29,  2.16it/s] 47%|████▋     | 22574/48008 [3:14:14<3:43:12,  1.90it/s] 47%|████▋     | 22575/48008 [3:14:15<3:37:28,  1.95it/s] 47%|████▋     | 22576/48008 [3:14:15<3:25:02,  2.07it/s] 47%|████▋     | 22577/48008 [3:14:16<3:24:22,  2.07it/s] 47%|████▋     | 22578/48008 [3:14:16<3:23:57,  2.08it/s] 47%|████▋     | 22579/48008 [3:14:17<3:15:02,  2.17it/s] 47%|████▋     | 22580/48008 [3:14:17<3:16:57,  2.15it/s] 47%|████▋     | 22581/48008 [3:14:17<3:18:32,  2.13it/s] 47%|████▋     | 22582/48008 [3:14:18<3:20:17,  2.12it/s] 47%|████▋     | 22583/48008 [3:14:18<3:20:57,  2.11it/s] 47%|████▋     | 22584/48008 [3:14:19<3:28:44,  2.03it/s] 47%|████▋     | 22585/48008 [3:14:19<3:27:41,  2.04it/s] 47%|████▋     | 22586/48008 [3:14:20<3:25:49,  2.06it/s] 47%|████▋     | 22587/48008 [3:14:20<3:30:40,  2.01it/s] 47%|████▋     | 22588/48008 [3:14:21<3:28:16,  2.03it/s] 47%|████▋     | 22589/48008 [3:14:22<3:51:20,  1.83it/s] 47%|████▋     | 22590/48008 [3:14:22<3:45:39,  1.88it/s] 47%|████▋     | 22591/48008 [3:14:23<3:41:54,  1.91it/s] 47%|████▋     | 22592/48008 [3:14:23<3:35:40,  1.96it/s] 47%|████▋     | 22593/48008 [3:14:24<3:34:54,  1.97it/s] 47%|████▋     | 22594/48008 [3:14:24<3:34:25,  1.98it/s] 47%|████▋     | 22595/48008 [3:14:25<3:38:36,  1.94it/s] 47%|████▋     | 22596/48008 [3:14:25<3:25:18,  2.06it/s] 47%|████▋     | 22597/48008 [3:14:26<5:01:56,  1.40it/s] 47%|████▋     | 22598/48008 [3:14:27<4:37:35,  1.53it/s] 47%|████▋     | 22599/48008 [3:14:27<4:20:01,  1.63it/s] 47%|████▋     | 22600/48008 [3:14:28<4:06:42,  1.72it/s]                                                         {'loss': 4.2904, 'grad_norm': 0.38667571544647217, 'learning_rate': 0.00010585319113481086, 'epoch': 0.47}
 47%|████▋     | 22600/48008 [3:14:28<4:06:42,  1.72it/s] 47%|████▋     | 22601/48008 [3:14:28<3:53:28,  1.81it/s] 47%|████▋     | 22602/48008 [3:14:29<3:47:28,  1.86it/s] 47%|████▋     | 22603/48008 [3:14:29<3:40:13,  1.92it/s] 47%|████▋     | 22604/48008 [3:14:30<3:26:56,  2.05it/s] 47%|████▋     | 22605/48008 [3:14:30<3:17:44,  2.14it/s] 47%|████▋     | 22606/48008 [3:14:31<3:24:23,  2.07it/s] 47%|████▋     | 22607/48008 [3:14:31<3:24:24,  2.07it/s] 47%|████▋     | 22608/48008 [3:14:32<5:02:06,  1.40it/s] 47%|████▋     | 22609/48008 [3:14:33<4:36:07,  1.53it/s] 47%|████▋     | 22610/48008 [3:14:33<4:05:59,  1.72it/s] 47%|████▋     | 22611/48008 [3:14:34<4:00:14,  1.76it/s] 47%|████▋     | 22612/48008 [3:14:34<3:40:56,  1.92it/s] 47%|████▋     | 22613/48008 [3:14:35<3:27:39,  2.04it/s] 47%|████▋     | 22614/48008 [3:14:35<3:18:17,  2.13it/s] 47%|████▋     | 22615/48008 [3:14:36<3:20:04,  2.12it/s] 47%|████▋     | 22616/48008 [3:14:36<3:20:53,  2.11it/s] 47%|████▋     | 22617/48008 [3:14:37<3:25:15,  2.06it/s] 47%|████▋     | 22618/48008 [3:14:37<3:17:00,  2.15it/s] 47%|████▋     | 22619/48008 [3:14:37<3:18:28,  2.13it/s] 47%|████▋     | 22620/48008 [3:14:38<3:19:19,  2.12it/s] 47%|████▋     | 22621/48008 [3:14:38<3:24:06,  2.07it/s] 47%|████▋     | 22622/48008 [3:14:39<3:26:25,  2.05it/s] 47%|████▋     | 22623/48008 [3:14:39<3:30:44,  2.01it/s] 47%|████▋     | 22624/48008 [3:14:41<5:06:28,  1.38it/s] 47%|████▋     | 22625/48008 [3:14:41<4:35:11,  1.54it/s] 47%|████▋     | 22626/48008 [3:14:42<4:05:25,  1.72it/s] 47%|████▋     | 22627/48008 [3:14:42<3:57:02,  1.78it/s] 47%|████▋     | 22628/48008 [3:14:43<3:47:09,  1.86it/s] 47%|████▋     | 22629/48008 [3:14:43<3:42:44,  1.90it/s] 47%|████▋     | 22630/48008 [3:14:44<3:37:22,  1.95it/s] 47%|████▋     | 22631/48008 [3:14:44<3:57:42,  1.78it/s] 47%|████▋     | 22632/48008 [3:14:45<3:50:57,  1.83it/s] 47%|████▋     | 22633/48008 [3:14:45<3:42:46,  1.90it/s] 47%|████▋     | 22634/48008 [3:14:46<4:26:48,  1.59it/s] 47%|████▋     | 22635/48008 [3:14:47<4:07:13,  1.71it/s] 47%|████▋     | 22636/48008 [3:14:47<3:45:38,  1.87it/s] 47%|████▋     | 22637/48008 [3:14:48<3:46:06,  1.87it/s] 47%|████▋     | 22638/48008 [3:14:48<3:39:06,  1.93it/s] 47%|████▋     | 22639/48008 [3:14:49<3:34:32,  1.97it/s] 47%|████▋     | 22640/48008 [3:14:49<4:22:08,  1.61it/s] 47%|████▋     | 22641/48008 [3:14:50<4:07:15,  1.71it/s] 47%|████▋     | 22642/48008 [3:14:50<3:45:58,  1.87it/s] 47%|████▋     | 22643/48008 [3:14:51<3:41:52,  1.91it/s] 47%|████▋     | 22644/48008 [3:14:52<4:25:49,  1.59it/s] 47%|████▋     | 22645/48008 [3:14:52<4:07:35,  1.71it/s] 47%|████▋     | 22646/48008 [3:14:53<3:54:02,  1.81it/s] 47%|████▋     | 22647/48008 [3:14:53<3:51:38,  1.82it/s] 47%|████▋     | 22648/48008 [3:14:54<3:34:43,  1.97it/s] 47%|████▋     | 22649/48008 [3:14:54<3:33:47,  1.98it/s] 47%|████▋     | 22650/48008 [3:14:55<3:22:29,  2.09it/s]                                                         {'loss': 4.2756, 'grad_norm': 0.459438294172287, 'learning_rate': 0.0001056448925179137, 'epoch': 0.47}
 47%|████▋     | 22650/48008 [3:14:55<3:22:29,  2.09it/s] 47%|████▋     | 22651/48008 [3:14:55<3:47:51,  1.85it/s] 47%|████▋     | 22652/48008 [3:14:56<3:32:01,  1.99it/s] 47%|████▋     | 22653/48008 [3:14:56<3:21:25,  2.10it/s] 47%|████▋     | 22654/48008 [3:14:57<3:21:56,  2.09it/s] 47%|████▋     | 22655/48008 [3:14:57<3:21:58,  2.09it/s] 47%|████▋     | 22656/48008 [3:14:57<3:13:43,  2.18it/s] 47%|████▋     | 22657/48008 [3:14:58<3:19:20,  2.12it/s] 47%|████▋     | 22658/48008 [3:14:58<3:20:12,  2.11it/s] 47%|████▋     | 22659/48008 [3:14:59<4:10:42,  1.69it/s] 47%|████▋     | 22660/48008 [3:15:00<3:59:06,  1.77it/s] 47%|████▋     | 22661/48008 [3:15:00<3:51:32,  1.82it/s] 47%|████▋     | 22662/48008 [3:15:01<3:34:23,  1.97it/s] 47%|████▋     | 22663/48008 [3:15:01<3:31:07,  2.00it/s] 47%|████▋     | 22664/48008 [3:15:02<3:28:11,  2.03it/s] 47%|████▋     | 22665/48008 [3:15:02<3:28:56,  2.02it/s] 47%|████▋     | 22666/48008 [3:15:03<3:26:32,  2.05it/s] 47%|████▋     | 22667/48008 [3:15:03<3:27:47,  2.03it/s] 47%|████▋     | 22668/48008 [3:15:04<3:33:25,  1.98it/s] 47%|████▋     | 22669/48008 [3:15:04<3:32:50,  1.98it/s] 47%|████▋     | 22670/48008 [3:15:05<3:21:13,  2.10it/s] 47%|████▋     | 22671/48008 [3:15:05<3:22:15,  2.09it/s] 47%|████▋     | 22672/48008 [3:15:06<3:25:14,  2.06it/s] 47%|████▋     | 22673/48008 [3:15:06<3:49:47,  1.84it/s] 47%|████▋     | 22674/48008 [3:15:07<3:47:15,  1.86it/s] 47%|████▋     | 22675/48008 [3:15:07<3:31:26,  2.00it/s] 47%|████▋     | 22676/48008 [3:15:08<3:31:46,  1.99it/s] 47%|████▋     | 22677/48008 [3:15:08<3:21:17,  2.10it/s] 47%|████▋     | 22678/48008 [3:15:09<3:29:10,  2.02it/s] 47%|████▋     | 22679/48008 [3:15:09<3:19:18,  2.12it/s] 47%|████▋     | 22680/48008 [3:15:09<3:12:03,  2.20it/s] 47%|████▋     | 22681/48008 [3:15:10<3:15:26,  2.16it/s] 47%|████▋     | 22682/48008 [3:15:10<3:17:19,  2.14it/s] 47%|████▋     | 22683/48008 [3:15:11<3:10:44,  2.21it/s] 47%|████▋     | 22684/48008 [3:15:11<3:05:17,  2.28it/s] 47%|████▋     | 22685/48008 [3:15:12<3:13:35,  2.18it/s] 47%|████▋     | 22686/48008 [3:15:12<3:08:08,  2.24it/s] 47%|████▋     | 22687/48008 [3:15:13<3:16:05,  2.15it/s] 47%|████▋     | 22688/48008 [3:15:13<3:20:20,  2.11it/s] 47%|████▋     | 22689/48008 [3:15:14<3:21:06,  2.10it/s] 47%|████▋     | 22690/48008 [3:15:14<3:13:17,  2.18it/s] 47%|████▋     | 22691/48008 [3:15:15<3:16:13,  2.15it/s] 47%|████▋     | 22692/48008 [3:15:15<3:20:42,  2.10it/s] 47%|████▋     | 22693/48008 [3:15:16<3:28:44,  2.02it/s] 47%|████▋     | 22694/48008 [3:15:16<3:27:14,  2.04it/s] 47%|████▋     | 22695/48008 [3:15:17<3:26:07,  2.05it/s] 47%|████▋     | 22696/48008 [3:15:17<3:16:55,  2.14it/s] 47%|████▋     | 22697/48008 [3:15:18<4:55:25,  1.43it/s] 47%|████▋     | 22698/48008 [3:15:19<4:27:20,  1.58it/s] 47%|████▋     | 22699/48008 [3:15:19<4:07:22,  1.71it/s] 47%|████▋     | 22700/48008 [3:15:20<4:01:36,  1.75it/s]                                                         {'loss': 4.226, 'grad_norm': 0.20908458530902863, 'learning_rate': 0.0001054365939010165, 'epoch': 0.47} 47%|████▋     | 22700/48008 [3:15:20<4:01:36,  1.75it/s]
 47%|████▋     | 22701/48008 [3:15:20<3:49:52,  1.83it/s] 47%|████▋     | 22702/48008 [3:15:21<3:33:34,  1.97it/s] 47%|████▋     | 22703/48008 [3:15:21<3:21:53,  2.09it/s] 47%|████▋     | 22704/48008 [3:15:22<3:22:22,  2.08it/s] 47%|████▋     | 22705/48008 [3:15:22<3:14:08,  2.17it/s] 47%|████▋     | 22706/48008 [3:15:22<3:16:35,  2.15it/s] 47%|████▋     | 22707/48008 [3:15:23<3:23:04,  2.08it/s] 47%|████▋     | 22708/48008 [3:15:23<3:26:05,  2.05it/s] 47%|████▋     | 22709/48008 [3:15:24<3:25:03,  2.06it/s] 47%|████▋     | 22710/48008 [3:15:24<3:24:07,  2.07it/s] 47%|████▋     | 22711/48008 [3:15:25<3:24:00,  2.07it/s] 47%|████▋     | 22712/48008 [3:15:25<3:22:59,  2.08it/s] 47%|████▋     | 22713/48008 [3:15:26<3:25:56,  2.05it/s] 47%|████▋     | 22714/48008 [3:15:26<3:24:55,  2.06it/s] 47%|████▋     | 22715/48008 [3:15:27<3:24:19,  2.06it/s] 47%|████▋     | 22716/48008 [3:15:27<3:28:05,  2.03it/s] 47%|████▋     | 22717/48008 [3:15:28<3:26:17,  2.04it/s] 47%|████▋     | 22718/48008 [3:15:28<3:16:36,  2.14it/s] 47%|████▋     | 22719/48008 [3:15:29<3:18:53,  2.12it/s] 47%|████▋     | 22720/48008 [3:15:29<3:20:12,  2.11it/s] 47%|████▋     | 22721/48008 [3:15:30<3:20:30,  2.10it/s] 47%|████▋     | 22722/48008 [3:15:30<3:24:46,  2.06it/s] 47%|████▋     | 22723/48008 [3:15:31<3:31:20,  1.99it/s] 47%|████▋     | 22724/48008 [3:15:31<3:28:53,  2.02it/s] 47%|████▋     | 22725/48008 [3:15:32<3:34:26,  1.96it/s] 47%|████▋     | 22726/48008 [3:15:32<3:31:11,  2.00it/s] 47%|████▋     | 22727/48008 [3:15:33<3:29:00,  2.02it/s] 47%|████▋     | 22728/48008 [3:15:33<3:29:49,  2.01it/s] 47%|████▋     | 22729/48008 [3:15:34<3:27:59,  2.03it/s] 47%|████▋     | 22730/48008 [3:15:34<3:26:36,  2.04it/s] 47%|████▋     | 22731/48008 [3:15:35<3:25:15,  2.05it/s] 47%|████▋     | 22732/48008 [3:15:35<3:16:22,  2.15it/s] 47%|████▋     | 22733/48008 [3:15:35<3:10:20,  2.21it/s] 47%|████▋     | 22734/48008 [3:15:36<3:13:41,  2.17it/s] 47%|████▋     | 22735/48008 [3:15:37<3:40:46,  1.91it/s] 47%|████▋     | 22736/48008 [3:15:37<3:35:32,  1.95it/s] 47%|████▋     | 22737/48008 [3:15:38<3:32:03,  1.99it/s] 47%|████▋     | 22738/48008 [3:15:38<3:29:16,  2.01it/s] 47%|████▋     | 22739/48008 [3:15:39<3:30:24,  2.00it/s] 47%|████▋     | 22740/48008 [3:15:39<3:19:45,  2.11it/s] 47%|████▋     | 22741/48008 [3:15:39<3:20:32,  2.10it/s] 47%|████▋     | 22742/48008 [3:15:40<3:21:28,  2.09it/s] 47%|████▋     | 22743/48008 [3:15:40<3:22:13,  2.08it/s] 47%|████▋     | 22744/48008 [3:15:41<3:27:34,  2.03it/s] 47%|████▋     | 22745/48008 [3:15:41<3:28:24,  2.02it/s] 47%|████▋     | 22746/48008 [3:15:42<3:31:21,  1.99it/s] 47%|████▋     | 22747/48008 [3:15:42<3:28:10,  2.02it/s] 47%|████▋     | 22748/48008 [3:15:43<3:51:16,  1.82it/s] 47%|████▋     | 22749/48008 [3:15:44<3:34:12,  1.97it/s] 47%|████▋     | 22750/48008 [3:15:44<3:37:46,  1.93it/s]                                                         {'loss': 4.2852, 'grad_norm': 0.11928576976060867, 'learning_rate': 0.00010522829528411933, 'epoch': 0.47} 47%|████▋     | 22750/48008 [3:15:44<3:37:46,  1.93it/s]
 47%|████▋     | 22751/48008 [3:15:45<3:33:20,  1.97it/s] 47%|████▋     | 22752/48008 [3:15:45<3:30:28,  2.00it/s] 47%|████▋     | 22753/48008 [3:15:45<3:19:21,  2.11it/s] 47%|████▋     | 22754/48008 [3:15:46<3:20:29,  2.10it/s] 47%|████▋     | 22755/48008 [3:15:46<3:12:50,  2.18it/s] 47%|████▋     | 22756/48008 [3:15:47<3:15:15,  2.16it/s] 47%|████▋     | 22757/48008 [3:15:47<3:22:05,  2.08it/s] 47%|████▋     | 22758/48008 [3:15:48<3:46:09,  1.86it/s] 47%|████▋     | 22759/48008 [3:15:49<3:38:57,  1.92it/s] 47%|████▋     | 22760/48008 [3:15:49<3:36:12,  1.95it/s] 47%|████▋     | 22761/48008 [3:15:50<3:35:33,  1.95it/s] 47%|████▋     | 22762/48008 [3:15:50<3:32:00,  1.98it/s] 47%|████▋     | 22763/48008 [3:15:51<3:34:14,  1.96it/s] 47%|████▋     | 22764/48008 [3:15:51<3:22:50,  2.07it/s] 47%|████▋     | 22765/48008 [3:15:51<3:14:21,  2.16it/s] 47%|████▋     | 22766/48008 [3:15:52<3:17:08,  2.13it/s] 47%|████▋     | 22767/48008 [3:15:52<3:18:56,  2.11it/s] 47%|████▋     | 22768/48008 [3:15:53<3:19:58,  2.10it/s] 47%|████▋     | 22769/48008 [3:15:53<3:20:22,  2.10it/s] 47%|████▋     | 22770/48008 [3:15:54<3:25:11,  2.05it/s] 47%|████▋     | 22771/48008 [3:15:54<3:16:14,  2.14it/s] 47%|████▋     | 22772/48008 [3:15:55<3:05:48,  2.26it/s] 47%|████▋     | 22773/48008 [3:15:55<3:18:31,  2.12it/s] 47%|████▋     | 22774/48008 [3:15:56<3:20:02,  2.10it/s] 47%|████▋     | 22775/48008 [3:15:56<3:21:00,  2.09it/s] 47%|████▋     | 22776/48008 [3:15:57<3:23:45,  2.06it/s] 47%|████▋     | 22777/48008 [3:15:57<3:28:40,  2.02it/s] 47%|████▋     | 22778/48008 [3:15:58<3:29:53,  2.00it/s] 47%|████▋     | 22779/48008 [3:15:58<3:30:04,  2.00it/s] 47%|████▋     | 22780/48008 [3:15:59<3:30:04,  2.00it/s] 47%|████▋     | 22781/48008 [3:15:59<3:28:08,  2.02it/s] 47%|████▋     | 22782/48008 [3:16:00<3:26:41,  2.03it/s] 47%|████▋     | 22783/48008 [3:16:00<3:16:59,  2.13it/s] 47%|████▋     | 22784/48008 [3:16:01<3:18:29,  2.12it/s] 47%|████▋     | 22785/48008 [3:16:01<3:19:38,  2.11it/s] 47%|████▋     | 22786/48008 [3:16:01<3:19:48,  2.10it/s] 47%|████▋     | 22787/48008 [3:16:02<3:27:58,  2.02it/s] 47%|████▋     | 22788/48008 [3:16:02<3:26:20,  2.04it/s] 47%|████▋     | 22789/48008 [3:16:03<3:27:52,  2.02it/s] 47%|████▋     | 22790/48008 [3:16:03<3:29:04,  2.01it/s] 47%|████▋     | 22791/48008 [3:16:04<3:27:20,  2.03it/s] 47%|████▋     | 22792/48008 [3:16:05<3:33:07,  1.97it/s] 47%|████▋     | 22793/48008 [3:16:05<3:21:48,  2.08it/s] 47%|████▋     | 22794/48008 [3:16:05<3:13:47,  2.17it/s] 47%|████▋     | 22795/48008 [3:16:07<4:54:18,  1.43it/s] 47%|████▋     | 22796/48008 [3:16:07<4:26:01,  1.58it/s] 47%|████▋     | 22797/48008 [3:16:08<4:06:50,  1.70it/s] 47%|████▋     | 22798/48008 [3:16:08<3:53:42,  1.80it/s] 47%|████▋     | 22799/48008 [3:16:09<3:46:58,  1.85it/s] 47%|████▋     | 22800/48008 [3:16:09<3:39:25,  1.91it/s]                                                         {'loss': 4.2387, 'grad_norm': 0.12749941647052765, 'learning_rate': 0.00010501999666722213, 'epoch': 0.47} 47%|████▋     | 22800/48008 [3:16:09<3:39:25,  1.91it/s]
 47%|████▋     | 22801/48008 [3:16:10<3:37:23,  1.93it/s] 47%|████▋     | 22802/48008 [3:16:10<3:33:03,  1.97it/s] 47%|████▋     | 22803/48008 [3:16:11<3:32:16,  1.98it/s] 48%|████▊     | 22804/48008 [3:16:11<3:29:42,  2.00it/s] 48%|████▊     | 22805/48008 [3:16:11<3:27:43,  2.02it/s] 48%|████▊     | 22806/48008 [3:16:12<3:26:06,  2.04it/s] 48%|████▊     | 22807/48008 [3:16:12<3:25:10,  2.05it/s] 48%|████▊     | 22808/48008 [3:16:13<3:24:08,  2.06it/s] 48%|████▊     | 22809/48008 [3:16:14<4:13:51,  1.65it/s] 48%|████▊     | 22810/48008 [3:16:14<3:57:51,  1.77it/s] 48%|████▊     | 22811/48008 [3:16:15<3:46:27,  1.85it/s] 48%|████▊     | 22812/48008 [3:16:15<3:43:54,  1.88it/s] 48%|████▊     | 22813/48008 [3:16:16<3:37:26,  1.93it/s] 48%|████▊     | 22814/48008 [3:16:16<3:33:02,  1.97it/s] 48%|████▊     | 22815/48008 [3:16:17<3:30:04,  2.00it/s] 48%|████▊     | 22816/48008 [3:16:17<3:34:39,  1.96it/s] 48%|████▊     | 22817/48008 [3:16:18<3:34:11,  1.96it/s] 48%|████▊     | 22818/48008 [3:16:19<5:07:47,  1.36it/s] 48%|████▊     | 22819/48008 [3:16:20<4:35:39,  1.52it/s] 48%|████▊     | 22820/48008 [3:16:20<4:00:46,  1.74it/s] 48%|████▊     | 22821/48008 [3:16:20<3:49:13,  1.83it/s] 48%|████▊     | 22822/48008 [3:16:21<3:33:04,  1.97it/s] 48%|████▊     | 22823/48008 [3:16:21<3:30:04,  2.00it/s] 48%|████▊     | 22824/48008 [3:16:22<3:28:01,  2.02it/s] 48%|████▊     | 22825/48008 [3:16:22<3:33:09,  1.97it/s] 48%|████▊     | 22826/48008 [3:16:23<3:21:36,  2.08it/s] 48%|████▊     | 22827/48008 [3:16:23<3:21:51,  2.08it/s] 48%|████▊     | 22828/48008 [3:16:24<3:22:04,  2.08it/s] 48%|████▊     | 22829/48008 [3:16:25<4:11:20,  1.67it/s] 48%|████▊     | 22830/48008 [3:16:25<3:56:33,  1.77it/s] 48%|████▊     | 22831/48008 [3:16:26<3:46:06,  1.86it/s] 48%|████▊     | 22832/48008 [3:16:26<3:43:13,  1.88it/s] 48%|████▊     | 22833/48008 [3:16:27<3:39:52,  1.91it/s] 48%|████▊     | 22834/48008 [3:16:28<5:12:02,  1.34it/s] 48%|████▊     | 22835/48008 [3:16:28<4:38:39,  1.51it/s] 48%|████▊     | 22836/48008 [3:16:29<4:20:26,  1.61it/s] 48%|████▊     | 22837/48008 [3:16:29<4:02:13,  1.73it/s] 48%|████▊     | 22838/48008 [3:16:30<3:54:32,  1.79it/s] 48%|████▊     | 22839/48008 [3:16:30<3:47:58,  1.84it/s] 48%|████▊     | 22840/48008 [3:16:31<3:31:32,  1.98it/s] 48%|████▊     | 22841/48008 [3:16:31<3:31:23,  1.98it/s] 48%|████▊     | 22842/48008 [3:16:32<3:31:17,  1.99it/s] 48%|████▊     | 22843/48008 [3:16:32<3:28:23,  2.01it/s] 48%|████▊     | 22844/48008 [3:16:33<3:26:34,  2.03it/s] 48%|████▊     | 22845/48008 [3:16:33<3:25:31,  2.04it/s] 48%|████▊     | 22846/48008 [3:16:34<3:24:18,  2.05it/s] 48%|████▊     | 22847/48008 [3:16:34<3:15:10,  2.15it/s] 48%|████▊     | 22848/48008 [3:16:35<3:16:42,  2.13it/s] 48%|████▊     | 22849/48008 [3:16:35<3:21:09,  2.08it/s] 48%|████▊     | 22850/48008 [3:16:36<3:21:42,  2.08it/s]                                                         {'loss': 4.2716, 'grad_norm': 0.10764901340007782, 'learning_rate': 0.00010481169805032496, 'epoch': 0.48}
 48%|████▊     | 22850/48008 [3:16:36<3:21:42,  2.08it/s] 48%|████▊     | 22851/48008 [3:16:36<3:22:08,  2.07it/s] 48%|████▊     | 22852/48008 [3:16:36<3:22:00,  2.08it/s] 48%|████▊     | 22853/48008 [3:16:37<3:13:18,  2.17it/s] 48%|████▊     | 22854/48008 [3:16:37<3:15:27,  2.14it/s] 48%|████▊     | 22855/48008 [3:16:38<3:17:30,  2.12it/s] 48%|████▊     | 22856/48008 [3:16:39<4:08:03,  1.69it/s] 48%|████▊     | 22857/48008 [3:16:39<3:59:26,  1.75it/s] 48%|████▊     | 22858/48008 [3:16:40<3:54:58,  1.78it/s] 48%|████▊     | 22859/48008 [3:16:40<3:45:01,  1.86it/s] 48%|████▊     | 22860/48008 [3:16:41<3:40:46,  1.90it/s] 48%|████▊     | 22861/48008 [3:16:42<4:24:46,  1.58it/s] 48%|████▊     | 22862/48008 [3:16:42<4:13:48,  1.65it/s] 48%|████▊     | 22863/48008 [3:16:43<4:05:12,  1.71it/s] 48%|████▊     | 22864/48008 [3:16:43<3:51:47,  1.81it/s] 48%|████▊     | 22865/48008 [3:16:44<3:42:23,  1.88it/s] 48%|████▊     | 22866/48008 [3:16:44<3:36:19,  1.94it/s] 48%|████▊     | 22867/48008 [3:16:45<3:31:56,  1.98it/s] 48%|████▊     | 22868/48008 [3:16:45<3:31:24,  1.98it/s] 48%|████▊     | 22869/48008 [3:16:46<3:31:17,  1.98it/s] 48%|████▊     | 22870/48008 [3:16:46<3:52:44,  1.80it/s] 48%|████▊     | 22871/48008 [3:16:47<3:34:59,  1.95it/s] 48%|████▊     | 22872/48008 [3:16:47<3:37:46,  1.92it/s] 48%|████▊     | 22873/48008 [3:16:48<3:32:57,  1.97it/s] 48%|████▊     | 22874/48008 [3:16:48<3:31:48,  1.98it/s] 48%|████▊     | 22875/48008 [3:16:49<4:18:54,  1.62it/s] 48%|████▊     | 22876/48008 [3:16:50<4:01:54,  1.73it/s] 48%|████▊     | 22877/48008 [3:16:50<3:50:17,  1.82it/s] 48%|████▊     | 22878/48008 [3:16:51<3:41:56,  1.89it/s] 48%|████▊     | 22879/48008 [3:16:51<3:38:25,  1.92it/s] 48%|████▊     | 22880/48008 [3:16:52<3:40:58,  1.90it/s] 48%|████▊     | 22881/48008 [3:16:53<5:11:11,  1.35it/s] 48%|████▊     | 22882/48008 [3:16:53<4:38:15,  1.50it/s] 48%|████▊     | 22883/48008 [3:16:54<4:15:50,  1.64it/s] 48%|████▊     | 22884/48008 [3:16:54<4:00:05,  1.74it/s] 48%|████▊     | 22885/48008 [3:16:55<3:47:51,  1.84it/s] 48%|████▊     | 22886/48008 [3:16:55<3:40:19,  1.90it/s] 48%|████▊     | 22887/48008 [3:16:56<3:59:37,  1.75it/s] 48%|████▊     | 22888/48008 [3:16:56<3:47:31,  1.84it/s] 48%|████▊     | 22889/48008 [3:16:57<3:39:25,  1.91it/s] 48%|████▊     | 22890/48008 [3:16:57<3:41:11,  1.89it/s] 48%|████▊     | 22891/48008 [3:16:58<3:38:12,  1.92it/s] 48%|████▊     | 22892/48008 [3:16:58<3:25:03,  2.04it/s] 48%|████▊     | 22893/48008 [3:16:59<3:26:22,  2.03it/s] 48%|████▊     | 22894/48008 [3:16:59<3:27:42,  2.02it/s] 48%|████▊     | 22895/48008 [3:17:00<3:17:54,  2.11it/s] 48%|████▊     | 22896/48008 [3:17:00<3:18:56,  2.10it/s] 48%|████▊     | 22897/48008 [3:17:01<3:19:48,  2.09it/s] 48%|████▊     | 22898/48008 [3:17:01<3:23:15,  2.06it/s] 48%|████▊     | 22899/48008 [3:17:02<3:22:40,  2.06it/s] 48%|████▊     | 22900/48008 [3:17:02<3:25:25,  2.04it/s]                                                         {'loss': 4.2956, 'grad_norm': 0.10352559387683868, 'learning_rate': 0.00010460339943342777, 'epoch': 0.48}
 48%|████▊     | 22900/48008 [3:17:02<3:25:25,  2.04it/s] 48%|████▊     | 22901/48008 [3:17:03<3:48:11,  1.83it/s] 48%|████▊     | 22902/48008 [3:17:03<3:31:42,  1.98it/s] 48%|████▊     | 22903/48008 [3:17:04<3:28:31,  2.01it/s] 48%|████▊     | 22904/48008 [3:17:04<3:29:09,  2.00it/s] 48%|████▊     | 22905/48008 [3:17:05<3:26:59,  2.02it/s] 48%|████▊     | 22906/48008 [3:17:05<3:30:35,  1.99it/s] 48%|████▊     | 22907/48008 [3:17:06<3:27:52,  2.01it/s] 48%|████▊     | 22908/48008 [3:17:06<3:25:23,  2.04it/s] 48%|████▊     | 22909/48008 [3:17:07<3:16:25,  2.13it/s] 48%|████▊     | 22910/48008 [3:17:07<3:23:06,  2.06it/s] 48%|████▊     | 22911/48008 [3:17:08<3:22:19,  2.07it/s] 48%|████▊     | 22912/48008 [3:17:08<3:21:23,  2.08it/s] 48%|████▊     | 22913/48008 [3:17:09<3:13:27,  2.16it/s] 48%|████▊     | 22914/48008 [3:17:09<3:16:08,  2.13it/s] 48%|████▊     | 22915/48008 [3:17:10<3:18:18,  2.11it/s] 48%|████▊     | 22916/48008 [3:17:10<3:19:19,  2.10it/s] 48%|████▊     | 22917/48008 [3:17:11<3:22:30,  2.06it/s] 48%|████▊     | 22918/48008 [3:17:11<3:24:47,  2.04it/s] 48%|████▊     | 22919/48008 [3:17:12<3:30:50,  1.98it/s] 48%|████▊     | 22920/48008 [3:17:12<3:31:06,  1.98it/s] 48%|████▊     | 22921/48008 [3:17:13<3:35:46,  1.94it/s] 48%|████▊     | 22922/48008 [3:17:13<3:31:10,  1.98it/s] 48%|████▊     | 22923/48008 [3:17:14<3:28:23,  2.01it/s] 48%|████▊     | 22924/48008 [3:17:14<3:29:23,  2.00it/s] 48%|████▊     | 22925/48008 [3:17:15<3:17:55,  2.11it/s] 48%|████▊     | 22926/48008 [3:17:15<3:21:21,  2.08it/s] 48%|████▊     | 22927/48008 [3:17:16<3:21:09,  2.08it/s] 48%|████▊     | 22928/48008 [3:17:16<3:24:26,  2.04it/s] 48%|████▊     | 22929/48008 [3:17:17<3:25:41,  2.03it/s] 48%|████▊     | 22930/48008 [3:17:17<4:15:47,  1.63it/s] 48%|████▊     | 22931/48008 [3:17:18<4:04:49,  1.71it/s] 48%|████▊     | 22932/48008 [3:17:18<3:51:33,  1.80it/s] 48%|████▊     | 22933/48008 [3:17:19<3:42:12,  1.88it/s] 48%|████▊     | 22934/48008 [3:17:19<3:23:45,  2.05it/s] 48%|████▊     | 22935/48008 [3:17:20<3:26:31,  2.02it/s] 48%|████▊     | 22936/48008 [3:17:21<4:14:26,  1.64it/s] 48%|████▊     | 22937/48008 [3:17:22<5:35:19,  1.25it/s] 48%|████▊     | 22938/48008 [3:17:22<4:47:11,  1.45it/s] 48%|████▊     | 22939/48008 [3:17:23<4:13:32,  1.65it/s] 48%|████▊     | 22940/48008 [3:17:23<4:00:22,  1.74it/s] 48%|████▊     | 22941/48008 [3:17:24<3:48:30,  1.83it/s] 48%|████▊     | 22942/48008 [3:17:24<3:40:42,  1.89it/s] 48%|████▊     | 22943/48008 [3:17:25<3:42:23,  1.88it/s] 48%|████▊     | 22944/48008 [3:17:25<3:37:02,  1.92it/s] 48%|████▊     | 22945/48008 [3:17:26<3:32:26,  1.97it/s] 48%|████▊     | 22946/48008 [3:17:26<3:29:20,  2.00it/s] 48%|████▊     | 22947/48008 [3:17:27<3:31:05,  1.98it/s] 48%|████▊     | 22948/48008 [3:17:27<3:31:28,  1.98it/s] 48%|████▊     | 22949/48008 [3:17:28<3:16:04,  2.13it/s] 48%|████▊     | 22950/48008 [3:17:28<3:17:36,  2.11it/s]{'loss': 4.2202, 'grad_norm': 0.10774071514606476, 'learning_rate': 0.00010439510081653059, 'epoch': 0.48}                                                          48%|████▊     | 22950/48008 [3:17:28<3:17:36,  2.11it/s]
 48%|████▊     | 22951/48008 [3:17:29<3:23:20,  2.05it/s] 48%|████▊     | 22952/48008 [3:17:29<3:22:37,  2.06it/s] 48%|████▊     | 22953/48008 [3:17:30<3:45:59,  1.85it/s] 48%|████▊     | 22954/48008 [3:17:30<4:02:06,  1.72it/s] 48%|████▊     | 22955/48008 [3:17:31<3:53:02,  1.79it/s] 48%|████▊     | 22956/48008 [3:17:32<3:47:57,  1.83it/s] 48%|████▊     | 22957/48008 [3:17:32<3:40:09,  1.90it/s] 48%|████▊     | 22958/48008 [3:17:32<3:34:29,  1.95it/s] 48%|████▊     | 22959/48008 [3:17:33<3:55:11,  1.78it/s] 48%|████▊     | 22960/48008 [3:17:34<3:44:22,  1.86it/s] 48%|████▊     | 22961/48008 [3:17:34<3:25:01,  2.04it/s] 48%|████▊     | 22962/48008 [3:17:34<3:15:52,  2.13it/s] 48%|████▊     | 22963/48008 [3:17:35<3:17:35,  2.11it/s] 48%|████▊     | 22964/48008 [3:17:35<3:22:13,  2.06it/s] 48%|████▊     | 22965/48008 [3:17:36<3:21:49,  2.07it/s] 48%|████▊     | 22966/48008 [3:17:36<3:26:21,  2.02it/s] 48%|████▊     | 22967/48008 [3:17:37<3:24:19,  2.04it/s] 48%|████▊     | 22968/48008 [3:17:37<3:15:25,  2.14it/s] 48%|████▊     | 22969/48008 [3:17:38<3:16:57,  2.12it/s] 48%|████▊     | 22970/48008 [3:17:38<3:18:14,  2.11it/s] 48%|████▊     | 22971/48008 [3:17:39<3:22:18,  2.06it/s] 48%|████▊     | 22972/48008 [3:17:39<3:13:56,  2.15it/s] 48%|████▊     | 22973/48008 [3:17:40<3:07:56,  2.22it/s] 48%|████▊     | 22974/48008 [3:17:40<3:12:02,  2.17it/s] 48%|████▊     | 22975/48008 [3:17:41<3:17:25,  2.11it/s] 48%|████▊     | 22976/48008 [3:17:41<3:10:02,  2.20it/s] 48%|████▊     | 22977/48008 [3:17:42<3:16:28,  2.12it/s] 48%|████▊     | 22978/48008 [3:17:42<3:22:22,  2.06it/s] 48%|████▊     | 22979/48008 [3:17:42<3:13:44,  2.15it/s] 48%|████▊     | 22980/48008 [3:17:43<3:18:32,  2.10it/s] 48%|████▊     | 22981/48008 [3:17:43<3:21:58,  2.07it/s] 48%|████▊     | 22982/48008 [3:17:44<3:24:41,  2.04it/s] 48%|████▊     | 22983/48008 [3:17:44<3:10:34,  2.19it/s] 48%|████▊     | 22984/48008 [3:17:45<3:05:29,  2.25it/s] 48%|████▊     | 22985/48008 [3:17:45<3:13:00,  2.16it/s] 48%|████▊     | 22986/48008 [3:17:46<3:15:43,  2.13it/s] 48%|████▊     | 22987/48008 [3:17:46<3:22:14,  2.06it/s] 48%|████▊     | 22988/48008 [3:17:47<3:24:56,  2.03it/s] 48%|████▊     | 22989/48008 [3:17:47<3:23:10,  2.05it/s] 48%|████▊     | 22990/48008 [3:17:48<3:22:42,  2.06it/s] 48%|████▊     | 22991/48008 [3:17:48<3:27:10,  2.01it/s] 48%|████▊     | 22992/48008 [3:17:49<3:24:59,  2.03it/s] 48%|████▊     | 22993/48008 [3:17:49<3:24:11,  2.04it/s] 48%|████▊     | 22994/48008 [3:17:50<4:59:47,  1.39it/s] 48%|████▊     | 22995/48008 [3:17:51<4:53:57,  1.42it/s] 48%|████▊     | 22996/48008 [3:17:52<4:30:26,  1.54it/s] 48%|████▊     | 22997/48008 [3:17:52<4:09:20,  1.67it/s] 48%|████▊     | 22998/48008 [3:17:53<3:57:01,  1.76it/s] 48%|████▊     | 22999/48008 [3:17:53<3:46:09,  1.84it/s] 48%|████▊     | 23000/48008 [3:17:54<3:45:29,  1.85it/s]                                                         {'loss': 4.2498, 'grad_norm': 0.1014963835477829, 'learning_rate': 0.00010418680219963339, 'epoch': 0.48} 48%|████▊     | 23000/48008 [3:17:54<3:45:29,  1.85it/s]
 48%|████▊     | 23001/48008 [3:17:54<3:38:35,  1.91it/s] 48%|████▊     | 23002/48008 [3:17:55<3:25:20,  2.03it/s] 48%|████▊     | 23003/48008 [3:17:55<3:26:50,  2.01it/s] 48%|████▊     | 23004/48008 [3:17:56<3:48:45,  1.82it/s] 48%|████▊     | 23005/48008 [3:17:56<3:40:25,  1.89it/s] 48%|████▊     | 23006/48008 [3:17:57<3:34:26,  1.94it/s] 48%|████▊     | 23007/48008 [3:17:57<3:29:51,  1.99it/s] 48%|████▊     | 23008/48008 [3:17:58<3:29:34,  1.99it/s] 48%|████▊     | 23009/48008 [3:17:58<3:26:57,  2.01it/s] 48%|████▊     | 23010/48008 [3:17:59<3:16:35,  2.12it/s] 48%|████▊     | 23011/48008 [3:17:59<3:20:36,  2.08it/s] 48%|████▊     | 23012/48008 [3:18:00<3:23:23,  2.05it/s] 48%|████▊     | 23013/48008 [3:18:00<3:21:43,  2.07it/s] 48%|████▊     | 23014/48008 [3:18:01<3:21:25,  2.07it/s] 48%|████▊     | 23015/48008 [3:18:01<3:23:28,  2.05it/s] 48%|████▊     | 23016/48008 [3:18:02<3:27:28,  2.01it/s] 48%|████▊     | 23017/48008 [3:18:02<3:49:57,  1.81it/s] 48%|████▊     | 23018/48008 [3:18:03<4:30:05,  1.54it/s] 48%|████▊     | 23019/48008 [3:18:04<4:13:54,  1.64it/s] 48%|████▊     | 23020/48008 [3:18:04<3:57:35,  1.75it/s] 48%|████▊     | 23021/48008 [3:18:05<3:46:10,  1.84it/s] 48%|████▊     | 23022/48008 [3:18:05<3:40:58,  1.88it/s] 48%|████▊     | 23023/48008 [3:18:06<3:41:23,  1.88it/s] 48%|████▊     | 23024/48008 [3:18:06<3:59:13,  1.74it/s] 48%|████▊     | 23025/48008 [3:18:07<3:47:37,  1.83it/s] 48%|████▊     | 23026/48008 [3:18:07<3:42:16,  1.87it/s] 48%|████▊     | 23027/48008 [3:18:08<3:38:24,  1.91it/s] 48%|████▊     | 23028/48008 [3:18:08<3:32:29,  1.96it/s] 48%|████▊     | 23029/48008 [3:18:09<3:20:54,  2.07it/s] 48%|████▊     | 23030/48008 [3:18:09<3:22:59,  2.05it/s] 48%|████▊     | 23031/48008 [3:18:10<3:22:10,  2.06it/s] 48%|████▊     | 23032/48008 [3:18:10<3:26:10,  2.02it/s] 48%|████▊     | 23033/48008 [3:18:11<3:24:00,  2.04it/s] 48%|████▊     | 23034/48008 [3:18:11<3:22:24,  2.06it/s] 48%|████▊     | 23035/48008 [3:18:12<4:10:32,  1.66it/s] 48%|████▊     | 23036/48008 [3:18:13<3:55:21,  1.77it/s] 48%|████▊     | 23037/48008 [3:18:13<4:09:02,  1.67it/s] 48%|████▊     | 23038/48008 [3:18:14<3:57:35,  1.75it/s] 48%|████▊     | 23039/48008 [3:18:14<3:38:00,  1.91it/s] 48%|████▊     | 23040/48008 [3:18:15<3:32:05,  1.96it/s] 48%|████▊     | 23041/48008 [3:18:15<3:31:26,  1.97it/s] 48%|████▊     | 23042/48008 [3:18:16<3:19:54,  2.08it/s] 48%|████▊     | 23043/48008 [3:18:16<3:20:03,  2.08it/s] 48%|████▊     | 23044/48008 [3:18:16<3:19:22,  2.09it/s] 48%|████▊     | 23045/48008 [3:18:17<3:22:00,  2.06it/s] 48%|████▊     | 23046/48008 [3:18:17<3:26:03,  2.02it/s] 48%|████▊     | 23047/48008 [3:18:18<3:24:03,  2.04it/s] 48%|████▊     | 23048/48008 [3:18:18<3:26:18,  2.02it/s] 48%|████▊     | 23049/48008 [3:18:19<3:27:08,  2.01it/s] 48%|████▊     | 23050/48008 [3:18:19<3:27:14,  2.01it/s]                                                         {'loss': 4.3075, 'grad_norm': 0.10731831938028336, 'learning_rate': 0.00010397850358273622, 'epoch': 0.48}
 48%|████▊     | 23050/48008 [3:18:19<3:27:14,  2.01it/s] 48%|████▊     | 23051/48008 [3:18:20<3:25:06,  2.03it/s] 48%|████▊     | 23052/48008 [3:18:20<3:26:19,  2.02it/s] 48%|████▊     | 23053/48008 [3:18:22<5:00:42,  1.38it/s] 48%|████▊     | 23054/48008 [3:18:22<4:30:41,  1.54it/s] 48%|████▊     | 23055/48008 [3:18:23<4:01:34,  1.72it/s] 48%|████▊     | 23056/48008 [3:18:23<3:54:10,  1.78it/s] 48%|████▊     | 23057/48008 [3:18:24<3:48:37,  1.82it/s] 48%|████▊     | 23058/48008 [3:18:24<3:39:50,  1.89it/s] 48%|████▊     | 23059/48008 [3:18:25<3:33:38,  1.95it/s] 48%|████▊     | 23060/48008 [3:18:25<3:34:07,  1.94it/s] 48%|████▊     | 23061/48008 [3:18:26<3:53:38,  1.78it/s] 48%|████▊     | 23062/48008 [3:18:26<3:43:44,  1.86it/s] 48%|████▊     | 23063/48008 [3:18:27<3:28:06,  2.00it/s] 48%|████▊     | 23064/48008 [3:18:27<3:28:12,  2.00it/s] 48%|████▊     | 23065/48008 [3:18:28<3:32:27,  1.96it/s] 48%|████▊     | 23066/48008 [3:18:28<3:31:52,  1.96it/s] 48%|████▊     | 23067/48008 [3:18:29<3:35:21,  1.93it/s] 48%|████▊     | 23068/48008 [3:18:29<3:33:20,  1.95it/s] 48%|████▊     | 23069/48008 [3:18:30<3:29:01,  1.99it/s] 48%|████▊     | 23070/48008 [3:18:30<3:28:59,  1.99it/s] 48%|████▊     | 23071/48008 [3:18:31<3:17:56,  2.10it/s] 48%|████▊     | 23072/48008 [3:18:31<3:21:31,  2.06it/s] 48%|████▊     | 23073/48008 [3:18:32<3:20:19,  2.07it/s] 48%|████▊     | 23074/48008 [3:18:32<3:19:35,  2.08it/s] 48%|████▊     | 23075/48008 [3:18:33<3:19:42,  2.08it/s] 48%|████▊     | 23076/48008 [3:18:33<3:24:31,  2.03it/s] 48%|████▊     | 23077/48008 [3:18:34<3:22:28,  2.05it/s] 48%|████▊     | 23078/48008 [3:18:34<3:21:15,  2.06it/s] 48%|████▊     | 23079/48008 [3:18:35<3:28:03,  2.00it/s] 48%|████▊     | 23080/48008 [3:18:35<3:28:37,  1.99it/s] 48%|████▊     | 23081/48008 [3:18:36<3:17:15,  2.11it/s] 48%|████▊     | 23082/48008 [3:18:36<3:09:31,  2.19it/s] 48%|████▊     | 23083/48008 [3:18:36<3:17:40,  2.10it/s] 48%|████▊     | 23084/48008 [3:18:37<3:23:40,  2.04it/s] 48%|████▊     | 23085/48008 [3:18:37<3:22:07,  2.06it/s] 48%|████▊     | 23086/48008 [3:18:38<3:24:27,  2.03it/s] 48%|████▊     | 23087/48008 [3:18:38<3:27:42,  2.00it/s] 48%|████▊     | 23088/48008 [3:18:39<3:25:25,  2.02it/s] 48%|████▊     | 23089/48008 [3:18:40<3:30:55,  1.97it/s] 48%|████▊     | 23090/48008 [3:18:40<3:19:24,  2.08it/s] 48%|████▊     | 23091/48008 [3:18:40<3:11:34,  2.17it/s] 48%|████▊     | 23092/48008 [3:18:41<3:16:37,  2.11it/s] 48%|████▊     | 23093/48008 [3:18:41<3:17:41,  2.10it/s] 48%|████▊     | 23094/48008 [3:18:42<3:20:36,  2.07it/s] 48%|████▊     | 23095/48008 [3:18:42<3:25:14,  2.02it/s] 48%|████▊     | 23096/48008 [3:18:43<3:26:57,  2.01it/s] 48%|████▊     | 23097/48008 [3:18:44<4:13:41,  1.64it/s] 48%|████▊     | 23098/48008 [3:18:44<3:59:34,  1.73it/s] 48%|████▊     | 23099/48008 [3:18:45<3:50:59,  1.80it/s] 48%|████▊     | 23100/48008 [3:18:45<3:46:42,  1.83it/s]                                                         {'loss': 4.2519, 'grad_norm': 0.10075594484806061, 'learning_rate': 0.00010377020496583902, 'epoch': 0.48}
 48%|████▊     | 23100/48008 [3:18:45<3:46:42,  1.83it/s] 48%|████▊     | 23101/48008 [3:18:46<3:43:05,  1.86it/s] 48%|████▊     | 23102/48008 [3:18:46<3:27:45,  2.00it/s] 48%|████▊     | 23103/48008 [3:18:47<3:16:42,  2.11it/s] 48%|████▊     | 23104/48008 [3:18:47<3:24:31,  2.03it/s] 48%|████▊     | 23105/48008 [3:18:48<3:22:50,  2.05it/s] 48%|████▊     | 23106/48008 [3:18:48<3:26:26,  2.01it/s] 48%|████▊     | 23107/48008 [3:18:49<3:24:28,  2.03it/s] 48%|████▊     | 23108/48008 [3:18:49<3:26:06,  2.01it/s] 48%|████▊     | 23109/48008 [3:18:50<3:26:45,  2.01it/s] 48%|████▊     | 23110/48008 [3:18:50<3:26:45,  2.01it/s] 48%|████▊     | 23111/48008 [3:18:51<3:24:09,  2.03it/s] 48%|████▊     | 23112/48008 [3:18:51<4:12:00,  1.65it/s] 48%|████▊     | 23113/48008 [3:18:52<4:03:32,  1.70it/s] 48%|████▊     | 23114/48008 [3:18:53<3:53:11,  1.78it/s] 48%|████▊     | 23115/48008 [3:18:53<3:45:32,  1.84it/s] 48%|████▊     | 23116/48008 [3:18:54<3:40:45,  1.88it/s] 48%|████▊     | 23117/48008 [3:18:54<3:40:21,  1.88it/s] 48%|████▊     | 23118/48008 [3:18:54<3:25:33,  2.02it/s] 48%|████▊     | 23119/48008 [3:18:55<3:26:23,  2.01it/s] 48%|████▊     | 23120/48008 [3:18:55<3:24:12,  2.03it/s] 48%|████▊     | 23121/48008 [3:18:56<3:30:27,  1.97it/s] 48%|████▊     | 23122/48008 [3:18:56<3:27:16,  2.00it/s] 48%|████▊     | 23123/48008 [3:18:57<3:32:32,  1.95it/s] 48%|████▊     | 23124/48008 [3:18:58<3:28:28,  1.99it/s] 48%|████▊     | 23125/48008 [3:18:58<3:25:25,  2.02it/s] 48%|████▊     | 23126/48008 [3:18:59<3:29:48,  1.98it/s] 48%|████▊     | 23127/48008 [3:18:59<3:26:53,  2.00it/s] 48%|████▊     | 23128/48008 [3:18:59<3:27:13,  2.00it/s] 48%|████▊     | 23129/48008 [3:19:00<3:24:35,  2.03it/s] 48%|████▊     | 23130/48008 [3:19:00<3:22:45,  2.04it/s] 48%|████▊     | 23131/48008 [3:19:01<3:21:32,  2.06it/s] 48%|████▊     | 23132/48008 [3:19:01<3:12:57,  2.15it/s] 48%|████▊     | 23133/48008 [3:19:02<3:15:08,  2.12it/s] 48%|████▊     | 23134/48008 [3:19:02<3:16:37,  2.11it/s] 48%|████▊     | 23135/48008 [3:19:03<3:09:16,  2.19it/s] 48%|████▊     | 23136/48008 [3:19:03<3:17:27,  2.10it/s] 48%|████▊     | 23137/48008 [3:19:04<3:17:16,  2.10it/s] 48%|████▊     | 23138/48008 [3:19:04<3:18:15,  2.09it/s] 48%|████▊     | 23139/48008 [3:19:05<3:17:47,  2.10it/s] 48%|████▊     | 23140/48008 [3:19:05<3:18:25,  2.09it/s] 48%|████▊     | 23141/48008 [3:19:06<3:20:55,  2.06it/s] 48%|████▊     | 23142/48008 [3:19:06<3:44:27,  1.85it/s] 48%|████▊     | 23143/48008 [3:19:07<3:37:05,  1.91it/s] 48%|████▊     | 23144/48008 [3:19:07<3:32:01,  1.95it/s] 48%|████▊     | 23145/48008 [3:19:08<3:28:20,  1.99it/s] 48%|████▊     | 23146/48008 [3:19:08<3:32:29,  1.95it/s] 48%|████▊     | 23147/48008 [3:19:09<3:27:49,  1.99it/s] 48%|████▊     | 23148/48008 [3:19:09<3:25:39,  2.01it/s] 48%|████▊     | 23149/48008 [3:19:10<3:23:24,  2.04it/s] 48%|████▊     | 23150/48008 [3:19:10<3:24:46,  2.02it/s]                                                         {'loss': 4.2547, 'grad_norm': 0.10632503032684326, 'learning_rate': 0.00010356190634894185, 'epoch': 0.48}
 48%|████▊     | 23150/48008 [3:19:10<3:24:46,  2.02it/s] 48%|████▊     | 23151/48008 [3:19:11<3:26:53,  2.00it/s] 48%|████▊     | 23152/48008 [3:19:11<3:29:15,  1.98it/s] 48%|████▊     | 23153/48008 [3:19:12<3:26:12,  2.01it/s] 48%|████▊     | 23154/48008 [3:19:12<3:16:06,  2.11it/s] 48%|████▊     | 23155/48008 [3:19:13<3:09:01,  2.19it/s] 48%|████▊     | 23156/48008 [3:19:13<3:14:23,  2.13it/s] 48%|████▊     | 23157/48008 [3:19:14<3:20:48,  2.06it/s] 48%|████▊     | 23158/48008 [3:19:14<3:12:40,  2.15it/s] 48%|████▊     | 23159/48008 [3:19:15<3:14:31,  2.13it/s] 48%|████▊     | 23160/48008 [3:19:15<3:20:58,  2.06it/s] 48%|████▊     | 23161/48008 [3:19:16<3:20:38,  2.06it/s] 48%|████▊     | 23162/48008 [3:19:16<3:11:53,  2.16it/s] 48%|████▊     | 23163/48008 [3:19:16<3:13:34,  2.14it/s] 48%|████▊     | 23164/48008 [3:19:17<3:17:57,  2.09it/s] 48%|████▊     | 23165/48008 [3:19:17<3:20:47,  2.06it/s] 48%|████▊     | 23166/48008 [3:19:18<3:23:15,  2.04it/s] 48%|████▊     | 23167/48008 [3:19:18<3:21:20,  2.06it/s] 48%|████▊     | 23168/48008 [3:19:19<3:20:05,  2.07it/s] 48%|████▊     | 23169/48008 [3:19:19<3:19:39,  2.07it/s] 48%|████▊     | 23170/48008 [3:19:20<3:24:15,  2.03it/s] 48%|████▊     | 23171/48008 [3:19:20<3:29:36,  1.97it/s] 48%|████▊     | 23172/48008 [3:19:21<3:29:28,  1.98it/s] 48%|████▊     | 23173/48008 [3:19:21<3:31:34,  1.96it/s] 48%|████▊     | 23174/48008 [3:19:22<3:35:22,  1.92it/s] 48%|████▊     | 23175/48008 [3:19:22<3:22:14,  2.05it/s] 48%|████▊     | 23176/48008 [3:19:23<3:13:17,  2.14it/s] 48%|████▊     | 23177/48008 [3:19:23<3:15:22,  2.12it/s] 48%|████▊     | 23178/48008 [3:19:24<3:19:37,  2.07it/s] 48%|████▊     | 23179/48008 [3:19:24<3:42:59,  1.86it/s] 48%|████▊     | 23180/48008 [3:19:25<3:36:01,  1.92it/s] 48%|████▊     | 23181/48008 [3:19:26<4:19:31,  1.59it/s] 48%|████▊     | 23182/48008 [3:19:27<5:11:56,  1.33it/s] 48%|████▊     | 23183/48008 [3:19:27<4:29:38,  1.53it/s] 48%|████▊     | 23184/48008 [3:19:28<4:11:44,  1.64it/s] 48%|████▊     | 23185/48008 [3:19:28<3:58:55,  1.73it/s] 48%|████▊     | 23186/48008 [3:19:29<3:47:00,  1.82it/s] 48%|████▊     | 23187/48008 [3:19:29<3:41:42,  1.87it/s] 48%|████▊     | 23188/48008 [3:19:30<3:26:38,  2.00it/s] 48%|████▊     | 23189/48008 [3:19:30<3:24:08,  2.03it/s] 48%|████▊     | 23190/48008 [3:19:31<3:22:35,  2.04it/s] 48%|████▊     | 23191/48008 [3:19:31<3:21:13,  2.06it/s] 48%|████▊     | 23192/48008 [3:19:32<3:12:21,  2.15it/s] 48%|████▊     | 23193/48008 [3:19:32<3:18:54,  2.08it/s] 48%|████▊     | 23194/48008 [3:19:33<3:21:08,  2.06it/s] 48%|████▊     | 23195/48008 [3:19:33<3:19:45,  2.07it/s] 48%|████▊     | 23196/48008 [3:19:34<3:26:07,  2.01it/s] 48%|████▊     | 23197/48008 [3:19:34<3:11:23,  2.16it/s] 48%|████▊     | 23198/48008 [3:19:34<3:16:14,  2.11it/s] 48%|████▊     | 23199/48008 [3:19:35<3:17:08,  2.10it/s] 48%|████▊     | 23200/48008 [3:19:35<3:16:58,  2.10it/s]                                                         {'loss': 4.2492, 'grad_norm': 0.10155388712882996, 'learning_rate': 0.00010335360773204466, 'epoch': 0.48}
 48%|████▊     | 23200/48008 [3:19:35<3:16:58,  2.10it/s] 48%|████▊     | 23201/48008 [3:19:36<3:22:39,  2.04it/s] 48%|████▊     | 23202/48008 [3:19:36<3:20:58,  2.06it/s] 48%|████▊     | 23203/48008 [3:19:37<3:44:16,  1.84it/s] 48%|████▊     | 23204/48008 [3:19:38<3:36:39,  1.91it/s] 48%|████▊     | 23205/48008 [3:19:38<3:30:40,  1.96it/s] 48%|████▊     | 23206/48008 [3:19:39<3:26:56,  2.00it/s] 48%|████▊     | 23207/48008 [3:19:39<3:23:53,  2.03it/s] 48%|████▊     | 23208/48008 [3:19:40<3:22:17,  2.04it/s] 48%|████▊     | 23209/48008 [3:19:40<3:21:23,  2.05it/s] 48%|████▊     | 23210/48008 [3:19:40<3:22:41,  2.04it/s] 48%|████▊     | 23211/48008 [3:19:41<3:21:40,  2.05it/s] 48%|████▊     | 23212/48008 [3:19:41<3:23:46,  2.03it/s] 48%|████▊     | 23213/48008 [3:19:42<3:24:57,  2.02it/s] 48%|████▊     | 23214/48008 [3:19:42<3:22:59,  2.04it/s] 48%|████▊     | 23215/48008 [3:19:43<3:13:12,  2.14it/s] 48%|████▊     | 23216/48008 [3:19:43<3:06:49,  2.21it/s] 48%|████▊     | 23217/48008 [3:19:44<3:09:50,  2.18it/s] 48%|████▊     | 23218/48008 [3:19:45<4:47:19,  1.44it/s] 48%|████▊     | 23219/48008 [3:19:46<4:27:54,  1.54it/s] 48%|████▊     | 23220/48008 [3:19:46<4:30:32,  1.53it/s] 48%|████▊     | 23221/48008 [3:19:47<4:11:44,  1.64it/s] 48%|████▊     | 23222/48008 [3:19:47<3:58:48,  1.73it/s] 48%|████▊     | 23223/48008 [3:19:48<3:50:59,  1.79it/s] 48%|████▊     | 23224/48008 [3:19:48<3:33:13,  1.94it/s] 48%|████▊     | 23225/48008 [3:19:49<4:17:53,  1.60it/s] 48%|████▊     | 23226/48008 [3:19:49<3:51:46,  1.78it/s] 48%|████▊     | 23227/48008 [3:19:50<3:33:59,  1.93it/s] 48%|████▊     | 23228/48008 [3:19:51<4:18:17,  1.60it/s] 48%|████▊     | 23229/48008 [3:19:51<4:23:54,  1.56it/s] 48%|████▊     | 23230/48008 [3:19:52<4:04:51,  1.69it/s] 48%|████▊     | 23231/48008 [3:19:52<3:54:17,  1.76it/s] 48%|████▊     | 23232/48008 [3:19:53<3:35:21,  1.92it/s] 48%|████▊     | 23233/48008 [3:19:53<3:33:07,  1.94it/s] 48%|████▊     | 23234/48008 [3:19:54<3:28:55,  1.98it/s] 48%|████▊     | 23235/48008 [3:19:54<3:17:24,  2.09it/s] 48%|████▊     | 23236/48008 [3:19:55<3:17:46,  2.09it/s] 48%|████▊     | 23237/48008 [3:19:55<3:25:36,  2.01it/s] 48%|████▊     | 23238/48008 [3:19:56<3:23:14,  2.03it/s] 48%|████▊     | 23239/48008 [3:19:56<3:26:57,  1.99it/s] 48%|████▊     | 23240/48008 [3:19:57<3:27:34,  1.99it/s] 48%|████▊     | 23241/48008 [3:19:57<3:26:55,  1.99it/s] 48%|████▊     | 23242/48008 [3:19:58<3:24:15,  2.02it/s] 48%|████▊     | 23243/48008 [3:19:58<3:25:18,  2.01it/s] 48%|████▊     | 23244/48008 [3:19:59<3:23:56,  2.02it/s] 48%|████▊     | 23245/48008 [3:19:59<3:22:52,  2.03it/s] 48%|████▊     | 23246/48008 [3:20:00<3:21:45,  2.05it/s] 48%|████▊     | 23247/48008 [3:20:00<3:23:46,  2.03it/s] 48%|████▊     | 23248/48008 [3:20:01<3:25:26,  2.01it/s] 48%|████▊     | 23249/48008 [3:20:01<3:22:54,  2.03it/s] 48%|████▊     | 23250/48008 [3:20:02<3:21:18,  2.05it/s]                                                         {'loss': 4.2545, 'grad_norm': 0.10937795788049698, 'learning_rate': 0.00010314530911514748, 'epoch': 0.48}
 48%|████▊     | 23250/48008 [3:20:02<3:21:18,  2.05it/s] 48%|████▊     | 23251/48008 [3:20:02<3:25:13,  2.01it/s] 48%|████▊     | 23252/48008 [3:20:03<3:25:30,  2.01it/s] 48%|████▊     | 23253/48008 [3:20:03<3:28:07,  1.98it/s] 48%|████▊     | 23254/48008 [3:20:04<3:27:33,  1.99it/s] 48%|████▊     | 23255/48008 [3:20:04<3:24:25,  2.02it/s] 48%|████▊     | 23256/48008 [3:20:05<3:14:58,  2.12it/s] 48%|████▊     | 23257/48008 [3:20:05<3:16:27,  2.10it/s] 48%|████▊     | 23258/48008 [3:20:06<3:17:06,  2.09it/s] 48%|████▊     | 23259/48008 [3:20:06<3:17:44,  2.09it/s] 48%|████▊     | 23260/48008 [3:20:07<3:24:42,  2.01it/s] 48%|████▊     | 23261/48008 [3:20:07<3:25:32,  2.01it/s] 48%|████▊     | 23262/48008 [3:20:08<3:48:08,  1.81it/s] 48%|████▊     | 23263/48008 [3:20:08<3:42:09,  1.86it/s] 48%|████▊     | 23264/48008 [3:20:09<3:35:23,  1.91it/s] 48%|████▊     | 23265/48008 [3:20:09<3:22:09,  2.04it/s] 48%|████▊     | 23266/48008 [3:20:10<3:20:47,  2.05it/s] 48%|████▊     | 23267/48008 [3:20:10<3:19:50,  2.06it/s] 48%|████▊     | 23268/48008 [3:20:11<3:19:00,  2.07it/s] 48%|████▊     | 23269/48008 [3:20:11<3:26:49,  1.99it/s] 48%|████▊     | 23270/48008 [3:20:12<3:16:10,  2.10it/s] 48%|████▊     | 23271/48008 [3:20:12<3:18:54,  2.07it/s] 48%|████▊     | 23272/48008 [3:20:13<3:21:37,  2.04it/s] 48%|████▊     | 23273/48008 [3:20:13<3:27:50,  1.98it/s] 48%|████▊     | 23274/48008 [3:20:14<3:24:36,  2.01it/s] 48%|████▊     | 23275/48008 [3:20:14<3:24:47,  2.01it/s] 48%|████▊     | 23276/48008 [3:20:15<3:23:09,  2.03it/s] 48%|████▊     | 23277/48008 [3:20:15<3:28:14,  1.98it/s] 48%|████▊     | 23278/48008 [3:20:16<3:30:22,  1.96it/s] 48%|████▊     | 23279/48008 [3:20:16<3:26:52,  1.99it/s] 48%|████▊     | 23280/48008 [3:20:17<3:24:21,  2.02it/s] 48%|████▊     | 23281/48008 [3:20:17<4:11:10,  1.64it/s] 48%|████▊     | 23282/48008 [3:20:19<5:30:03,  1.25it/s] 48%|████▊     | 23283/48008 [3:20:19<4:55:14,  1.40it/s] 49%|████▊     | 23284/48008 [3:20:20<4:18:11,  1.60it/s] 49%|████▊     | 23285/48008 [3:20:20<4:05:06,  1.68it/s] 49%|████▊     | 23286/48008 [3:20:21<4:15:14,  1.61it/s] 49%|████▊     | 23287/48008 [3:20:21<4:03:35,  1.69it/s] 49%|████▊     | 23288/48008 [3:20:22<3:50:07,  1.79it/s] 49%|████▊     | 23289/48008 [3:20:22<3:40:44,  1.87it/s] 49%|████▊     | 23290/48008 [3:20:23<3:58:31,  1.73it/s] 49%|████▊     | 23291/48008 [3:20:23<3:46:36,  1.82it/s] 49%|████▊     | 23292/48008 [3:20:24<3:38:33,  1.88it/s] 49%|████▊     | 23293/48008 [3:20:24<3:32:30,  1.94it/s] 49%|████▊     | 23294/48008 [3:20:25<3:32:38,  1.94it/s] 49%|████▊     | 23295/48008 [3:20:25<3:28:32,  1.98it/s] 49%|████▊     | 23296/48008 [3:20:26<3:27:33,  1.98it/s] 49%|████▊     | 23297/48008 [3:20:26<3:16:38,  2.09it/s] 49%|████▊     | 23298/48008 [3:20:28<5:21:50,  1.28it/s] 49%|████▊     | 23299/48008 [3:20:28<4:44:19,  1.45it/s] 49%|████▊     | 23300/48008 [3:20:29<4:20:56,  1.58it/s]                                                         {'loss': 4.2801, 'grad_norm': 0.09595613926649094, 'learning_rate': 0.00010293701049825028, 'epoch': 0.49} 49%|████▊     | 23300/48008 [3:20:29<4:20:56,  1.58it/s]
 49%|████▊     | 23301/48008 [3:20:29<3:54:36,  1.76it/s] 49%|████▊     | 23302/48008 [3:20:30<3:43:39,  1.84it/s] 49%|████▊     | 23303/48008 [3:20:30<3:42:54,  1.85it/s] 49%|████▊     | 23304/48008 [3:20:32<5:23:26,  1.27it/s] 49%|████▊     | 23305/48008 [3:20:32<4:46:17,  1.44it/s] 49%|████▊     | 23306/48008 [3:20:33<4:22:03,  1.57it/s] 49%|████▊     | 23307/48008 [3:20:33<4:03:18,  1.69it/s] 49%|████▊     | 23308/48008 [3:20:34<4:13:21,  1.62it/s] 49%|████▊     | 23309/48008 [3:20:34<3:48:40,  1.80it/s] 49%|████▊     | 23310/48008 [3:20:35<5:01:51,  1.36it/s] 49%|████▊     | 23311/48008 [3:20:36<4:33:20,  1.51it/s] 49%|████▊     | 23312/48008 [3:20:36<4:02:50,  1.69it/s] 49%|████▊     | 23313/48008 [3:20:37<3:41:39,  1.86it/s] 49%|████▊     | 23314/48008 [3:20:37<3:37:33,  1.89it/s] 49%|████▊     | 23315/48008 [3:20:38<3:32:11,  1.94it/s] 49%|████▊     | 23316/48008 [3:20:38<3:27:44,  1.98it/s] 49%|████▊     | 23317/48008 [3:20:39<3:17:11,  2.09it/s] 49%|████▊     | 23318/48008 [3:20:39<3:09:05,  2.18it/s] 49%|████▊     | 23319/48008 [3:20:39<3:14:13,  2.12it/s] 49%|████▊     | 23320/48008 [3:20:40<3:15:27,  2.11it/s] 49%|████▊     | 23321/48008 [3:20:40<3:15:25,  2.11it/s] 49%|████▊     | 23322/48008 [3:20:41<3:15:55,  2.10it/s] 49%|████▊     | 23323/48008 [3:20:41<3:23:09,  2.03it/s] 49%|████▊     | 23324/48008 [3:20:42<3:09:02,  2.18it/s] 49%|████▊     | 23325/48008 [3:20:42<3:12:00,  2.14it/s] 49%|████▊     | 23326/48008 [3:20:43<3:05:48,  2.21it/s] 49%|████▊     | 23327/48008 [3:20:43<3:32:37,  1.93it/s] 49%|████▊     | 23328/48008 [3:20:44<3:31:14,  1.95it/s] 49%|████▊     | 23329/48008 [3:20:44<3:29:30,  1.96it/s] 49%|████▊     | 23330/48008 [3:20:45<3:29:40,  1.96it/s] 49%|████▊     | 23331/48008 [3:20:45<3:26:26,  1.99it/s] 49%|████▊     | 23332/48008 [3:20:47<4:59:01,  1.38it/s] 49%|████▊     | 23333/48008 [3:20:47<4:28:14,  1.53it/s] 49%|████▊     | 23334/48008 [3:20:48<4:07:28,  1.66it/s] 49%|████▊     | 23335/48008 [3:20:48<3:52:46,  1.77it/s] 49%|████▊     | 23336/48008 [3:20:49<3:46:46,  1.81it/s] 49%|████▊     | 23337/48008 [3:20:49<3:41:01,  1.86it/s] 49%|████▊     | 23338/48008 [3:20:50<3:34:31,  1.92it/s] 49%|████▊     | 23339/48008 [3:20:50<3:33:22,  1.93it/s] 49%|████▊     | 23340/48008 [3:20:51<3:34:14,  1.92it/s] 49%|████▊     | 23341/48008 [3:20:51<3:32:19,  1.94it/s] 49%|████▊     | 23342/48008 [3:20:52<3:19:31,  2.06it/s] 49%|████▊     | 23343/48008 [3:20:52<3:18:50,  2.07it/s] 49%|████▊     | 23344/48008 [3:20:53<3:18:33,  2.07it/s] 49%|████▊     | 23345/48008 [3:20:53<3:21:46,  2.04it/s] 49%|████▊     | 23346/48008 [3:20:54<3:23:58,  2.02it/s] 49%|████▊     | 23347/48008 [3:20:54<3:14:18,  2.12it/s] 49%|████▊     | 23348/48008 [3:20:54<3:20:35,  2.05it/s] 49%|████▊     | 23349/48008 [3:20:55<3:19:43,  2.06it/s] 49%|████▊     | 23350/48008 [3:20:55<3:19:01,  2.06it/s]                                                         {'loss': 4.2421, 'grad_norm': 0.10443896055221558, 'learning_rate': 0.00010272871188135311, 'epoch': 0.49} 49%|████▊     | 23350/48008 [3:20:55<3:19:01,  2.06it/s]
 49%|████▊     | 23351/48008 [3:20:56<3:18:57,  2.07it/s] 49%|████▊     | 23352/48008 [3:20:56<3:24:19,  2.01it/s] 49%|████▊     | 23353/48008 [3:20:57<3:14:39,  2.11it/s] 49%|████▊     | 23354/48008 [3:20:57<3:15:38,  2.10it/s] 49%|████▊     | 23355/48008 [3:20:58<3:16:30,  2.09it/s] 49%|████▊     | 23356/48008 [3:20:58<3:20:22,  2.05it/s] 49%|████▊     | 23357/48008 [3:20:59<3:19:36,  2.06it/s] 49%|████▊     | 23358/48008 [3:20:59<3:26:33,  1.99it/s] 49%|████▊     | 23359/48008 [3:21:00<3:23:19,  2.02it/s] 49%|████▊     | 23360/48008 [3:21:00<3:13:50,  2.12it/s] 49%|████▊     | 23361/48008 [3:21:01<3:19:52,  2.06it/s] 49%|████▊     | 23362/48008 [3:21:01<3:11:10,  2.15it/s] 49%|████▊     | 23363/48008 [3:21:02<3:05:02,  2.22it/s] 49%|████▊     | 23364/48008 [3:21:02<3:15:16,  2.10it/s] 49%|████▊     | 23365/48008 [3:21:03<3:15:21,  2.10it/s] 49%|████▊     | 23366/48008 [3:21:03<3:07:57,  2.18it/s] 49%|████▊     | 23367/48008 [3:21:04<3:13:46,  2.12it/s] 49%|████▊     | 23368/48008 [3:21:04<3:17:19,  2.08it/s] 49%|████▊     | 23369/48008 [3:21:05<3:24:42,  2.01it/s] 49%|████▊     | 23370/48008 [3:21:05<3:28:55,  1.97it/s] 49%|████▊     | 23371/48008 [3:21:06<3:28:47,  1.97it/s] 49%|████▊     | 23372/48008 [3:21:06<3:24:37,  2.01it/s] 49%|████▊     | 23373/48008 [3:21:07<3:25:38,  2.00it/s] 49%|████▊     | 23374/48008 [3:21:07<3:22:56,  2.02it/s] 49%|████▊     | 23375/48008 [3:21:08<3:13:15,  2.12it/s] 49%|████▊     | 23376/48008 [3:21:09<4:50:26,  1.41it/s] 49%|████▊     | 23377/48008 [3:21:09<4:22:52,  1.56it/s] 49%|████▊     | 23378/48008 [3:21:10<4:08:09,  1.65it/s] 49%|████▊     | 23379/48008 [3:21:10<3:53:13,  1.76it/s] 49%|████▊     | 23380/48008 [3:21:11<3:34:32,  1.91it/s] 49%|████▊     | 23381/48008 [3:21:11<3:30:03,  1.95it/s] 49%|████▊     | 23382/48008 [3:21:12<3:25:28,  2.00it/s] 49%|████▊     | 23383/48008 [3:21:12<3:30:21,  1.95it/s] 49%|████▊     | 23384/48008 [3:21:13<3:25:56,  1.99it/s] 49%|████▊     | 23385/48008 [3:21:13<3:15:13,  2.10it/s] 49%|████▊     | 23386/48008 [3:21:14<3:18:05,  2.07it/s] 49%|████▊     | 23387/48008 [3:21:14<3:20:03,  2.05it/s] 49%|████▊     | 23388/48008 [3:21:15<3:22:43,  2.02it/s] 49%|████▊     | 23389/48008 [3:21:15<3:44:37,  1.83it/s] 49%|████▊     | 23390/48008 [3:21:16<3:36:28,  1.90it/s] 49%|████▊     | 23391/48008 [3:21:16<3:30:49,  1.95it/s] 49%|████▊     | 23392/48008 [3:21:17<3:31:19,  1.94it/s] 49%|████▊     | 23393/48008 [3:21:17<3:27:15,  1.98it/s] 49%|████▊     | 23394/48008 [3:21:18<4:12:53,  1.62it/s] 49%|████▊     | 23395/48008 [3:21:19<3:59:46,  1.71it/s] 49%|████▊     | 23396/48008 [3:21:19<4:11:09,  1.63it/s] 49%|████▊     | 23397/48008 [3:21:20<4:19:06,  1.58it/s] 49%|████▊     | 23398/48008 [3:21:20<4:07:17,  1.66it/s] 49%|████▊     | 23399/48008 [3:21:21<3:52:45,  1.76it/s] 49%|████▊     | 23400/48008 [3:21:21<3:41:25,  1.85it/s]                                                         {'loss': 4.2804, 'grad_norm': 0.10522150248289108, 'learning_rate': 0.00010252041326445594, 'epoch': 0.49}
 49%|████▊     | 23400/48008 [3:21:21<3:41:25,  1.85it/s] 49%|████▊     | 23401/48008 [3:21:22<3:37:39,  1.88it/s] 49%|████▊     | 23402/48008 [3:21:22<3:23:35,  2.01it/s] 49%|████▊     | 23403/48008 [3:21:23<3:13:37,  2.12it/s] 49%|████▉     | 23404/48008 [3:21:23<3:17:55,  2.07it/s] 49%|████▉     | 23405/48008 [3:21:24<3:24:52,  2.00it/s] 49%|████▉     | 23406/48008 [3:21:25<3:46:47,  1.81it/s] 49%|████▉     | 23407/48008 [3:21:25<3:38:03,  1.88it/s] 49%|████▉     | 23408/48008 [3:21:25<3:23:21,  2.02it/s] 49%|████▉     | 23409/48008 [3:21:26<3:13:00,  2.12it/s] 49%|████▉     | 23410/48008 [3:21:26<3:17:18,  2.08it/s] 49%|████▉     | 23411/48008 [3:21:27<3:20:11,  2.05it/s] 49%|████▉     | 23412/48008 [3:21:27<3:22:12,  2.03it/s] 49%|████▉     | 23413/48008 [3:21:28<4:09:20,  1.64it/s] 49%|████▉     | 23414/48008 [3:21:29<3:53:52,  1.75it/s] 49%|████▉     | 23415/48008 [3:21:29<3:49:58,  1.78it/s] 49%|████▉     | 23416/48008 [3:21:30<3:44:27,  1.83it/s] 49%|████▉     | 23417/48008 [3:21:30<3:28:17,  1.97it/s] 49%|████▉     | 23418/48008 [3:21:31<3:24:47,  2.00it/s] 49%|████▉     | 23419/48008 [3:21:32<4:58:00,  1.38it/s] 49%|████▉     | 23420/48008 [3:21:32<4:30:52,  1.51it/s] 49%|████▉     | 23421/48008 [3:21:33<4:13:17,  1.62it/s] 49%|████▉     | 23422/48008 [3:21:33<3:56:32,  1.73it/s] 49%|████▉     | 23423/48008 [3:21:34<3:44:25,  1.83it/s] 49%|████▉     | 23424/48008 [3:21:34<3:36:18,  1.89it/s] 49%|████▉     | 23425/48008 [3:21:35<3:35:33,  1.90it/s] 49%|████▉     | 23426/48008 [3:21:35<3:30:04,  1.95it/s] 49%|████▉     | 23427/48008 [3:21:36<3:25:45,  1.99it/s] 49%|████▉     | 23428/48008 [3:21:36<3:23:18,  2.02it/s] 49%|████▉     | 23429/48008 [3:21:37<3:13:36,  2.12it/s] 49%|████▉     | 23430/48008 [3:21:37<3:22:09,  2.03it/s] 49%|████▉     | 23431/48008 [3:21:38<3:20:56,  2.04it/s] 49%|████▉     | 23432/48008 [3:21:38<3:19:14,  2.06it/s] 49%|████▉     | 23433/48008 [3:21:39<3:10:24,  2.15it/s] 49%|████▉     | 23434/48008 [3:21:39<3:04:04,  2.23it/s] 49%|████▉     | 23435/48008 [3:21:40<3:10:58,  2.14it/s] 49%|████▉     | 23436/48008 [3:21:40<3:20:10,  2.05it/s] 49%|████▉     | 23437/48008 [3:21:41<3:19:29,  2.05it/s] 49%|████▉     | 23438/48008 [3:21:41<3:25:21,  1.99it/s] 49%|████▉     | 23439/48008 [3:21:42<3:23:10,  2.02it/s] 49%|████▉     | 23440/48008 [3:21:42<3:13:15,  2.12it/s] 49%|████▉     | 23441/48008 [3:21:42<3:06:25,  2.20it/s] 49%|████▉     | 23442/48008 [3:21:43<2:57:36,  2.31it/s] 49%|████▉     | 23443/48008 [3:21:43<3:06:31,  2.19it/s] 49%|████▉     | 23444/48008 [3:21:44<3:16:19,  2.09it/s] 49%|████▉     | 23445/48008 [3:21:44<3:16:28,  2.08it/s] 49%|████▉     | 23446/48008 [3:21:45<3:21:04,  2.04it/s] 49%|████▉     | 23447/48008 [3:21:46<3:42:59,  1.84it/s] 49%|████▉     | 23448/48008 [3:21:46<3:27:02,  1.98it/s] 49%|████▉     | 23449/48008 [3:21:46<3:16:05,  2.09it/s] 49%|████▉     | 23450/48008 [3:21:47<3:16:48,  2.08it/s]                                                         {'loss': 4.2635, 'grad_norm': 0.10222429037094116, 'learning_rate': 0.00010231211464755875, 'epoch': 0.49} 49%|████▉     | 23450/48008 [3:21:47<3:16:48,  2.08it/s]
 49%|████▉     | 23451/48008 [3:21:47<3:19:53,  2.05it/s] 49%|████▉     | 23452/48008 [3:21:48<3:18:45,  2.06it/s] 49%|████▉     | 23453/48008 [3:21:48<3:18:03,  2.07it/s] 49%|████▉     | 23454/48008 [3:21:50<4:51:30,  1.40it/s] 49%|████▉     | 23455/48008 [3:21:50<4:27:12,  1.53it/s] 49%|████▉     | 23456/48008 [3:21:51<4:10:48,  1.63it/s] 49%|████▉     | 23457/48008 [3:21:51<3:56:39,  1.73it/s] 49%|████▉     | 23458/48008 [3:21:52<3:44:42,  1.82it/s] 49%|████▉     | 23459/48008 [3:21:52<3:36:43,  1.89it/s] 49%|████▉     | 23460/48008 [3:21:53<3:30:22,  1.94it/s] 49%|████▉     | 23461/48008 [3:21:53<3:30:28,  1.94it/s] 49%|████▉     | 23462/48008 [3:21:54<4:14:30,  1.61it/s] 49%|████▉     | 23463/48008 [3:21:54<4:00:14,  1.70it/s] 49%|████▉     | 23464/48008 [3:21:55<3:39:45,  1.86it/s] 49%|████▉     | 23465/48008 [3:21:55<3:32:56,  1.92it/s] 49%|████▉     | 23466/48008 [3:21:56<3:28:13,  1.96it/s] 49%|████▉     | 23467/48008 [3:21:56<3:27:50,  1.97it/s] 49%|████▉     | 23468/48008 [3:21:57<3:27:42,  1.97it/s] 49%|████▉     | 23469/48008 [3:21:57<3:24:29,  2.00it/s] 49%|████▉     | 23470/48008 [3:21:58<3:14:42,  2.10it/s] 49%|████▉     | 23471/48008 [3:21:58<3:39:20,  1.86it/s] 49%|████▉     | 23472/48008 [3:21:59<3:32:37,  1.92it/s] 49%|████▉     | 23473/48008 [3:21:59<3:27:33,  1.97it/s] 49%|████▉     | 23474/48008 [3:22:00<3:29:40,  1.95it/s] 49%|████▉     | 23475/48008 [3:22:00<3:29:16,  1.95it/s] 49%|████▉     | 23476/48008 [3:22:01<3:26:00,  1.98it/s] 49%|████▉     | 23477/48008 [3:22:01<3:23:33,  2.01it/s] 49%|████▉     | 23478/48008 [3:22:02<3:21:21,  2.03it/s] 49%|████▉     | 23479/48008 [3:22:02<3:19:43,  2.05it/s] 49%|████▉     | 23480/48008 [3:22:03<3:24:12,  2.00it/s] 49%|████▉     | 23481/48008 [3:22:03<3:21:46,  2.03it/s] 49%|████▉     | 23482/48008 [3:22:04<3:20:30,  2.04it/s] 49%|████▉     | 23483/48008 [3:22:04<3:22:22,  2.02it/s] 49%|████▉     | 23484/48008 [3:22:05<3:23:22,  2.01it/s] 49%|████▉     | 23485/48008 [3:22:05<3:27:38,  1.97it/s] 49%|████▉     | 23486/48008 [3:22:06<3:29:12,  1.95it/s] 49%|████▉     | 23487/48008 [3:22:07<4:13:43,  1.61it/s] 49%|████▉     | 23488/48008 [3:22:07<3:48:35,  1.79it/s] 49%|████▉     | 23489/48008 [3:22:08<3:39:30,  1.86it/s] 49%|████▉     | 23490/48008 [3:22:08<3:40:16,  1.86it/s] 49%|████▉     | 23491/48008 [3:22:09<3:25:09,  1.99it/s] 49%|████▉     | 23492/48008 [3:22:09<3:24:33,  2.00it/s] 49%|████▉     | 23493/48008 [3:22:10<3:14:23,  2.10it/s] 49%|████▉     | 23494/48008 [3:22:10<3:15:02,  2.09it/s] 49%|████▉     | 23495/48008 [3:22:11<3:22:35,  2.02it/s] 49%|████▉     | 23496/48008 [3:22:11<3:20:48,  2.03it/s] 49%|████▉     | 23497/48008 [3:22:12<3:18:57,  2.05it/s] 49%|████▉     | 23498/48008 [3:22:12<3:10:25,  2.15it/s] 49%|████▉     | 23499/48008 [3:22:12<3:11:59,  2.13it/s] 49%|████▉     | 23500/48008 [3:22:13<3:18:35,  2.06it/s]                                                         {'loss': 4.3141, 'grad_norm': 0.10886640846729279, 'learning_rate': 0.00010210381603066158, 'epoch': 0.49} 49%|████▉     | 23500/48008 [3:22:13<3:18:35,  2.06it/s]
 49%|████▉     | 23501/48008 [3:22:13<3:22:20,  2.02it/s] 49%|████▉     | 23502/48008 [3:22:14<3:12:26,  2.12it/s] 49%|████▉     | 23503/48008 [3:22:14<3:05:03,  2.21it/s] 49%|████▉     | 23504/48008 [3:22:15<3:08:59,  2.16it/s] 49%|████▉     | 23505/48008 [3:22:15<3:14:25,  2.10it/s] 49%|████▉     | 23506/48008 [3:22:16<3:20:01,  2.04it/s] 49%|████▉     | 23507/48008 [3:22:16<3:21:10,  2.03it/s] 49%|████▉     | 23508/48008 [3:22:17<3:12:20,  2.12it/s] 49%|████▉     | 23509/48008 [3:22:17<3:13:45,  2.11it/s] 49%|████▉     | 23510/48008 [3:22:18<3:14:14,  2.10it/s] 49%|████▉     | 23511/48008 [3:22:18<3:14:35,  2.10it/s] 49%|████▉     | 23512/48008 [3:22:19<3:15:30,  2.09it/s] 49%|████▉     | 23513/48008 [3:22:20<4:50:18,  1.41it/s] 49%|████▉     | 23514/48008 [3:22:20<4:22:06,  1.56it/s] 49%|████▉     | 23515/48008 [3:22:21<4:09:57,  1.63it/s] 49%|████▉     | 23516/48008 [3:22:21<3:57:32,  1.72it/s] 49%|████▉     | 23517/48008 [3:22:22<3:48:20,  1.79it/s] 49%|████▉     | 23518/48008 [3:22:22<3:30:54,  1.94it/s] 49%|████▉     | 23519/48008 [3:22:23<3:29:07,  1.95it/s] 49%|████▉     | 23520/48008 [3:22:23<3:28:09,  1.96it/s] 49%|████▉     | 23521/48008 [3:22:24<3:24:56,  1.99it/s] 49%|████▉     | 23522/48008 [3:22:24<3:27:20,  1.97it/s] 49%|████▉     | 23523/48008 [3:22:25<3:16:30,  2.08it/s] 49%|████▉     | 23524/48008 [3:22:25<3:39:49,  1.86it/s] 49%|████▉     | 23525/48008 [3:22:26<3:36:07,  1.89it/s] 49%|████▉     | 23526/48008 [3:22:26<3:33:15,  1.91it/s] 49%|████▉     | 23527/48008 [3:22:27<3:31:02,  1.93it/s] 49%|████▉     | 23528/48008 [3:22:27<3:25:48,  1.98it/s] 49%|████▉     | 23529/48008 [3:22:28<3:22:33,  2.01it/s] 49%|████▉     | 23530/48008 [3:22:28<3:13:05,  2.11it/s] 49%|████▉     | 23531/48008 [3:22:29<3:21:06,  2.03it/s] 49%|████▉     | 23532/48008 [3:22:29<3:26:28,  1.98it/s] 49%|████▉     | 23533/48008 [3:22:30<3:48:05,  1.79it/s] 49%|████▉     | 23534/48008 [3:22:31<3:41:22,  1.84it/s] 49%|████▉     | 23535/48008 [3:22:31<3:33:41,  1.91it/s] 49%|████▉     | 23536/48008 [3:22:32<3:28:30,  1.96it/s] 49%|████▉     | 23537/48008 [3:22:32<3:24:16,  2.00it/s] 49%|████▉     | 23538/48008 [3:22:33<3:27:06,  1.97it/s] 49%|████▉     | 23539/48008 [3:22:33<3:24:23,  2.00it/s] 49%|████▉     | 23540/48008 [3:22:34<3:21:53,  2.02it/s] 49%|████▉     | 23541/48008 [3:22:35<4:53:34,  1.39it/s] 49%|████▉     | 23542/48008 [3:22:35<4:24:12,  1.54it/s] 49%|████▉     | 23543/48008 [3:22:36<4:08:27,  1.64it/s] 49%|████▉     | 23544/48008 [3:22:36<3:57:46,  1.71it/s] 49%|████▉     | 23545/48008 [3:22:37<3:45:14,  1.81it/s] 49%|████▉     | 23546/48008 [3:22:37<3:36:56,  1.88it/s] 49%|████▉     | 23547/48008 [3:22:38<3:23:10,  2.01it/s] 49%|████▉     | 23548/48008 [3:22:38<3:20:46,  2.03it/s] 49%|████▉     | 23549/48008 [3:22:39<3:22:20,  2.01it/s] 49%|████▉     | 23550/48008 [3:22:39<3:27:49,  1.96it/s]                                                         {'loss': 4.3121, 'grad_norm': 0.09055037796497345, 'learning_rate': 0.00010189551741376438, 'epoch': 0.49} 49%|████▉     | 23550/48008 [3:22:39<3:27:49,  1.96it/s]
 49%|████▉     | 23551/48008 [3:22:40<3:29:29,  1.95it/s] 49%|████▉     | 23552/48008 [3:22:41<4:13:36,  1.61it/s] 49%|████▉     | 23553/48008 [3:22:41<3:48:37,  1.78it/s] 49%|████▉     | 23554/48008 [3:22:42<5:14:03,  1.30it/s] 49%|████▉     | 23555/48008 [3:22:43<4:38:42,  1.46it/s] 49%|████▉     | 23556/48008 [3:22:43<4:16:33,  1.59it/s] 49%|████▉     | 23557/48008 [3:22:44<3:58:14,  1.71it/s] 49%|████▉     | 23558/48008 [3:22:44<3:52:55,  1.75it/s] 49%|████▉     | 23559/48008 [3:22:45<3:42:02,  1.84it/s] 49%|████▉     | 23560/48008 [3:22:45<3:37:08,  1.88it/s] 49%|████▉     | 23561/48008 [3:22:46<3:23:32,  2.00it/s] 49%|████▉     | 23562/48008 [3:22:47<4:54:42,  1.38it/s] 49%|████▉     | 23563/48008 [3:22:47<4:25:20,  1.54it/s] 49%|████▉     | 23564/48008 [3:22:48<3:56:21,  1.72it/s] 49%|████▉     | 23565/48008 [3:22:48<3:44:50,  1.81it/s] 49%|████▉     | 23566/48008 [3:22:49<3:28:04,  1.96it/s] 49%|████▉     | 23567/48008 [3:22:49<3:24:49,  1.99it/s] 49%|████▉     | 23568/48008 [3:22:50<3:22:47,  2.01it/s] 49%|████▉     | 23569/48008 [3:22:50<3:20:34,  2.03it/s] 49%|████▉     | 23570/48008 [3:22:51<3:19:34,  2.04it/s] 49%|████▉     | 23571/48008 [3:22:51<3:21:23,  2.02it/s] 49%|████▉     | 23572/48008 [3:22:52<3:22:56,  2.01it/s] 49%|████▉     | 23573/48008 [3:22:53<4:54:38,  1.38it/s] 49%|████▉     | 23574/48008 [3:22:53<4:27:34,  1.52it/s] 49%|████▉     | 23575/48008 [3:22:54<4:11:21,  1.62it/s] 49%|████▉     | 23576/48008 [3:22:54<3:47:32,  1.79it/s] 49%|████▉     | 23577/48008 [3:22:55<3:38:06,  1.87it/s] 49%|████▉     | 23578/48008 [3:22:55<3:23:44,  2.00it/s] 49%|████▉     | 23579/48008 [3:22:56<3:14:07,  2.10it/s] 49%|████▉     | 23580/48008 [3:22:56<3:17:22,  2.06it/s] 49%|████▉     | 23581/48008 [3:22:57<3:24:29,  1.99it/s] 49%|████▉     | 23582/48008 [3:22:57<3:21:24,  2.02it/s] 49%|████▉     | 23583/48008 [3:22:58<3:18:53,  2.05it/s] 49%|████▉     | 23584/48008 [3:22:58<3:18:25,  2.05it/s] 49%|████▉     | 23585/48008 [3:22:59<3:09:44,  2.15it/s] 49%|████▉     | 23586/48008 [3:22:59<3:11:58,  2.12it/s] 49%|████▉     | 23587/48008 [3:23:00<3:13:48,  2.10it/s] 49%|████▉     | 23588/48008 [3:23:01<4:48:26,  1.41it/s] 49%|████▉     | 23589/48008 [3:23:01<4:20:54,  1.56it/s] 49%|████▉     | 23590/48008 [3:23:02<4:02:17,  1.68it/s] 49%|████▉     | 23591/48008 [3:23:02<3:48:50,  1.78it/s] 49%|████▉     | 23592/48008 [3:23:03<3:38:24,  1.86it/s] 49%|████▉     | 23593/48008 [3:23:03<3:34:45,  1.89it/s] 49%|████▉     | 23594/48008 [3:23:04<3:31:53,  1.92it/s] 49%|████▉     | 23595/48008 [3:23:04<3:29:38,  1.94it/s] 49%|████▉     | 23596/48008 [3:23:05<3:25:41,  1.98it/s] 49%|████▉     | 23597/48008 [3:23:05<3:25:39,  1.98it/s] 49%|████▉     | 23598/48008 [3:23:06<3:14:59,  2.09it/s] 49%|████▉     | 23599/48008 [3:23:06<3:19:09,  2.04it/s] 49%|████▉     | 23600/48008 [3:23:07<3:18:29,  2.05it/s]                                                         {'loss': 4.2782, 'grad_norm': 0.09064894169569016, 'learning_rate': 0.0001016872187968672, 'epoch': 0.49} 49%|████▉     | 23600/48008 [3:23:07<3:18:29,  2.05it/s]
 49%|████▉     | 23601/48008 [3:23:07<3:18:37,  2.05it/s] 49%|████▉     | 23602/48008 [3:23:08<3:18:07,  2.05it/s] 49%|████▉     | 23603/48008 [3:23:08<3:09:48,  2.14it/s] 49%|████▉     | 23604/48008 [3:23:09<3:12:05,  2.12it/s] 49%|████▉     | 23605/48008 [3:23:09<3:15:35,  2.08it/s] 49%|████▉     | 23606/48008 [3:23:10<3:18:19,  2.05it/s] 49%|████▉     | 23607/48008 [3:23:10<3:09:55,  2.14it/s] 49%|████▉     | 23608/48008 [3:23:10<3:11:37,  2.12it/s] 49%|████▉     | 23609/48008 [3:23:11<3:12:44,  2.11it/s] 49%|████▉     | 23610/48008 [3:23:11<3:06:02,  2.19it/s] 49%|████▉     | 23611/48008 [3:23:12<3:01:18,  2.24it/s] 49%|████▉     | 23612/48008 [3:23:12<2:57:33,  2.29it/s] 49%|████▉     | 23613/48008 [3:23:13<3:27:05,  1.96it/s] 49%|████▉     | 23614/48008 [3:23:13<3:23:14,  2.00it/s] 49%|████▉     | 23615/48008 [3:23:14<3:25:17,  1.98it/s] 49%|████▉     | 23616/48008 [3:23:15<4:10:36,  1.62it/s] 49%|████▉     | 23617/48008 [3:23:15<3:53:45,  1.74it/s] 49%|████▉     | 23618/48008 [3:23:16<3:45:03,  1.81it/s] 49%|████▉     | 23619/48008 [3:23:16<3:40:28,  1.84it/s] 49%|████▉     | 23620/48008 [3:23:17<3:32:14,  1.92it/s] 49%|████▉     | 23621/48008 [3:23:17<3:19:55,  2.03it/s] 49%|████▉     | 23622/48008 [3:23:18<3:18:34,  2.05it/s] 49%|████▉     | 23623/48008 [3:23:18<3:17:50,  2.05it/s] 49%|████▉     | 23624/48008 [3:23:19<3:21:18,  2.02it/s] 49%|████▉     | 23625/48008 [3:23:19<3:25:59,  1.97it/s] 49%|████▉     | 23626/48008 [3:23:20<3:27:55,  1.95it/s] 49%|████▉     | 23627/48008 [3:23:20<3:24:15,  1.99it/s] 49%|████▉     | 23628/48008 [3:23:21<3:21:19,  2.02it/s] 49%|████▉     | 23629/48008 [3:23:21<3:19:40,  2.03it/s] 49%|████▉     | 23630/48008 [3:23:22<3:18:33,  2.05it/s] 49%|████▉     | 23631/48008 [3:23:22<3:20:56,  2.02it/s] 49%|████▉     | 23632/48008 [3:23:23<3:23:46,  1.99it/s] 49%|████▉     | 23633/48008 [3:23:23<3:28:07,  1.95it/s] 49%|████▉     | 23634/48008 [3:23:24<3:30:04,  1.93it/s] 49%|████▉     | 23635/48008 [3:23:24<3:28:56,  1.94it/s] 49%|████▉     | 23636/48008 [3:23:25<3:31:14,  1.92it/s] 49%|████▉     | 23637/48008 [3:23:25<3:18:22,  2.05it/s] 49%|████▉     | 23638/48008 [3:23:26<3:17:34,  2.06it/s] 49%|████▉     | 23639/48008 [3:23:26<3:20:21,  2.03it/s] 49%|████▉     | 23640/48008 [3:23:27<3:23:24,  2.00it/s] 49%|████▉     | 23641/48008 [3:23:27<3:21:30,  2.02it/s] 49%|████▉     | 23642/48008 [3:23:28<3:27:09,  1.96it/s] 49%|████▉     | 23643/48008 [3:23:28<3:28:26,  1.95it/s] 49%|████▉     | 23644/48008 [3:23:29<3:16:57,  2.06it/s] 49%|████▉     | 23645/48008 [3:23:29<3:19:50,  2.03it/s] 49%|████▉     | 23646/48008 [3:23:30<3:42:05,  1.83it/s] 49%|████▉     | 23647/48008 [3:23:30<3:36:21,  1.88it/s] 49%|████▉     | 23648/48008 [3:23:31<3:30:15,  1.93it/s] 49%|████▉     | 23649/48008 [3:23:31<3:18:12,  2.05it/s] 49%|████▉     | 23650/48008 [3:23:32<3:20:43,  2.02it/s]                                                         {'loss': 4.2846, 'grad_norm': 0.1062418594956398, 'learning_rate': 0.00010147892017997, 'epoch': 0.49}
 49%|████▉     | 23650/48008 [3:23:32<3:20:43,  2.02it/s] 49%|████▉     | 23651/48008 [3:23:32<3:19:48,  2.03it/s] 49%|████▉     | 23652/48008 [3:23:33<3:20:48,  2.02it/s] 49%|████▉     | 23653/48008 [3:23:33<3:11:27,  2.12it/s] 49%|████▉     | 23654/48008 [3:23:34<3:12:36,  2.11it/s] 49%|████▉     | 23655/48008 [3:23:34<3:13:06,  2.10it/s] 49%|████▉     | 23656/48008 [3:23:35<3:14:26,  2.09it/s] 49%|████▉     | 23657/48008 [3:23:35<3:14:35,  2.09it/s] 49%|████▉     | 23658/48008 [3:23:36<3:15:35,  2.07it/s] 49%|████▉     | 23659/48008 [3:23:36<3:19:21,  2.04it/s] 49%|████▉     | 23660/48008 [3:23:37<3:18:16,  2.05it/s] 49%|████▉     | 23661/48008 [3:23:37<3:17:19,  2.06it/s] 49%|████▉     | 23662/48008 [3:23:38<3:19:44,  2.03it/s] 49%|████▉     | 23663/48008 [3:23:38<4:07:40,  1.64it/s] 49%|████▉     | 23664/48008 [3:23:39<3:51:51,  1.75it/s] 49%|████▉     | 23665/48008 [3:23:39<3:44:02,  1.81it/s] 49%|████▉     | 23666/48008 [3:23:40<3:34:45,  1.89it/s] 49%|████▉     | 23667/48008 [3:23:40<3:29:11,  1.94it/s] 49%|████▉     | 23668/48008 [3:23:41<3:25:42,  1.97it/s] 49%|████▉     | 23669/48008 [3:23:41<3:14:46,  2.08it/s] 49%|████▉     | 23670/48008 [3:23:42<4:02:36,  1.67it/s] 49%|████▉     | 23671/48008 [3:23:43<3:40:42,  1.84it/s] 49%|████▉     | 23672/48008 [3:23:43<3:38:01,  1.86it/s] 49%|████▉     | 23673/48008 [3:23:44<3:34:33,  1.89it/s] 49%|████▉     | 23674/48008 [3:23:44<3:32:56,  1.90it/s] 49%|████▉     | 23675/48008 [3:23:45<3:19:52,  2.03it/s] 49%|████▉     | 23676/48008 [3:23:45<3:10:33,  2.13it/s] 49%|████▉     | 23677/48008 [3:23:45<3:12:07,  2.11it/s] 49%|████▉     | 23678/48008 [3:23:46<3:16:17,  2.07it/s] 49%|████▉     | 23679/48008 [3:23:46<3:15:53,  2.07it/s] 49%|████▉     | 23680/48008 [3:23:47<3:18:36,  2.04it/s] 49%|████▉     | 23681/48008 [3:23:47<3:17:29,  2.05it/s] 49%|████▉     | 23682/48008 [3:23:48<3:05:10,  2.19it/s] 49%|████▉     | 23683/48008 [3:23:48<3:14:43,  2.08it/s] 49%|████▉     | 23684/48008 [3:23:49<3:14:59,  2.08it/s] 49%|████▉     | 23685/48008 [3:23:49<3:17:48,  2.05it/s] 49%|████▉     | 23686/48008 [3:23:50<3:17:50,  2.05it/s] 49%|████▉     | 23687/48008 [3:23:50<3:17:01,  2.06it/s] 49%|████▉     | 23688/48008 [3:23:51<3:19:34,  2.03it/s] 49%|████▉     | 23689/48008 [3:23:51<3:10:18,  2.13it/s] 49%|████▉     | 23690/48008 [3:23:52<3:13:44,  2.09it/s] 49%|████▉     | 23691/48008 [3:23:52<3:06:51,  2.17it/s] 49%|████▉     | 23692/48008 [3:23:53<3:12:15,  2.11it/s] 49%|████▉     | 23693/48008 [3:23:53<3:05:24,  2.19it/s] 49%|████▉     | 23694/48008 [3:23:54<3:31:41,  1.91it/s] 49%|████▉     | 23695/48008 [3:23:54<3:19:17,  2.03it/s] 49%|████▉     | 23696/48008 [3:23:55<3:18:34,  2.04it/s] 49%|████▉     | 23697/48008 [3:23:55<3:09:47,  2.13it/s] 49%|████▉     | 23698/48008 [3:23:56<3:15:59,  2.07it/s] 49%|████▉     | 23699/48008 [3:23:56<3:07:56,  2.16it/s] 49%|████▉     | 23700/48008 [3:23:56<3:13:06,  2.10it/s]                                                         {'loss': 4.2071, 'grad_norm': 0.09457848221063614, 'learning_rate': 0.00010127062156307283, 'epoch': 0.49}
 49%|████▉     | 23700/48008 [3:23:56<3:13:06,  2.10it/s] 49%|████▉     | 23701/48008 [3:23:57<3:18:50,  2.04it/s] 49%|████▉     | 23702/48008 [3:23:58<3:20:35,  2.02it/s] 49%|████▉     | 23703/48008 [3:23:58<3:23:38,  1.99it/s] 49%|████▉     | 23704/48008 [3:23:59<4:54:43,  1.37it/s] 49%|████▉     | 23705/48008 [3:24:00<4:25:12,  1.53it/s] 49%|████▉     | 23706/48008 [3:24:00<4:08:36,  1.63it/s] 49%|████▉     | 23707/48008 [3:24:01<3:44:57,  1.80it/s] 49%|████▉     | 23708/48008 [3:24:01<3:35:29,  1.88it/s] 49%|████▉     | 23709/48008 [3:24:02<3:21:56,  2.01it/s] 49%|████▉     | 23710/48008 [3:24:02<3:43:41,  1.81it/s] 49%|████▉     | 23711/48008 [3:24:03<3:35:29,  1.88it/s] 49%|████▉     | 23712/48008 [3:24:03<3:31:52,  1.91it/s] 49%|████▉     | 23713/48008 [3:24:04<3:26:57,  1.96it/s] 49%|████▉     | 23714/48008 [3:24:04<3:26:12,  1.96it/s] 49%|████▉     | 23715/48008 [3:24:05<3:22:20,  2.00it/s] 49%|████▉     | 23716/48008 [3:24:05<3:19:33,  2.03it/s] 49%|████▉     | 23717/48008 [3:24:06<3:23:11,  1.99it/s] 49%|████▉     | 23718/48008 [3:24:06<3:20:59,  2.01it/s] 49%|████▉     | 23719/48008 [3:24:07<4:52:15,  1.39it/s] 49%|████▉     | 23720/48008 [3:24:08<5:12:02,  1.30it/s] 49%|████▉     | 23721/48008 [3:24:09<4:29:19,  1.50it/s] 49%|████▉     | 23722/48008 [3:24:09<4:06:21,  1.64it/s] 49%|████▉     | 23723/48008 [3:24:10<3:53:14,  1.74it/s] 49%|████▉     | 23724/48008 [3:24:10<3:41:40,  1.83it/s] 49%|████▉     | 23725/48008 [3:24:11<3:33:29,  1.90it/s] 49%|████▉     | 23726/48008 [3:24:11<3:32:45,  1.90it/s] 49%|████▉     | 23727/48008 [3:24:12<3:27:39,  1.95it/s] 49%|████▉     | 23728/48008 [3:24:12<3:23:14,  1.99it/s] 49%|████▉     | 23729/48008 [3:24:13<3:23:02,  1.99it/s] 49%|████▉     | 23730/48008 [3:24:13<3:25:37,  1.97it/s] 49%|████▉     | 23731/48008 [3:24:14<3:28:55,  1.94it/s] 49%|████▉     | 23732/48008 [3:24:14<3:24:26,  1.98it/s] 49%|████▉     | 23733/48008 [3:24:15<3:13:51,  2.09it/s] 49%|████▉     | 23734/48008 [3:24:15<3:06:11,  2.17it/s] 49%|████▉     | 23735/48008 [3:24:16<3:09:12,  2.14it/s] 49%|████▉     | 23736/48008 [3:24:16<3:34:43,  1.88it/s] 49%|████▉     | 23737/48008 [3:24:17<3:29:18,  1.93it/s] 49%|████▉     | 23738/48008 [3:24:17<3:32:30,  1.90it/s] 49%|████▉     | 23739/48008 [3:24:18<3:33:25,  1.90it/s] 49%|████▉     | 23740/48008 [3:24:18<3:31:00,  1.92it/s] 49%|████▉     | 23741/48008 [3:24:19<3:49:18,  1.76it/s] 49%|████▉     | 23742/48008 [3:24:19<3:38:29,  1.85it/s] 49%|████▉     | 23743/48008 [3:24:20<3:31:24,  1.91it/s] 49%|████▉     | 23744/48008 [3:24:21<3:50:11,  1.76it/s] 49%|████▉     | 23745/48008 [3:24:21<3:42:15,  1.82it/s] 49%|████▉     | 23746/48008 [3:24:22<3:25:58,  1.96it/s] 49%|████▉     | 23747/48008 [3:24:22<3:22:35,  2.00it/s] 49%|████▉     | 23748/48008 [3:24:23<3:27:38,  1.95it/s] 49%|████▉     | 23749/48008 [3:24:23<3:24:06,  1.98it/s] 49%|████▉     | 23750/48008 [3:24:23<3:13:22,  2.09it/s]                                                         {'loss': 4.3102, 'grad_norm': 0.095205157995224, 'learning_rate': 0.00010106232294617564, 'epoch': 0.49}
 49%|████▉     | 23750/48008 [3:24:23<3:13:22,  2.09it/s] 49%|████▉     | 23751/48008 [3:24:24<3:16:39,  2.06it/s] 49%|████▉     | 23752/48008 [3:24:24<3:08:02,  2.15it/s] 49%|████▉     | 23753/48008 [3:24:25<3:17:32,  2.05it/s] 49%|████▉     | 23754/48008 [3:24:25<3:21:04,  2.01it/s] 49%|████▉     | 23755/48008 [3:24:26<3:19:41,  2.02it/s] 49%|████▉     | 23756/48008 [3:24:27<3:41:53,  1.82it/s] 49%|████▉     | 23757/48008 [3:24:27<3:36:05,  1.87it/s] 49%|████▉     | 23758/48008 [3:24:28<3:21:50,  2.00it/s] 49%|████▉     | 23759/48008 [3:24:28<3:11:54,  2.11it/s] 49%|████▉     | 23760/48008 [3:24:28<3:12:08,  2.10it/s] 49%|████▉     | 23761/48008 [3:24:29<3:12:58,  2.09it/s] 49%|████▉     | 23762/48008 [3:24:29<3:16:00,  2.06it/s] 49%|████▉     | 23763/48008 [3:24:30<3:19:04,  2.03it/s] 50%|████▉     | 23764/48008 [3:24:30<3:22:39,  1.99it/s] 50%|████▉     | 23765/48008 [3:24:31<4:07:33,  1.63it/s] 50%|████▉     | 23766/48008 [3:24:32<3:43:48,  1.81it/s] 50%|████▉     | 23767/48008 [3:24:33<5:08:32,  1.31it/s] 50%|████▉     | 23768/48008 [3:24:33<4:34:33,  1.47it/s] 50%|████▉     | 23769/48008 [3:24:34<4:10:51,  1.61it/s] 50%|████▉     | 23770/48008 [3:24:34<3:54:07,  1.73it/s] 50%|████▉     | 23771/48008 [3:24:35<3:46:48,  1.78it/s] 50%|████▉     | 23772/48008 [3:24:35<3:42:27,  1.82it/s] 50%|████▉     | 23773/48008 [3:24:36<3:34:13,  1.89it/s] 50%|████▉     | 23774/48008 [3:24:36<3:33:24,  1.89it/s] 50%|████▉     | 23775/48008 [3:24:37<3:28:06,  1.94it/s] 50%|████▉     | 23776/48008 [3:24:37<3:16:03,  2.06it/s] 50%|████▉     | 23777/48008 [3:24:38<3:07:04,  2.16it/s] 50%|████▉     | 23778/48008 [3:24:38<3:11:32,  2.11it/s] 50%|████▉     | 23779/48008 [3:24:39<3:11:44,  2.11it/s] 50%|████▉     | 23780/48008 [3:24:39<3:14:43,  2.07it/s] 50%|████▉     | 23781/48008 [3:24:40<3:14:48,  2.07it/s] 50%|████▉     | 23782/48008 [3:24:40<3:14:22,  2.08it/s] 50%|████▉     | 23783/48008 [3:24:41<3:19:02,  2.03it/s] 50%|████▉     | 23784/48008 [3:24:41<3:17:39,  2.04it/s] 50%|████▉     | 23785/48008 [3:24:42<3:16:44,  2.05it/s] 50%|████▉     | 23786/48008 [3:24:42<3:07:57,  2.15it/s] 50%|████▉     | 23787/48008 [3:24:43<3:01:59,  2.22it/s] 50%|████▉     | 23788/48008 [3:24:43<3:05:53,  2.17it/s] 50%|████▉     | 23789/48008 [3:24:44<3:12:40,  2.09it/s] 50%|████▉     | 23790/48008 [3:24:44<3:13:29,  2.09it/s] 50%|████▉     | 23791/48008 [3:24:45<3:14:24,  2.08it/s] 50%|████▉     | 23792/48008 [3:24:45<3:14:11,  2.08it/s] 50%|████▉     | 23793/48008 [3:24:46<3:38:09,  1.85it/s] 50%|████▉     | 23794/48008 [3:24:46<3:23:08,  1.99it/s] 50%|████▉     | 23795/48008 [3:24:47<3:23:07,  1.99it/s] 50%|████▉     | 23796/48008 [3:24:47<3:24:55,  1.97it/s] 50%|████▉     | 23797/48008 [3:24:48<3:21:59,  2.00it/s] 50%|████▉     | 23798/48008 [3:24:48<3:22:34,  1.99it/s] 50%|████▉     | 23799/48008 [3:24:49<3:23:20,  1.98it/s] 50%|████▉     | 23800/48008 [3:24:49<3:13:06,  2.09it/s]                                                         {'loss': 4.2385, 'grad_norm': 0.10773184150457382, 'learning_rate': 0.00010085402432927847, 'epoch': 0.5} 50%|████▉     | 23800/48008 [3:24:49<3:13:06,  2.09it/s]
 50%|████▉     | 23801/48008 [3:24:50<3:21:21,  2.00it/s] 50%|████▉     | 23802/48008 [3:24:50<3:11:36,  2.11it/s] 50%|████▉     | 23803/48008 [3:24:51<3:15:00,  2.07it/s] 50%|████▉     | 23804/48008 [3:24:51<3:14:58,  2.07it/s] 50%|████▉     | 23805/48008 [3:24:51<3:15:12,  2.07it/s] 50%|████▉     | 23806/48008 [3:24:52<3:15:18,  2.07it/s] 50%|████▉     | 23807/48008 [3:24:52<3:06:56,  2.16it/s] 50%|████▉     | 23808/48008 [3:24:53<3:14:13,  2.08it/s] 50%|████▉     | 23809/48008 [3:24:53<3:17:43,  2.04it/s] 50%|████▉     | 23810/48008 [3:24:54<3:21:22,  2.00it/s] 50%|████▉     | 23811/48008 [3:24:54<3:19:20,  2.02it/s] 50%|████▉     | 23812/48008 [3:24:55<3:17:53,  2.04it/s] 50%|████▉     | 23813/48008 [3:24:55<3:16:50,  2.05it/s] 50%|████▉     | 23814/48008 [3:24:56<3:07:58,  2.15it/s] 50%|████▉     | 23815/48008 [3:24:56<3:01:59,  2.22it/s] 50%|████▉     | 23816/48008 [3:24:57<3:11:57,  2.10it/s] 50%|████▉     | 23817/48008 [3:24:57<3:15:30,  2.06it/s] 50%|████▉     | 23818/48008 [3:24:58<3:15:46,  2.06it/s] 50%|████▉     | 23819/48008 [3:24:58<3:08:11,  2.14it/s] 50%|████▉     | 23820/48008 [3:24:59<3:17:02,  2.05it/s] 50%|████▉     | 23821/48008 [3:24:59<3:16:11,  2.05it/s] 50%|████▉     | 23822/48008 [3:25:00<3:16:07,  2.06it/s] 50%|████▉     | 23823/48008 [3:25:00<3:16:00,  2.06it/s] 50%|████▉     | 23824/48008 [3:25:01<3:07:32,  2.15it/s] 50%|████▉     | 23825/48008 [3:25:01<3:12:34,  2.09it/s] 50%|████▉     | 23826/48008 [3:25:02<3:16:49,  2.05it/s] 50%|████▉     | 23827/48008 [3:25:02<3:16:10,  2.05it/s] 50%|████▉     | 23828/48008 [3:25:03<3:16:01,  2.06it/s] 50%|████▉     | 23829/48008 [3:25:03<3:16:06,  2.05it/s] 50%|████▉     | 23830/48008 [3:25:04<3:16:07,  2.05it/s] 50%|████▉     | 23831/48008 [3:25:04<3:16:05,  2.05it/s] 50%|████▉     | 23832/48008 [3:25:04<3:15:44,  2.06it/s] 50%|████▉     | 23833/48008 [3:25:05<3:15:51,  2.06it/s] 50%|████▉     | 23834/48008 [3:25:06<3:19:46,  2.02it/s] 50%|████▉     | 23835/48008 [3:25:06<3:17:51,  2.04it/s] 50%|████▉     | 23836/48008 [3:25:06<3:19:36,  2.02it/s] 50%|████▉     | 23837/48008 [3:25:07<3:18:39,  2.03it/s] 50%|████▉     | 23838/48008 [3:25:07<3:18:08,  2.03it/s] 50%|████▉     | 23839/48008 [3:25:08<3:19:52,  2.02it/s] 50%|████▉     | 23840/48008 [3:25:09<4:52:00,  1.38it/s] 50%|████▉     | 23841/48008 [3:25:10<4:22:59,  1.53it/s] 50%|████▉     | 23842/48008 [3:25:10<4:04:47,  1.65it/s] 50%|████▉     | 23843/48008 [3:25:11<3:49:46,  1.75it/s] 50%|████▉     | 23844/48008 [3:25:11<3:38:49,  1.84it/s] 50%|████▉     | 23845/48008 [3:25:12<3:36:10,  1.86it/s] 50%|████▉     | 23846/48008 [3:25:12<3:30:07,  1.92it/s] 50%|████▉     | 23847/48008 [3:25:13<3:25:44,  1.96it/s] 50%|████▉     | 23848/48008 [3:25:13<3:21:20,  2.00it/s] 50%|████▉     | 23849/48008 [3:25:14<3:22:55,  1.98it/s] 50%|████▉     | 23850/48008 [3:25:14<3:23:33,  1.98it/s]                                                         {'loss': 4.2534, 'grad_norm': 0.09590070694684982, 'learning_rate': 0.00010064572571238127, 'epoch': 0.5}
 50%|████▉     | 23850/48008 [3:25:14<3:23:33,  1.98it/s] 50%|████▉     | 23851/48008 [3:25:15<3:23:55,  1.97it/s] 50%|████▉     | 23852/48008 [3:25:15<3:13:20,  2.08it/s] 50%|████▉     | 23853/48008 [3:25:16<4:01:45,  1.67it/s] 50%|████▉     | 23854/48008 [3:25:16<3:50:02,  1.75it/s] 50%|████▉     | 23855/48008 [3:25:17<3:38:48,  1.84it/s] 50%|████▉     | 23856/48008 [3:25:17<3:33:45,  1.88it/s] 50%|████▉     | 23857/48008 [3:25:18<3:30:02,  1.92it/s] 50%|████▉     | 23858/48008 [3:25:18<3:25:14,  1.96it/s] 50%|████▉     | 23859/48008 [3:25:19<3:26:26,  1.95it/s] 50%|████▉     | 23860/48008 [3:25:19<3:22:53,  1.98it/s] 50%|████▉     | 23861/48008 [3:25:20<3:12:26,  2.09it/s] 50%|████▉     | 23862/48008 [3:25:20<3:12:40,  2.09it/s] 50%|████▉     | 23863/48008 [3:25:21<3:13:12,  2.08it/s] 50%|████▉     | 23864/48008 [3:25:21<3:13:43,  2.08it/s] 50%|████▉     | 23865/48008 [3:25:22<3:16:21,  2.05it/s] 50%|████▉     | 23866/48008 [3:25:22<3:18:31,  2.03it/s] 50%|████▉     | 23867/48008 [3:25:23<3:09:30,  2.12it/s] 50%|████▉     | 23868/48008 [3:25:23<3:13:39,  2.08it/s] 50%|████▉     | 23869/48008 [3:25:24<3:14:05,  2.07it/s] 50%|████▉     | 23870/48008 [3:25:24<3:13:39,  2.08it/s] 50%|████▉     | 23871/48008 [3:25:25<3:16:26,  2.05it/s] 50%|████▉     | 23872/48008 [3:25:25<3:19:53,  2.01it/s] 50%|████▉     | 23873/48008 [3:25:26<3:20:56,  2.00it/s] 50%|████▉     | 23874/48008 [3:25:26<3:18:26,  2.03it/s] 50%|████▉     | 23875/48008 [3:25:27<3:16:37,  2.05it/s] 50%|████▉     | 23876/48008 [3:25:27<3:18:38,  2.02it/s] 50%|████▉     | 23877/48008 [3:25:28<3:08:53,  2.13it/s] 50%|████▉     | 23878/48008 [3:25:28<3:10:39,  2.11it/s] 50%|████▉     | 23879/48008 [3:25:29<3:11:53,  2.10it/s] 50%|████▉     | 23880/48008 [3:25:29<3:12:42,  2.09it/s] 50%|████▉     | 23881/48008 [3:25:30<4:01:31,  1.66it/s] 50%|████▉     | 23882/48008 [3:25:30<3:50:10,  1.75it/s] 50%|████▉     | 23883/48008 [3:25:31<3:39:09,  1.83it/s] 50%|████▉     | 23884/48008 [3:25:31<3:38:26,  1.84it/s] 50%|████▉     | 23885/48008 [3:25:32<3:38:24,  1.84it/s] 50%|████▉     | 23886/48008 [3:25:33<3:30:16,  1.91it/s] 50%|████▉     | 23887/48008 [3:25:33<3:24:49,  1.96it/s] 50%|████▉     | 23888/48008 [3:25:34<3:26:24,  1.95it/s] 50%|████▉     | 23889/48008 [3:25:34<3:25:06,  1.96it/s] 50%|████▉     | 23890/48008 [3:25:34<3:22:00,  1.99it/s] 50%|████▉     | 23891/48008 [3:25:35<3:11:44,  2.10it/s] 50%|████▉     | 23892/48008 [3:25:35<3:11:54,  2.09it/s] 50%|████▉     | 23893/48008 [3:25:36<3:14:46,  2.06it/s] 50%|████▉     | 23894/48008 [3:25:36<3:16:46,  2.04it/s] 50%|████▉     | 23895/48008 [3:25:37<3:15:48,  2.05it/s] 50%|████▉     | 23896/48008 [3:25:37<3:21:34,  1.99it/s] 50%|████▉     | 23897/48008 [3:25:38<3:21:45,  1.99it/s] 50%|████▉     | 23898/48008 [3:25:38<3:19:39,  2.01it/s] 50%|████▉     | 23899/48008 [3:25:39<3:17:55,  2.03it/s] 50%|████▉     | 23900/48008 [3:25:39<3:16:12,  2.05it/s]                                                         {'loss': 4.2579, 'grad_norm': 0.0963331088423729, 'learning_rate': 0.00010043742709548409, 'epoch': 0.5}
 50%|████▉     | 23900/48008 [3:25:39<3:16:12,  2.05it/s] 50%|████▉     | 23901/48008 [3:25:40<3:18:25,  2.02it/s] 50%|████▉     | 23902/48008 [3:25:40<3:20:17,  2.01it/s] 50%|████▉     | 23903/48008 [3:25:41<3:23:29,  1.97it/s] 50%|████▉     | 23904/48008 [3:25:41<3:20:46,  2.00it/s] 50%|████▉     | 23905/48008 [3:25:42<3:10:37,  2.11it/s] 50%|████▉     | 23906/48008 [3:25:42<3:11:30,  2.10it/s] 50%|████▉     | 23907/48008 [3:25:43<3:19:36,  2.01it/s] 50%|████▉     | 23908/48008 [3:25:43<3:18:03,  2.03it/s] 50%|████▉     | 23909/48008 [3:25:44<3:21:17,  2.00it/s] 50%|████▉     | 23910/48008 [3:25:44<3:21:12,  2.00it/s] 50%|████▉     | 23911/48008 [3:25:45<3:24:22,  1.97it/s] 50%|████▉     | 23912/48008 [3:25:45<3:13:28,  2.08it/s] 50%|████▉     | 23913/48008 [3:25:46<3:13:27,  2.08it/s] 50%|████▉     | 23914/48008 [3:25:46<3:20:53,  2.00it/s] 50%|████▉     | 23915/48008 [3:25:47<3:19:11,  2.02it/s] 50%|████▉     | 23916/48008 [3:25:47<3:19:37,  2.01it/s] 50%|████▉     | 23917/48008 [3:25:48<3:17:40,  2.03it/s] 50%|████▉     | 23918/48008 [3:25:48<3:19:19,  2.01it/s] 50%|████▉     | 23919/48008 [3:25:49<3:09:35,  2.12it/s] 50%|████▉     | 23920/48008 [3:25:49<3:10:41,  2.11it/s] 50%|████▉     | 23921/48008 [3:25:50<3:11:43,  2.09it/s] 50%|████▉     | 23922/48008 [3:25:50<3:11:38,  2.09it/s] 50%|████▉     | 23923/48008 [3:25:51<3:11:49,  2.09it/s] 50%|████▉     | 23924/48008 [3:25:51<3:17:01,  2.04it/s] 50%|████▉     | 23925/48008 [3:25:52<3:18:16,  2.02it/s] 50%|████▉     | 23926/48008 [3:25:52<3:17:03,  2.04it/s] 50%|████▉     | 23927/48008 [3:25:53<3:16:10,  2.05it/s] 50%|████▉     | 23928/48008 [3:25:53<3:15:02,  2.06it/s] 50%|████▉     | 23929/48008 [3:25:54<3:16:54,  2.04it/s] 50%|████▉     | 23930/48008 [3:25:54<3:19:11,  2.01it/s] 50%|████▉     | 23931/48008 [3:25:55<3:17:31,  2.03it/s] 50%|████▉     | 23932/48008 [3:25:55<3:08:04,  2.13it/s] 50%|████▉     | 23933/48008 [3:25:55<3:01:38,  2.21it/s] 50%|████▉     | 23934/48008 [3:25:56<3:28:24,  1.93it/s] 50%|████▉     | 23935/48008 [3:25:56<3:16:23,  2.04it/s] 50%|████▉     | 23936/48008 [3:25:57<3:18:20,  2.02it/s] 50%|████▉     | 23937/48008 [3:25:57<3:09:17,  2.12it/s] 50%|████▉     | 23938/48008 [3:25:58<3:02:44,  2.20it/s] 50%|████▉     | 23939/48008 [3:25:58<3:05:38,  2.16it/s] 50%|████▉     | 23940/48008 [3:25:59<3:10:20,  2.11it/s] 50%|████▉     | 23941/48008 [3:25:59<3:11:09,  2.10it/s] 50%|████▉     | 23942/48008 [3:26:00<3:14:41,  2.06it/s] 50%|████▉     | 23943/48008 [3:26:01<4:01:45,  1.66it/s] 50%|████▉     | 23944/48008 [3:26:01<3:47:19,  1.76it/s] 50%|████▉     | 23945/48008 [3:26:02<3:44:29,  1.79it/s] 50%|████▉     | 23946/48008 [3:26:02<3:37:38,  1.84it/s] 50%|████▉     | 23947/48008 [3:26:04<5:30:24,  1.21it/s] 50%|████▉     | 23948/48008 [3:26:04<4:49:36,  1.38it/s] 50%|████▉     | 23949/48008 [3:26:05<4:23:17,  1.52it/s] 50%|████▉     | 23950/48008 [3:26:05<4:02:45,  1.65it/s]                                                         {'loss': 4.2646, 'grad_norm': 0.2805793881416321, 'learning_rate': 0.00010022912847858689, 'epoch': 0.5}
 50%|████▉     | 23950/48008 [3:26:05<4:02:45,  1.65it/s] 50%|████▉     | 23951/48008 [3:26:06<3:39:44,  1.82it/s] 50%|████▉     | 23952/48008 [3:26:06<3:31:27,  1.90it/s] 50%|████▉     | 23953/48008 [3:26:07<5:12:19,  1.28it/s] 50%|████▉     | 23954/48008 [3:26:08<4:36:42,  1.45it/s] 50%|████▉     | 23955/48008 [3:26:08<4:14:03,  1.58it/s] 50%|████▉     | 23956/48008 [3:26:09<3:56:01,  1.70it/s] 50%|████▉     | 23957/48008 [3:26:09<3:35:28,  1.86it/s] 50%|████▉     | 23958/48008 [3:26:10<3:34:04,  1.87it/s] 50%|████▉     | 23959/48008 [3:26:11<4:32:29,  1.47it/s] 50%|████▉     | 23960/48008 [3:26:11<4:00:29,  1.67it/s] 50%|████▉     | 23961/48008 [3:26:13<5:20:06,  1.25it/s] 50%|████▉     | 23962/48008 [3:26:13<4:41:55,  1.42it/s] 50%|████▉     | 23963/48008 [3:26:13<4:07:18,  1.62it/s] 50%|████▉     | 23964/48008 [3:26:14<3:43:31,  1.79it/s] 50%|████▉     | 23965/48008 [3:26:14<3:33:54,  1.87it/s] 50%|████▉     | 23966/48008 [3:26:15<3:30:28,  1.90it/s] 50%|████▉     | 23967/48008 [3:26:15<3:27:43,  1.93it/s] 50%|████▉     | 23968/48008 [3:26:16<3:46:59,  1.77it/s] 50%|████▉     | 23969/48008 [3:26:17<3:39:43,  1.82it/s] 50%|████▉     | 23970/48008 [3:26:17<3:36:18,  1.85it/s] 50%|████▉     | 23971/48008 [3:26:18<3:36:13,  1.85it/s] 50%|████▉     | 23972/48008 [3:26:18<3:33:37,  1.88it/s] 50%|████▉     | 23973/48008 [3:26:19<3:20:01,  2.00it/s] 50%|████▉     | 23974/48008 [3:26:19<3:10:15,  2.11it/s] 50%|████▉     | 23975/48008 [3:26:20<3:34:11,  1.87it/s] 50%|████▉     | 23976/48008 [3:26:20<3:27:23,  1.93it/s] 50%|████▉     | 23977/48008 [3:26:21<4:10:35,  1.60it/s] 50%|████▉     | 23978/48008 [3:26:21<3:53:31,  1.72it/s] 50%|████▉     | 23979/48008 [3:26:22<3:41:01,  1.81it/s] 50%|████▉     | 23980/48008 [3:26:22<3:31:51,  1.89it/s] 50%|████▉     | 23981/48008 [3:26:23<3:33:09,  1.88it/s] 50%|████▉     | 23982/48008 [3:26:23<3:26:23,  1.94it/s] 50%|████▉     | 23983/48008 [3:26:24<3:26:50,  1.94it/s] 50%|████▉     | 23984/48008 [3:26:24<3:15:19,  2.05it/s] 50%|████▉     | 23985/48008 [3:26:25<3:13:45,  2.07it/s] 50%|████▉     | 23986/48008 [3:26:25<3:19:48,  2.00it/s] 50%|████▉     | 23987/48008 [3:26:26<3:17:44,  2.02it/s] 50%|████▉     | 23988/48008 [3:26:27<4:03:29,  1.64it/s] 50%|████▉     | 23989/48008 [3:26:27<4:11:22,  1.59it/s] 50%|████▉     | 23990/48008 [3:26:28<3:56:48,  1.69it/s] 50%|████▉     | 23991/48008 [3:26:28<3:43:07,  1.79it/s] 50%|████▉     | 23992/48008 [3:26:29<3:33:47,  1.87it/s] 50%|████▉     | 23993/48008 [3:26:29<3:31:21,  1.89it/s] 50%|████▉     | 23994/48008 [3:26:30<3:28:19,  1.92it/s] 50%|████▉     | 23995/48008 [3:26:30<3:15:53,  2.04it/s] 50%|████▉     | 23996/48008 [3:26:31<3:07:58,  2.13it/s] 50%|████▉     | 23997/48008 [3:26:31<3:12:11,  2.08it/s] 50%|████▉     | 23998/48008 [3:26:32<3:11:34,  2.09it/s] 50%|████▉     | 23999/48008 [3:26:32<3:14:28,  2.06it/s] 50%|████▉     | 24000/48008 [3:26:33<3:21:22,  1.99it/s]                                                         {'loss': 4.2498, 'grad_norm': 0.2298388034105301, 'learning_rate': 0.00010002082986168972, 'epoch': 0.5} 50%|████▉     | 24000/48008 [3:26:33<3:21:22,  1.99it/s]
 50%|████▉     | 24001/48008 [3:26:33<3:10:56,  2.10it/s] 50%|████▉     | 24002/48008 [3:26:34<3:11:36,  2.09it/s] 50%|████▉     | 24003/48008 [3:26:34<3:11:57,  2.08it/s] 50%|█████     | 24004/48008 [3:26:35<3:16:33,  2.04it/s] 50%|█████     | 24005/48008 [3:26:35<3:16:16,  2.04it/s] 50%|█████     | 24006/48008 [3:26:36<3:22:00,  1.98it/s] 50%|█████     | 24007/48008 [3:26:36<3:43:34,  1.79it/s] 50%|█████     | 24008/48008 [3:26:37<3:39:03,  1.83it/s] 50%|█████     | 24009/48008 [3:26:38<4:17:54,  1.55it/s] 50%|█████     | 24010/48008 [3:26:38<3:58:46,  1.68it/s] 50%|█████     | 24011/48008 [3:26:39<4:08:06,  1.61it/s] 50%|█████     | 24012/48008 [3:26:39<3:51:27,  1.73it/s] 50%|█████     | 24013/48008 [3:26:40<3:44:33,  1.78it/s] 50%|█████     | 24014/48008 [3:26:40<3:35:10,  1.86it/s] 50%|█████     | 24015/48008 [3:26:41<3:21:03,  1.99it/s] 50%|█████     | 24016/48008 [3:26:41<3:19:01,  2.01it/s] 50%|█████     | 24017/48008 [3:26:42<3:21:42,  1.98it/s] 50%|█████     | 24018/48008 [3:26:42<3:19:15,  2.01it/s] 50%|█████     | 24019/48008 [3:26:43<3:17:20,  2.03it/s] 50%|█████     | 24020/48008 [3:26:43<3:22:42,  1.97it/s] 50%|█████     | 24021/48008 [3:26:44<3:19:50,  2.00it/s] 50%|█████     | 24022/48008 [3:26:44<3:41:23,  1.81it/s] 50%|█████     | 24023/48008 [3:26:45<3:24:19,  1.96it/s] 50%|█████     | 24024/48008 [3:26:45<3:25:56,  1.94it/s] 50%|█████     | 24025/48008 [3:26:46<3:28:17,  1.92it/s] 50%|█████     | 24026/48008 [3:26:46<3:17:01,  2.03it/s] 50%|█████     | 24027/48008 [3:26:47<3:08:07,  2.12it/s] 50%|█████     | 24028/48008 [3:26:47<3:01:57,  2.20it/s] 50%|█████     | 24029/48008 [3:26:48<3:07:34,  2.13it/s] 50%|█████     | 24030/48008 [3:26:48<3:14:12,  2.06it/s] 50%|█████     | 24031/48008 [3:26:49<3:05:55,  2.15it/s] 50%|█████     | 24032/48008 [3:26:50<3:54:58,  1.70it/s] 50%|█████     | 24033/48008 [3:26:50<3:42:16,  1.80it/s] 50%|█████     | 24034/48008 [3:26:51<3:36:19,  1.85it/s] 50%|█████     | 24035/48008 [3:26:51<4:17:29,  1.55it/s] 50%|█████     | 24036/48008 [3:26:52<3:58:16,  1.68it/s] 50%|█████     | 24037/48008 [3:26:52<3:36:46,  1.84it/s] 50%|█████     | 24038/48008 [3:26:53<3:33:58,  1.87it/s] 50%|█████     | 24039/48008 [3:26:53<3:29:58,  1.90it/s] 50%|█████     | 24040/48008 [3:26:54<3:24:18,  1.96it/s] 50%|█████     | 24041/48008 [3:26:54<3:12:35,  2.07it/s] 50%|█████     | 24042/48008 [3:26:55<3:12:07,  2.08it/s] 50%|█████     | 24043/48008 [3:26:55<3:11:19,  2.09it/s] 50%|█████     | 24044/48008 [3:26:56<3:11:11,  2.09it/s] 50%|█████     | 24045/48008 [3:26:56<3:11:06,  2.09it/s] 50%|█████     | 24046/48008 [3:26:57<3:16:17,  2.03it/s] 50%|█████     | 24047/48008 [3:26:57<3:15:11,  2.05it/s] 50%|█████     | 24048/48008 [3:26:58<3:06:25,  2.14it/s] 50%|█████     | 24049/48008 [3:26:58<3:07:44,  2.13it/s] 50%|█████     | 24050/48008 [3:26:58<3:01:11,  2.20it/s]                                                         {'loss': 4.2672, 'grad_norm': 0.2132105529308319, 'learning_rate': 9.981253124479254e-05, 'epoch': 0.5} 50%|█████     | 24050/48008 [3:26:58<3:01:11,  2.20it/s]
 50%|█████     | 24051/48008 [3:26:59<3:04:00,  2.17it/s] 50%|█████     | 24052/48008 [3:26:59<3:06:26,  2.14it/s] 50%|█████     | 24053/48008 [3:27:00<3:11:20,  2.09it/s] 50%|█████     | 24054/48008 [3:27:00<3:14:25,  2.05it/s] 50%|█████     | 24055/48008 [3:27:01<3:13:40,  2.06it/s] 50%|█████     | 24056/48008 [3:27:01<3:13:02,  2.07it/s] 50%|█████     | 24057/48008 [3:27:02<3:15:36,  2.04it/s] 50%|█████     | 24058/48008 [3:27:02<3:21:45,  1.98it/s] 50%|█████     | 24059/48008 [3:27:03<3:20:52,  1.99it/s] 50%|█████     | 24060/48008 [3:27:03<3:22:21,  1.97it/s] 50%|█████     | 24061/48008 [3:27:05<4:50:59,  1.37it/s] 50%|█████     | 24062/48008 [3:27:05<4:20:44,  1.53it/s] 50%|█████     | 24063/48008 [3:27:06<3:52:24,  1.72it/s] 50%|█████     | 24064/48008 [3:27:06<3:43:37,  1.78it/s] 50%|█████     | 24065/48008 [3:27:07<3:38:08,  1.83it/s] 50%|█████     | 24066/48008 [3:27:07<3:30:31,  1.90it/s] 50%|█████     | 24067/48008 [3:27:08<3:25:46,  1.94it/s] 50%|█████     | 24068/48008 [3:27:08<3:21:10,  1.98it/s] 50%|█████     | 24069/48008 [3:27:09<3:22:45,  1.97it/s] 50%|█████     | 24070/48008 [3:27:09<3:22:24,  1.97it/s] 50%|█████     | 24071/48008 [3:27:10<3:11:52,  2.08it/s] 50%|█████     | 24072/48008 [3:27:10<3:12:22,  2.07it/s] 50%|█████     | 24073/48008 [3:27:10<3:15:08,  2.04it/s] 50%|█████     | 24074/48008 [3:27:11<3:13:52,  2.06it/s] 50%|█████     | 24075/48008 [3:27:11<3:05:36,  2.15it/s] 50%|█████     | 24076/48008 [3:27:12<3:07:45,  2.12it/s] 50%|█████     | 24077/48008 [3:27:12<3:12:45,  2.07it/s] 50%|█████     | 24078/48008 [3:27:13<3:15:13,  2.04it/s] 50%|█████     | 24079/48008 [3:27:13<3:07:09,  2.13it/s] 50%|█████     | 24080/48008 [3:27:14<3:11:52,  2.08it/s] 50%|█████     | 24081/48008 [3:27:14<3:11:03,  2.09it/s] 50%|█████     | 24082/48008 [3:27:15<3:11:43,  2.08it/s] 50%|█████     | 24083/48008 [3:27:15<3:35:38,  1.85it/s] 50%|█████     | 24084/48008 [3:27:16<3:31:36,  1.88it/s] 50%|█████     | 24085/48008 [3:27:17<3:31:30,  1.89it/s] 50%|█████     | 24086/48008 [3:27:17<3:25:07,  1.94it/s] 50%|█████     | 24087/48008 [3:27:17<3:21:44,  1.98it/s] 50%|█████     | 24088/48008 [3:27:18<3:18:54,  2.00it/s] 50%|█████     | 24089/48008 [3:27:19<4:03:56,  1.63it/s] 50%|█████     | 24090/48008 [3:27:19<3:40:54,  1.80it/s] 50%|█████     | 24091/48008 [3:27:20<3:35:30,  1.85it/s] 50%|█████     | 24092/48008 [3:27:20<3:20:35,  1.99it/s] 50%|█████     | 24093/48008 [3:27:21<3:21:00,  1.98it/s] 50%|█████     | 24094/48008 [3:27:21<3:41:28,  1.80it/s] 50%|█████     | 24095/48008 [3:27:22<3:32:19,  1.88it/s] 50%|█████     | 24096/48008 [3:27:22<3:29:07,  1.91it/s] 50%|█████     | 24097/48008 [3:27:23<3:16:12,  2.03it/s] 50%|█████     | 24098/48008 [3:27:23<3:07:09,  2.13it/s] 50%|█████     | 24099/48008 [3:27:24<3:32:07,  1.88it/s] 50%|█████     | 24100/48008 [3:27:24<3:30:35,  1.89it/s]                                                         {'loss': 4.2185, 'grad_norm': 0.34934237599372864, 'learning_rate': 9.960423262789536e-05, 'epoch': 0.5}
 50%|█████     | 24100/48008 [3:27:24<3:30:35,  1.89it/s] 50%|█████     | 24101/48008 [3:27:25<3:13:11,  2.06it/s] 50%|█████     | 24102/48008 [3:27:26<4:44:05,  1.40it/s] 50%|█████     | 24103/48008 [3:27:26<4:16:07,  1.56it/s] 50%|█████     | 24104/48008 [3:27:27<4:19:34,  1.53it/s] 50%|█████     | 24105/48008 [3:27:28<3:59:06,  1.67it/s] 50%|█████     | 24106/48008 [3:27:28<3:50:05,  1.73it/s] 50%|█████     | 24107/48008 [3:27:29<3:38:50,  1.82it/s] 50%|█████     | 24108/48008 [3:27:29<3:54:14,  1.70it/s] 50%|█████     | 24109/48008 [3:27:30<3:41:51,  1.80it/s] 50%|█████     | 24110/48008 [3:27:30<3:35:23,  1.85it/s] 50%|█████     | 24111/48008 [3:27:31<3:31:21,  1.88it/s] 50%|█████     | 24112/48008 [3:27:32<4:12:38,  1.58it/s] 50%|█████     | 24113/48008 [3:27:32<3:54:30,  1.70it/s] 50%|█████     | 24114/48008 [3:27:33<3:34:05,  1.86it/s] 50%|█████     | 24115/48008 [3:27:33<3:19:44,  1.99it/s] 50%|█████     | 24116/48008 [3:27:33<3:09:07,  2.11it/s] 50%|█████     | 24117/48008 [3:27:34<3:14:58,  2.04it/s] 50%|█████     | 24118/48008 [3:27:34<3:14:12,  2.05it/s] 50%|█████     | 24119/48008 [3:27:35<3:13:45,  2.05it/s] 50%|█████     | 24120/48008 [3:27:35<3:20:26,  1.99it/s] 50%|█████     | 24121/48008 [3:27:36<3:20:29,  1.99it/s] 50%|█████     | 24122/48008 [3:27:36<3:09:44,  2.10it/s] 50%|█████     | 24123/48008 [3:27:37<3:12:36,  2.07it/s] 50%|█████     | 24124/48008 [3:27:37<3:12:14,  2.07it/s] 50%|█████     | 24125/48008 [3:27:38<3:59:05,  1.66it/s] 50%|█████     | 24126/48008 [3:27:39<3:37:17,  1.83it/s] 50%|█████     | 24127/48008 [3:27:39<3:29:36,  1.90it/s] 50%|█████     | 24128/48008 [3:27:40<3:30:50,  1.89it/s] 50%|█████     | 24129/48008 [3:27:40<3:24:57,  1.94it/s] 50%|█████     | 24130/48008 [3:27:41<3:20:57,  1.98it/s] 50%|█████     | 24131/48008 [3:27:41<3:10:30,  2.09it/s] 50%|█████     | 24132/48008 [3:27:42<3:11:25,  2.08it/s] 50%|█████     | 24133/48008 [3:27:42<3:11:33,  2.08it/s] 50%|█████     | 24134/48008 [3:27:43<3:18:39,  2.00it/s] 50%|█████     | 24135/48008 [3:27:43<3:16:54,  2.02it/s] 50%|█████     | 24136/48008 [3:27:44<4:46:24,  1.39it/s] 50%|█████     | 24137/48008 [3:27:45<4:25:14,  1.50it/s] 50%|█████     | 24138/48008 [3:27:45<4:07:31,  1.61it/s] 50%|█████     | 24139/48008 [3:27:46<3:50:18,  1.73it/s] 50%|█████     | 24140/48008 [3:27:46<3:45:55,  1.76it/s] 50%|█████     | 24141/48008 [3:27:47<3:39:03,  1.82it/s] 50%|█████     | 24142/48008 [3:27:47<3:38:16,  1.82it/s] 50%|█████     | 24143/48008 [3:27:48<3:36:36,  1.84it/s] 50%|█████     | 24144/48008 [3:27:48<3:34:06,  1.86it/s] 50%|█████     | 24145/48008 [3:27:49<3:32:12,  1.87it/s] 50%|█████     | 24146/48008 [3:27:49<3:26:26,  1.93it/s] 50%|█████     | 24147/48008 [3:27:50<3:26:07,  1.93it/s] 50%|█████     | 24148/48008 [3:27:50<3:21:57,  1.97it/s] 50%|█████     | 24149/48008 [3:27:51<3:10:49,  2.08it/s] 50%|█████     | 24150/48008 [3:27:51<3:17:36,  2.01it/s]                                                         {'loss': 4.3179, 'grad_norm': 0.5745090246200562, 'learning_rate': 9.939593401099818e-05, 'epoch': 0.5} 50%|█████     | 24150/48008 [3:27:51<3:17:36,  2.01it/s]
 50%|█████     | 24151/48008 [3:27:52<3:08:17,  2.11it/s] 50%|█████     | 24152/48008 [3:27:53<3:32:38,  1.87it/s] 50%|█████     | 24153/48008 [3:27:53<3:29:41,  1.90it/s] 50%|█████     | 24154/48008 [3:27:54<3:24:21,  1.95it/s] 50%|█████     | 24155/48008 [3:27:54<3:25:19,  1.94it/s] 50%|█████     | 24156/48008 [3:27:55<3:23:28,  1.95it/s] 50%|█████     | 24157/48008 [3:27:55<3:23:22,  1.95it/s] 50%|█████     | 24158/48008 [3:27:55<3:12:32,  2.06it/s] 50%|█████     | 24159/48008 [3:27:56<3:35:08,  1.85it/s] 50%|█████     | 24160/48008 [3:27:57<3:31:07,  1.88it/s] 50%|█████     | 24161/48008 [3:27:57<3:27:27,  1.92it/s] 50%|█████     | 24162/48008 [3:27:58<3:25:44,  1.93it/s] 50%|█████     | 24163/48008 [3:27:58<3:21:02,  1.98it/s] 50%|█████     | 24164/48008 [3:27:59<3:20:48,  1.98it/s] 50%|█████     | 24165/48008 [3:27:59<3:17:52,  2.01it/s] 50%|█████     | 24166/48008 [3:28:00<4:03:25,  1.63it/s] 50%|█████     | 24167/48008 [3:28:00<3:40:09,  1.80it/s] 50%|█████     | 24168/48008 [3:28:01<3:24:02,  1.95it/s] 50%|█████     | 24169/48008 [3:28:01<3:12:18,  2.07it/s] 50%|█████     | 24170/48008 [3:28:02<3:14:05,  2.05it/s] 50%|█████     | 24171/48008 [3:28:02<3:19:51,  1.99it/s] 50%|█████     | 24172/48008 [3:28:03<3:24:25,  1.94it/s] 50%|█████     | 24173/48008 [3:28:03<3:19:56,  1.99it/s] 50%|█████     | 24174/48008 [3:28:04<3:17:10,  2.01it/s] 50%|█████     | 24175/48008 [3:28:04<3:17:55,  2.01it/s] 50%|█████     | 24176/48008 [3:28:05<3:39:08,  1.81it/s] 50%|█████     | 24177/48008 [3:28:05<3:32:42,  1.87it/s] 50%|█████     | 24178/48008 [3:28:06<3:30:22,  1.89it/s] 50%|█████     | 24179/48008 [3:28:06<3:17:00,  2.02it/s] 50%|█████     | 24180/48008 [3:28:07<3:15:01,  2.04it/s] 50%|█████     | 24181/48008 [3:28:07<3:16:46,  2.02it/s] 50%|█████     | 24182/48008 [3:28:08<3:17:33,  2.01it/s] 50%|█████     | 24183/48008 [3:28:08<3:18:30,  2.00it/s] 50%|█████     | 24184/48008 [3:28:09<3:16:01,  2.03it/s] 50%|█████     | 24185/48008 [3:28:09<3:14:13,  2.04it/s] 50%|█████     | 24186/48008 [3:28:10<3:17:40,  2.01it/s] 50%|█████     | 24187/48008 [3:28:10<3:19:00,  1.99it/s] 50%|█████     | 24188/48008 [3:28:11<3:19:24,  1.99it/s] 50%|█████     | 24189/48008 [3:28:11<3:09:06,  2.10it/s] 50%|█████     | 24190/48008 [3:28:12<3:02:15,  2.18it/s] 50%|█████     | 24191/48008 [3:28:12<3:11:41,  2.07it/s] 50%|█████     | 24192/48008 [3:28:13<2:59:46,  2.21it/s] 50%|█████     | 24193/48008 [3:28:14<3:49:39,  1.73it/s] 50%|█████     | 24194/48008 [3:28:14<3:37:34,  1.82it/s] 50%|█████     | 24195/48008 [3:28:14<3:21:35,  1.97it/s] 50%|█████     | 24196/48008 [3:28:15<3:18:42,  2.00it/s] 50%|█████     | 24197/48008 [3:28:16<4:03:51,  1.63it/s] 50%|█████     | 24198/48008 [3:28:16<3:54:59,  1.69it/s] 50%|█████     | 24199/48008 [3:28:17<4:05:24,  1.62it/s] 50%|█████     | 24200/48008 [3:28:17<3:49:21,  1.73it/s]                                                         {'loss': 4.2964, 'grad_norm': 0.47107359766960144, 'learning_rate': 9.918763539410099e-05, 'epoch': 0.5}
 50%|█████     | 24200/48008 [3:28:17<3:49:21,  1.73it/s] 50%|█████     | 24201/48008 [3:28:18<3:38:16,  1.82it/s] 50%|█████     | 24202/48008 [3:28:18<3:30:10,  1.89it/s] 50%|█████     | 24203/48008 [3:28:20<4:55:59,  1.34it/s] 50%|█████     | 24204/48008 [3:28:20<4:30:53,  1.46it/s] 50%|█████     | 24205/48008 [3:28:21<4:07:12,  1.60it/s] 50%|█████     | 24206/48008 [3:28:21<3:53:06,  1.70it/s] 50%|█████     | 24207/48008 [3:28:22<3:40:35,  1.80it/s] 50%|█████     | 24208/48008 [3:28:22<3:34:33,  1.85it/s] 50%|█████     | 24209/48008 [3:28:23<3:50:02,  1.72it/s] 50%|█████     | 24210/48008 [3:28:23<3:38:26,  1.82it/s] 50%|█████     | 24211/48008 [3:28:24<3:29:49,  1.89it/s] 50%|█████     | 24212/48008 [3:28:24<3:23:35,  1.95it/s] 50%|█████     | 24213/48008 [3:28:26<4:51:59,  1.36it/s] 50%|█████     | 24214/48008 [3:28:26<4:14:07,  1.56it/s] 50%|█████     | 24215/48008 [3:28:26<3:57:56,  1.67it/s] 50%|█████     | 24216/48008 [3:28:28<5:15:08,  1.26it/s] 50%|█████     | 24217/48008 [3:28:28<4:41:11,  1.41it/s] 50%|█████     | 24218/48008 [3:28:29<4:36:27,  1.43it/s] 50%|█████     | 24219/48008 [3:28:29<4:10:56,  1.58it/s] 50%|█████     | 24220/48008 [3:28:30<3:57:47,  1.67it/s] 50%|█████     | 24221/48008 [3:28:30<3:44:05,  1.77it/s] 50%|█████     | 24222/48008 [3:28:31<3:25:52,  1.93it/s] 50%|█████     | 24223/48008 [3:28:31<3:21:24,  1.97it/s] 50%|█████     | 24224/48008 [3:28:32<3:23:28,  1.95it/s] 50%|█████     | 24225/48008 [3:28:32<3:22:03,  1.96it/s] 50%|█████     | 24226/48008 [3:28:33<3:18:49,  1.99it/s] 50%|█████     | 24227/48008 [3:28:34<4:48:01,  1.38it/s] 50%|█████     | 24228/48008 [3:28:35<4:18:49,  1.53it/s] 50%|█████     | 24229/48008 [3:28:35<3:58:20,  1.66it/s] 50%|█████     | 24230/48008 [3:28:35<3:36:39,  1.83it/s] 50%|█████     | 24231/48008 [3:28:36<3:28:24,  1.90it/s] 50%|█████     | 24232/48008 [3:28:36<3:22:40,  1.96it/s] 50%|█████     | 24233/48008 [3:28:37<3:11:41,  2.07it/s] 50%|█████     | 24234/48008 [3:28:37<3:11:53,  2.06it/s] 50%|█████     | 24235/48008 [3:28:38<3:14:04,  2.04it/s] 50%|█████     | 24236/48008 [3:28:38<3:17:05,  2.01it/s] 50%|█████     | 24237/48008 [3:28:39<3:15:05,  2.03it/s] 50%|█████     | 24238/48008 [3:28:39<3:05:07,  2.14it/s] 50%|█████     | 24239/48008 [3:28:40<3:06:34,  2.12it/s] 50%|█████     | 24240/48008 [3:28:40<3:07:48,  2.11it/s] 50%|█████     | 24241/48008 [3:28:41<3:08:46,  2.10it/s] 50%|█████     | 24242/48008 [3:28:41<3:12:50,  2.05it/s] 50%|█████     | 24243/48008 [3:28:42<3:12:25,  2.06it/s] 50%|█████     | 24244/48008 [3:28:42<3:11:59,  2.06it/s] 51%|█████     | 24245/48008 [3:28:43<3:16:24,  2.02it/s] 51%|█████     | 24246/48008 [3:28:43<3:18:57,  1.99it/s] 51%|█████     | 24247/48008 [3:28:44<3:15:40,  2.02it/s] 51%|█████     | 24248/48008 [3:28:44<3:06:39,  2.12it/s] 51%|█████     | 24249/48008 [3:28:44<3:00:27,  2.19it/s] 51%|█████     | 24250/48008 [3:28:45<3:06:24,  2.12it/s]                                                         {'loss': 4.2919, 'grad_norm': 0.4205133616924286, 'learning_rate': 9.89793367772038e-05, 'epoch': 0.51}
 51%|█████     | 24250/48008 [3:28:45<3:06:24,  2.12it/s] 51%|█████     | 24251/48008 [3:28:45<3:07:54,  2.11it/s] 51%|█████     | 24252/48008 [3:28:46<3:11:41,  2.07it/s] 51%|█████     | 24253/48008 [3:28:46<3:11:40,  2.07it/s] 51%|█████     | 24254/48008 [3:28:47<3:03:12,  2.16it/s] 51%|█████     | 24255/48008 [3:28:47<3:08:21,  2.10it/s] 51%|█████     | 24256/48008 [3:28:48<3:08:54,  2.10it/s] 51%|█████     | 24257/48008 [3:28:48<3:01:33,  2.18it/s] 51%|█████     | 24258/48008 [3:28:49<3:07:05,  2.12it/s] 51%|█████     | 24259/48008 [3:28:49<3:07:37,  2.11it/s] 51%|█████     | 24260/48008 [3:28:50<3:08:42,  2.10it/s] 51%|█████     | 24261/48008 [3:28:50<3:11:25,  2.07it/s] 51%|█████     | 24262/48008 [3:28:51<3:13:05,  2.05it/s] 51%|█████     | 24263/48008 [3:28:51<3:12:29,  2.06it/s] 51%|█████     | 24264/48008 [3:28:52<3:15:17,  2.03it/s] 51%|█████     | 24265/48008 [3:28:52<3:14:20,  2.04it/s] 51%|█████     | 24266/48008 [3:28:53<3:16:11,  2.02it/s] 51%|█████     | 24267/48008 [3:28:54<4:01:28,  1.64it/s] 51%|█████     | 24268/48008 [3:28:54<3:38:45,  1.81it/s] 51%|█████     | 24269/48008 [3:28:55<5:02:35,  1.31it/s] 51%|█████     | 24270/48008 [3:28:56<4:29:34,  1.47it/s] 51%|█████     | 24271/48008 [3:28:56<4:05:42,  1.61it/s] 51%|█████     | 24272/48008 [3:28:57<3:41:50,  1.78it/s] 51%|█████     | 24273/48008 [3:28:57<3:32:02,  1.87it/s] 51%|█████     | 24274/48008 [3:28:58<3:25:02,  1.93it/s] 51%|█████     | 24275/48008 [3:28:58<3:20:09,  1.98it/s] 51%|█████     | 24276/48008 [3:28:59<3:24:06,  1.94it/s] 51%|█████     | 24277/48008 [3:28:59<3:11:24,  2.07it/s] 51%|█████     | 24278/48008 [3:29:00<3:17:56,  2.00it/s] 51%|█████     | 24279/48008 [3:29:00<3:18:43,  1.99it/s] 51%|█████     | 24280/48008 [3:29:01<3:18:32,  1.99it/s] 51%|█████     | 24281/48008 [3:29:01<3:15:39,  2.02it/s] 51%|█████     | 24282/48008 [3:29:02<3:07:00,  2.11it/s] 51%|█████     | 24283/48008 [3:29:02<3:00:48,  2.19it/s] 51%|█████     | 24284/48008 [3:29:02<2:56:06,  2.25it/s] 51%|█████     | 24285/48008 [3:29:03<3:03:24,  2.16it/s] 51%|█████     | 24286/48008 [3:29:03<2:58:16,  2.22it/s] 51%|█████     | 24287/48008 [3:29:04<3:02:15,  2.17it/s] 51%|█████     | 24288/48008 [3:29:04<2:57:18,  2.23it/s] 51%|█████     | 24289/48008 [3:29:05<3:01:45,  2.18it/s] 51%|█████     | 24290/48008 [3:29:05<3:05:03,  2.14it/s] 51%|█████     | 24291/48008 [3:29:06<3:07:29,  2.11it/s] 51%|█████     | 24292/48008 [3:29:06<3:11:08,  2.07it/s] 51%|█████     | 24293/48008 [3:29:07<3:18:37,  1.99it/s] 51%|█████     | 24294/48008 [3:29:07<3:21:02,  1.97it/s] 51%|█████     | 24295/48008 [3:29:08<3:18:16,  1.99it/s] 51%|█████     | 24296/48008 [3:29:08<3:16:19,  2.01it/s] 51%|█████     | 24297/48008 [3:29:09<3:15:10,  2.02it/s] 51%|█████     | 24298/48008 [3:29:09<3:13:37,  2.04it/s] 51%|█████     | 24299/48008 [3:29:10<3:04:56,  2.14it/s] 51%|█████     | 24300/48008 [3:29:10<3:09:05,  2.09it/s]                                                         {'loss': 4.233, 'grad_norm': 0.42545509338378906, 'learning_rate': 9.877103816030661e-05, 'epoch': 0.51}
 51%|█████     | 24300/48008 [3:29:10<3:09:05,  2.09it/s] 51%|█████     | 24301/48008 [3:29:11<3:09:07,  2.09it/s] 51%|█████     | 24302/48008 [3:29:11<3:01:48,  2.17it/s] 51%|█████     | 24303/48008 [3:29:11<3:07:12,  2.11it/s] 51%|█████     | 24304/48008 [3:29:12<3:08:12,  2.10it/s] 51%|█████     | 24305/48008 [3:29:12<3:08:57,  2.09it/s] 51%|█████     | 24306/48008 [3:29:13<3:11:27,  2.06it/s] 51%|█████     | 24307/48008 [3:29:13<3:11:10,  2.07it/s] 51%|█████     | 24308/48008 [3:29:14<3:13:52,  2.04it/s] 51%|█████     | 24309/48008 [3:29:14<3:15:44,  2.02it/s] 51%|█████     | 24310/48008 [3:29:15<3:17:28,  2.00it/s] 51%|█████     | 24311/48008 [3:29:15<3:19:48,  1.98it/s] 51%|█████     | 24312/48008 [3:29:16<3:19:21,  1.98it/s] 51%|█████     | 24313/48008 [3:29:16<3:15:54,  2.02it/s] 51%|█████     | 24314/48008 [3:29:17<3:13:20,  2.04it/s] 51%|█████     | 24315/48008 [3:29:18<3:35:06,  1.84it/s] 51%|█████     | 24316/48008 [3:29:18<3:31:43,  1.86it/s] 51%|█████     | 24317/48008 [3:29:19<3:17:47,  2.00it/s] 51%|█████     | 24318/48008 [3:29:19<3:15:45,  2.02it/s] 51%|█████     | 24319/48008 [3:29:20<3:18:49,  1.99it/s] 51%|█████     | 24320/48008 [3:29:20<3:08:02,  2.10it/s] 51%|█████     | 24321/48008 [3:29:20<3:13:51,  2.04it/s] 51%|█████     | 24322/48008 [3:29:21<4:14:36,  1.55it/s] 51%|█████     | 24323/48008 [3:29:22<4:00:22,  1.64it/s] 51%|█████     | 24324/48008 [3:29:22<3:47:31,  1.73it/s] 51%|█████     | 24325/48008 [3:29:23<3:39:08,  1.80it/s] 51%|█████     | 24326/48008 [3:29:24<3:35:39,  1.83it/s] 51%|█████     | 24327/48008 [3:29:24<3:19:43,  1.98it/s] 51%|█████     | 24328/48008 [3:29:24<3:19:18,  1.98it/s] 51%|█████     | 24329/48008 [3:29:25<3:16:51,  2.00it/s] 51%|█████     | 24330/48008 [3:29:26<4:47:04,  1.37it/s] 51%|█████     | 24331/48008 [3:29:27<4:17:57,  1.53it/s] 51%|█████     | 24332/48008 [3:29:27<4:20:52,  1.51it/s] 51%|█████     | 24333/48008 [3:29:29<5:30:21,  1.19it/s] 51%|█████     | 24334/48008 [3:29:29<4:48:09,  1.37it/s] 51%|█████     | 24335/48008 [3:29:29<4:11:05,  1.57it/s] 51%|█████     | 24336/48008 [3:29:30<3:59:11,  1.65it/s] 51%|█████     | 24337/48008 [3:29:31<3:44:49,  1.75it/s] 51%|█████     | 24338/48008 [3:29:31<3:36:53,  1.82it/s] 51%|█████     | 24339/48008 [3:29:31<3:29:08,  1.89it/s] 51%|█████     | 24340/48008 [3:29:32<3:22:59,  1.94it/s] 51%|█████     | 24341/48008 [3:29:32<3:11:26,  2.06it/s] 51%|█████     | 24342/48008 [3:29:33<3:57:42,  1.66it/s] 51%|█████     | 24343/48008 [3:29:34<3:42:31,  1.77it/s] 51%|█████     | 24344/48008 [3:29:34<3:33:05,  1.85it/s] 51%|█████     | 24345/48008 [3:29:35<3:26:49,  1.91it/s] 51%|█████     | 24346/48008 [3:29:35<3:23:58,  1.93it/s] 51%|█████     | 24347/48008 [3:29:36<3:22:17,  1.95it/s] 51%|█████     | 24348/48008 [3:29:36<3:18:26,  1.99it/s] 51%|█████     | 24349/48008 [3:29:37<3:08:24,  2.09it/s] 51%|█████     | 24350/48008 [3:29:37<3:11:46,  2.06it/s]                                                         {'loss': 4.2254, 'grad_norm': 0.20688384771347046, 'learning_rate': 9.856273954340943e-05, 'epoch': 0.51}
 51%|█████     | 24350/48008 [3:29:37<3:11:46,  2.06it/s] 51%|█████     | 24351/48008 [3:29:38<3:11:26,  2.06it/s] 51%|█████     | 24352/48008 [3:29:38<3:34:20,  1.84it/s] 51%|█████     | 24353/48008 [3:29:39<3:26:19,  1.91it/s] 51%|█████     | 24354/48008 [3:29:39<3:23:23,  1.94it/s] 51%|█████     | 24355/48008 [3:29:40<3:18:55,  1.98it/s] 51%|█████     | 24356/48008 [3:29:40<3:16:06,  2.01it/s] 51%|█████     | 24357/48008 [3:29:41<3:14:03,  2.03it/s] 51%|█████     | 24358/48008 [3:29:41<3:16:52,  2.00it/s] 51%|█████     | 24359/48008 [3:29:42<3:15:01,  2.02it/s] 51%|█████     | 24360/48008 [3:29:42<3:13:06,  2.04it/s] 51%|█████     | 24361/48008 [3:29:43<3:59:54,  1.64it/s] 51%|█████     | 24362/48008 [3:29:44<3:44:34,  1.75it/s] 51%|█████     | 24363/48008 [3:29:44<3:56:17,  1.67it/s] 51%|█████     | 24364/48008 [3:29:45<5:13:39,  1.26it/s] 51%|█████     | 24365/48008 [3:29:46<4:28:29,  1.47it/s] 51%|█████     | 24366/48008 [3:29:46<4:07:14,  1.59it/s] 51%|█████     | 24367/48008 [3:29:47<3:56:24,  1.67it/s] 51%|█████     | 24368/48008 [3:29:47<3:45:34,  1.75it/s] 51%|█████     | 24369/48008 [3:29:48<3:36:52,  1.82it/s] 51%|█████     | 24370/48008 [3:29:48<3:28:02,  1.89it/s] 51%|█████     | 24371/48008 [3:29:49<3:22:16,  1.95it/s] 51%|█████     | 24372/48008 [3:29:49<3:21:07,  1.96it/s] 51%|█████     | 24373/48008 [3:29:50<3:17:05,  2.00it/s] 51%|█████     | 24374/48008 [3:29:50<3:14:47,  2.02it/s] 51%|█████     | 24375/48008 [3:29:51<3:17:58,  1.99it/s] 51%|█████     | 24376/48008 [3:29:51<3:20:16,  1.97it/s] 51%|█████     | 24377/48008 [3:29:52<3:16:38,  2.00it/s] 51%|█████     | 24378/48008 [3:29:52<3:17:49,  1.99it/s] 51%|█████     | 24379/48008 [3:29:53<3:18:39,  1.98it/s] 51%|█████     | 24380/48008 [3:29:54<4:47:50,  1.37it/s] 51%|█████     | 24381/48008 [3:29:55<4:21:39,  1.50it/s] 51%|█████     | 24382/48008 [3:29:55<4:00:30,  1.64it/s] 51%|█████     | 24383/48008 [3:29:56<3:44:24,  1.75it/s] 51%|█████     | 24384/48008 [3:29:56<3:34:07,  1.84it/s] 51%|█████     | 24385/48008 [3:29:57<3:31:45,  1.86it/s] 51%|█████     | 24386/48008 [3:29:57<3:32:05,  1.86it/s] 51%|█████     | 24387/48008 [3:29:58<3:25:52,  1.91it/s] 51%|█████     | 24388/48008 [3:29:58<3:21:02,  1.96it/s] 51%|█████     | 24389/48008 [3:29:59<3:17:50,  1.99it/s] 51%|█████     | 24390/48008 [3:29:59<3:38:38,  1.80it/s] 51%|█████     | 24391/48008 [3:30:00<3:32:52,  1.85it/s] 51%|█████     | 24392/48008 [3:30:00<3:30:27,  1.87it/s] 51%|█████     | 24393/48008 [3:30:01<3:28:59,  1.88it/s] 51%|█████     | 24394/48008 [3:30:01<3:22:35,  1.94it/s] 51%|█████     | 24395/48008 [3:30:02<3:19:12,  1.98it/s] 51%|█████     | 24396/48008 [3:30:02<3:19:43,  1.97it/s] 51%|█████     | 24397/48008 [3:30:03<3:16:29,  2.00it/s] 51%|█████     | 24398/48008 [3:30:03<3:14:48,  2.02it/s] 51%|█████     | 24399/48008 [3:30:04<3:13:10,  2.04it/s] 51%|█████     | 24400/48008 [3:30:05<3:58:45,  1.65it/s]                                                         {'loss': 4.2884, 'grad_norm': 0.1881786584854126, 'learning_rate': 9.835444092651225e-05, 'epoch': 0.51}
 51%|█████     | 24400/48008 [3:30:05<3:58:45,  1.65it/s] 51%|█████     | 24401/48008 [3:30:05<3:43:45,  1.76it/s] 51%|█████     | 24402/48008 [3:30:06<3:36:39,  1.82it/s] 51%|█████     | 24403/48008 [3:30:06<3:21:12,  1.96it/s] 51%|█████     | 24404/48008 [3:30:07<3:16:50,  2.00it/s] 51%|█████     | 24405/48008 [3:30:07<3:14:58,  2.02it/s] 51%|█████     | 24406/48008 [3:30:07<3:14:01,  2.03it/s] 51%|█████     | 24407/48008 [3:30:08<3:14:59,  2.02it/s] 51%|█████     | 24408/48008 [3:30:08<3:12:29,  2.04it/s] 51%|█████     | 24409/48008 [3:30:09<3:17:10,  1.99it/s] 51%|█████     | 24410/48008 [3:30:10<3:19:18,  1.97it/s] 51%|█████     | 24411/48008 [3:30:11<4:46:47,  1.37it/s] 51%|█████     | 24412/48008 [3:30:11<4:17:52,  1.53it/s] 51%|█████     | 24413/48008 [3:30:12<4:00:18,  1.64it/s] 51%|█████     | 24414/48008 [3:30:12<3:44:34,  1.75it/s] 51%|█████     | 24415/48008 [3:30:13<3:57:54,  1.65it/s] 51%|█████     | 24416/48008 [3:30:13<3:50:06,  1.71it/s] 51%|█████     | 24417/48008 [3:30:14<3:42:44,  1.77it/s] 51%|█████     | 24418/48008 [3:30:14<3:36:58,  1.81it/s] 51%|█████     | 24419/48008 [3:30:15<3:28:58,  1.88it/s] 51%|█████     | 24420/48008 [3:30:15<3:23:43,  1.93it/s] 51%|█████     | 24421/48008 [3:30:16<3:24:49,  1.92it/s] 51%|█████     | 24422/48008 [3:30:16<3:21:09,  1.95it/s] 51%|█████     | 24423/48008 [3:30:17<3:22:17,  1.94it/s] 51%|█████     | 24424/48008 [3:30:18<3:24:31,  1.92it/s] 51%|█████     | 24425/48008 [3:30:18<3:22:31,  1.94it/s] 51%|█████     | 24426/48008 [3:30:19<3:18:47,  1.98it/s] 51%|█████     | 24427/48008 [3:30:19<3:16:41,  2.00it/s] 51%|█████     | 24428/48008 [3:30:20<3:14:32,  2.02it/s] 51%|█████     | 24429/48008 [3:30:20<3:13:28,  2.03it/s] 51%|█████     | 24430/48008 [3:30:20<3:14:41,  2.02it/s] 51%|█████     | 24431/48008 [3:30:21<3:15:57,  2.01it/s] 51%|█████     | 24432/48008 [3:30:21<3:13:11,  2.03it/s] 51%|█████     | 24433/48008 [3:30:22<3:13:03,  2.04it/s] 51%|█████     | 24434/48008 [3:30:22<3:04:18,  2.13it/s] 51%|█████     | 24435/48008 [3:30:23<3:08:28,  2.08it/s] 51%|█████     | 24436/48008 [3:30:23<3:08:19,  2.09it/s] 51%|█████     | 24437/48008 [3:30:24<3:56:26,  1.66it/s] 51%|█████     | 24438/48008 [3:30:25<3:42:21,  1.77it/s] 51%|█████     | 24439/48008 [3:30:25<3:33:22,  1.84it/s] 51%|█████     | 24440/48008 [3:30:26<3:29:34,  1.87it/s] 51%|█████     | 24441/48008 [3:30:26<3:24:02,  1.93it/s] 51%|█████     | 24442/48008 [3:30:27<4:52:26,  1.34it/s] 51%|█████     | 24443/48008 [3:30:28<4:22:23,  1.50it/s] 51%|█████     | 24444/48008 [3:30:28<4:01:21,  1.63it/s] 51%|█████     | 24445/48008 [3:30:29<4:08:49,  1.58it/s] 51%|█████     | 24446/48008 [3:30:30<3:53:40,  1.68it/s] 51%|█████     | 24447/48008 [3:30:30<3:40:09,  1.78it/s] 51%|█████     | 24448/48008 [3:30:31<3:33:25,  1.84it/s] 51%|█████     | 24449/48008 [3:30:31<3:28:28,  1.88it/s] 51%|█████     | 24450/48008 [3:30:32<3:14:27,  2.02it/s]                                                         {'loss': 4.2843, 'grad_norm': 0.17128649353981018, 'learning_rate': 9.814614230961507e-05, 'epoch': 0.51}
 51%|█████     | 24450/48008 [3:30:32<3:14:27,  2.02it/s] 51%|█████     | 24451/48008 [3:30:32<3:13:50,  2.03it/s] 51%|█████     | 24452/48008 [3:30:33<3:12:40,  2.04it/s] 51%|█████     | 24453/48008 [3:30:33<3:03:37,  2.14it/s] 51%|█████     | 24454/48008 [3:30:33<2:57:47,  2.21it/s] 51%|█████     | 24455/48008 [3:30:34<2:54:09,  2.25it/s] 51%|█████     | 24456/48008 [3:30:34<3:02:40,  2.15it/s] 51%|█████     | 24457/48008 [3:30:35<2:56:41,  2.22it/s] 51%|█████     | 24458/48008 [3:30:35<3:07:35,  2.09it/s] 51%|█████     | 24459/48008 [3:30:37<4:38:34,  1.41it/s] 51%|█████     | 24460/48008 [3:30:37<4:14:11,  1.54it/s] 51%|█████     | 24461/48008 [3:30:38<3:57:44,  1.65it/s] 51%|█████     | 24462/48008 [3:30:38<3:46:31,  1.73it/s] 51%|█████     | 24463/48008 [3:30:39<3:57:27,  1.65it/s] 51%|█████     | 24464/48008 [3:30:39<3:42:59,  1.76it/s] 51%|█████     | 24465/48008 [3:30:40<3:32:43,  1.84it/s] 51%|█████     | 24466/48008 [3:30:40<3:31:29,  1.86it/s] 51%|█████     | 24467/48008 [3:30:41<3:17:41,  1.98it/s] 51%|█████     | 24468/48008 [3:30:41<3:14:48,  2.01it/s] 51%|█████     | 24469/48008 [3:30:42<3:17:09,  1.99it/s] 51%|█████     | 24470/48008 [3:30:42<3:15:29,  2.01it/s] 51%|█████     | 24471/48008 [3:30:43<3:15:44,  2.00it/s] 51%|█████     | 24472/48008 [3:30:43<3:06:27,  2.10it/s] 51%|█████     | 24473/48008 [3:30:44<3:07:44,  2.09it/s] 51%|█████     | 24474/48008 [3:30:44<3:07:43,  2.09it/s] 51%|█████     | 24475/48008 [3:30:44<3:08:44,  2.08it/s] 51%|█████     | 24476/48008 [3:30:45<3:09:27,  2.07it/s] 51%|█████     | 24477/48008 [3:30:45<3:09:20,  2.07it/s] 51%|█████     | 24478/48008 [3:30:46<3:01:28,  2.16it/s] 51%|█████     | 24479/48008 [3:30:46<3:03:37,  2.14it/s] 51%|█████     | 24480/48008 [3:30:47<3:52:38,  1.69it/s] 51%|█████     | 24481/48008 [3:30:48<3:39:33,  1.79it/s] 51%|█████     | 24482/48008 [3:30:48<3:34:50,  1.83it/s] 51%|█████     | 24483/48008 [3:30:49<3:31:15,  1.86it/s] 51%|█████     | 24484/48008 [3:30:49<3:31:27,  1.85it/s] 51%|█████     | 24485/48008 [3:30:50<3:25:22,  1.91it/s] 51%|█████     | 24486/48008 [3:30:50<3:20:13,  1.96it/s] 51%|█████     | 24487/48008 [3:30:51<3:39:17,  1.79it/s] 51%|█████     | 24488/48008 [3:30:52<5:00:22,  1.31it/s] 51%|█████     | 24489/48008 [3:30:53<4:19:53,  1.51it/s] 51%|█████     | 24490/48008 [3:30:53<3:50:46,  1.70it/s] 51%|█████     | 24491/48008 [3:30:53<3:37:50,  1.80it/s] 51%|█████     | 24492/48008 [3:30:54<3:29:36,  1.87it/s] 51%|█████     | 24493/48008 [3:30:54<3:15:51,  2.00it/s] 51%|█████     | 24494/48008 [3:30:55<3:18:00,  1.98it/s] 51%|█████     | 24495/48008 [3:30:55<3:14:55,  2.01it/s] 51%|█████     | 24496/48008 [3:30:57<4:42:57,  1.38it/s] 51%|█████     | 24497/48008 [3:30:57<4:15:06,  1.54it/s] 51%|█████     | 24498/48008 [3:30:58<5:26:10,  1.20it/s] 51%|█████     | 24499/48008 [3:30:59<4:49:00,  1.36it/s] 51%|█████     | 24500/48008 [3:30:59<4:21:16,  1.50it/s]                                                         {'loss': 4.3019, 'grad_norm': 0.12402069568634033, 'learning_rate': 9.793784369271788e-05, 'epoch': 0.51}
 51%|█████     | 24500/48008 [3:30:59<4:21:16,  1.50it/s] 51%|█████     | 24501/48008 [3:31:00<3:59:18,  1.64it/s] 51%|█████     | 24502/48008 [3:31:00<3:46:29,  1.73it/s] 51%|█████     | 24503/48008 [3:31:01<3:27:34,  1.89it/s] 51%|█████     | 24504/48008 [3:31:01<3:28:16,  1.88it/s] 51%|█████     | 24505/48008 [3:31:02<3:22:42,  1.93it/s] 51%|█████     | 24506/48008 [3:31:02<3:21:06,  1.95it/s] 51%|█████     | 24507/48008 [3:31:03<3:17:13,  1.99it/s] 51%|█████     | 24508/48008 [3:31:03<3:15:13,  2.01it/s] 51%|█████     | 24509/48008 [3:31:04<3:13:12,  2.03it/s] 51%|█████     | 24510/48008 [3:31:04<3:12:04,  2.04it/s] 51%|█████     | 24511/48008 [3:31:05<3:14:23,  2.01it/s] 51%|█████     | 24512/48008 [3:31:05<3:17:49,  1.98it/s] 51%|█████     | 24513/48008 [3:31:06<3:18:22,  1.97it/s] 51%|█████     | 24514/48008 [3:31:06<3:17:39,  1.98it/s] 51%|█████     | 24515/48008 [3:31:07<3:14:36,  2.01it/s] 51%|█████     | 24516/48008 [3:31:07<3:17:28,  1.98it/s] 51%|█████     | 24517/48008 [3:31:08<3:07:23,  2.09it/s] 51%|█████     | 24518/48008 [3:31:08<3:10:41,  2.05it/s] 51%|█████     | 24519/48008 [3:31:09<3:10:34,  2.05it/s] 51%|█████     | 24520/48008 [3:31:09<3:09:44,  2.06it/s] 51%|█████     | 24521/48008 [3:31:10<3:14:29,  2.01it/s] 51%|█████     | 24522/48008 [3:31:10<3:12:18,  2.04it/s] 51%|█████     | 24523/48008 [3:31:11<3:11:46,  2.04it/s] 51%|█████     | 24524/48008 [3:31:11<3:11:09,  2.05it/s] 51%|█████     | 24525/48008 [3:31:12<3:10:53,  2.05it/s] 51%|█████     | 24526/48008 [3:31:12<3:17:54,  1.98it/s] 51%|█████     | 24527/48008 [3:31:13<3:19:23,  1.96it/s] 51%|█████     | 24528/48008 [3:31:13<3:19:16,  1.96it/s] 51%|█████     | 24529/48008 [3:31:14<3:20:21,  1.95it/s] 51%|█████     | 24530/48008 [3:31:14<3:21:42,  1.94it/s] 51%|█████     | 24531/48008 [3:31:15<3:40:17,  1.78it/s] 51%|█████     | 24532/48008 [3:31:15<3:33:00,  1.84it/s] 51%|█████     | 24533/48008 [3:31:16<3:25:52,  1.90it/s] 51%|█████     | 24534/48008 [3:31:16<3:22:54,  1.93it/s] 51%|█████     | 24535/48008 [3:31:17<3:19:19,  1.96it/s] 51%|█████     | 24536/48008 [3:31:17<3:08:31,  2.08it/s] 51%|█████     | 24537/48008 [3:31:18<3:09:18,  2.07it/s] 51%|█████     | 24538/48008 [3:31:18<3:11:46,  2.04it/s] 51%|█████     | 24539/48008 [3:31:19<3:13:57,  2.02it/s] 51%|█████     | 24540/48008 [3:31:19<3:15:23,  2.00it/s] 51%|█████     | 24541/48008 [3:31:20<3:15:34,  2.00it/s] 51%|█████     | 24542/48008 [3:31:21<4:00:30,  1.63it/s] 51%|█████     | 24543/48008 [3:31:21<3:45:13,  1.74it/s] 51%|█████     | 24544/48008 [3:31:22<3:39:27,  1.78it/s] 51%|█████     | 24545/48008 [3:31:22<3:33:12,  1.83it/s] 51%|█████     | 24546/48008 [3:31:23<3:18:27,  1.97it/s] 51%|█████     | 24547/48008 [3:31:23<3:16:13,  1.99it/s] 51%|█████     | 24548/48008 [3:31:24<3:20:08,  1.95it/s] 51%|█████     | 24549/48008 [3:31:24<3:20:22,  1.95it/s] 51%|█████     | 24550/48008 [3:31:25<3:21:52,  1.94it/s]                                                         {'loss': 4.2446, 'grad_norm': 0.10337116569280624, 'learning_rate': 9.77295450758207e-05, 'epoch': 0.51}
 51%|█████     | 24550/48008 [3:31:25<3:21:52,  1.94it/s] 51%|█████     | 24551/48008 [3:31:25<3:17:33,  1.98it/s] 51%|█████     | 24552/48008 [3:31:26<3:19:02,  1.96it/s] 51%|█████     | 24553/48008 [3:31:26<3:19:12,  1.96it/s] 51%|█████     | 24554/48008 [3:31:27<3:19:00,  1.96it/s] 51%|█████     | 24555/48008 [3:31:27<3:15:57,  1.99it/s] 51%|█████     | 24556/48008 [3:31:28<3:14:05,  2.01it/s] 51%|█████     | 24557/48008 [3:31:28<3:00:40,  2.16it/s] 51%|█████     | 24558/48008 [3:31:29<3:07:26,  2.09it/s] 51%|█████     | 24559/48008 [3:31:29<3:12:23,  2.03it/s] 51%|█████     | 24560/48008 [3:31:30<3:13:30,  2.02it/s] 51%|█████     | 24561/48008 [3:31:30<3:16:16,  1.99it/s] 51%|█████     | 24562/48008 [3:31:31<3:21:07,  1.94it/s] 51%|█████     | 24563/48008 [3:31:31<3:16:51,  1.98it/s] 51%|█████     | 24564/48008 [3:31:32<3:13:48,  2.02it/s] 51%|█████     | 24565/48008 [3:31:32<3:04:23,  2.12it/s] 51%|█████     | 24566/48008 [3:31:33<3:08:22,  2.07it/s] 51%|█████     | 24567/48008 [3:31:33<3:11:14,  2.04it/s] 51%|█████     | 24568/48008 [3:31:33<2:58:33,  2.19it/s] 51%|█████     | 24569/48008 [3:31:34<3:00:35,  2.16it/s] 51%|█████     | 24570/48008 [3:31:34<3:03:12,  2.13it/s] 51%|█████     | 24571/48008 [3:31:35<2:57:18,  2.20it/s] 51%|█████     | 24572/48008 [3:31:35<2:52:43,  2.26it/s] 51%|█████     | 24573/48008 [3:31:36<2:49:35,  2.30it/s] 51%|█████     | 24574/48008 [3:31:36<2:54:58,  2.23it/s] 51%|█████     | 24575/48008 [3:31:37<2:59:09,  2.18it/s] 51%|█████     | 24576/48008 [3:31:37<3:01:21,  2.15it/s] 51%|█████     | 24577/48008 [3:31:38<3:03:09,  2.13it/s] 51%|█████     | 24578/48008 [3:31:38<3:04:23,  2.12it/s] 51%|█████     | 24579/48008 [3:31:39<3:05:32,  2.10it/s] 51%|█████     | 24580/48008 [3:31:39<3:06:19,  2.10it/s] 51%|█████     | 24581/48008 [3:31:39<2:59:22,  2.18it/s] 51%|█████     | 24582/48008 [3:31:40<3:01:53,  2.15it/s] 51%|█████     | 24583/48008 [3:31:40<3:06:53,  2.09it/s] 51%|█████     | 24584/48008 [3:31:42<4:36:53,  1.41it/s] 51%|█████     | 24585/48008 [3:31:42<4:10:18,  1.56it/s] 51%|█████     | 24586/48008 [3:31:43<3:56:08,  1.65it/s] 51%|█████     | 24587/48008 [3:31:43<3:42:02,  1.76it/s] 51%|█████     | 24588/48008 [3:31:44<4:18:51,  1.51it/s] 51%|█████     | 24589/48008 [3:31:45<4:00:01,  1.63it/s] 51%|█████     | 24590/48008 [3:31:45<3:47:44,  1.71it/s] 51%|█████     | 24591/48008 [3:31:46<3:38:39,  1.78it/s] 51%|█████     | 24592/48008 [3:31:46<3:31:27,  1.85it/s] 51%|█████     | 24593/48008 [3:31:47<3:24:36,  1.91it/s] 51%|█████     | 24594/48008 [3:31:47<3:19:34,  1.96it/s] 51%|█████     | 24595/48008 [3:31:48<3:16:07,  1.99it/s] 51%|█████     | 24596/48008 [3:31:48<3:06:04,  2.10it/s] 51%|█████     | 24597/48008 [3:31:48<2:59:22,  2.18it/s] 51%|█████     | 24598/48008 [3:31:49<3:01:44,  2.15it/s] 51%|█████     | 24599/48008 [3:31:49<3:03:27,  2.13it/s] 51%|█████     | 24600/48008 [3:31:50<3:09:53,  2.05it/s]                                                         {'loss': 4.2312, 'grad_norm': 0.10196996480226517, 'learning_rate': 9.752124645892352e-05, 'epoch': 0.51} 51%|█████     | 24600/48008 [3:31:50<3:09:53,  2.05it/s]
 51%|█████     | 24601/48008 [3:31:50<3:09:12,  2.06it/s] 51%|█████     | 24602/48008 [3:31:51<3:11:53,  2.03it/s] 51%|█████     | 24603/48008 [3:31:51<3:13:32,  2.02it/s] 51%|█████     | 24604/48008 [3:31:52<3:11:05,  2.04it/s] 51%|█████▏    | 24605/48008 [3:31:52<3:12:35,  2.03it/s] 51%|█████▏    | 24606/48008 [3:31:53<3:13:28,  2.02it/s] 51%|█████▏    | 24607/48008 [3:31:53<3:11:31,  2.04it/s] 51%|█████▏    | 24608/48008 [3:31:54<3:10:01,  2.05it/s] 51%|█████▏    | 24609/48008 [3:31:54<3:09:41,  2.06it/s] 51%|█████▏    | 24610/48008 [3:31:56<4:40:24,  1.39it/s] 51%|█████▏    | 24611/48008 [3:31:56<4:13:40,  1.54it/s] 51%|█████▏    | 24612/48008 [3:31:57<3:59:55,  1.63it/s] 51%|█████▏    | 24613/48008 [3:31:57<3:44:27,  1.74it/s] 51%|█████▏    | 24614/48008 [3:31:57<3:25:50,  1.89it/s] 51%|█████▏    | 24615/48008 [3:31:58<3:20:25,  1.95it/s] 51%|█████▏    | 24616/48008 [3:31:58<3:19:35,  1.95it/s] 51%|█████▏    | 24617/48008 [3:31:59<3:16:21,  1.99it/s] 51%|█████▏    | 24618/48008 [3:32:00<3:36:25,  1.80it/s] 51%|█████▏    | 24619/48008 [3:32:00<3:29:56,  1.86it/s] 51%|█████▏    | 24620/48008 [3:32:01<3:25:53,  1.89it/s] 51%|█████▏    | 24621/48008 [3:32:01<3:21:34,  1.93it/s] 51%|█████▏    | 24622/48008 [3:32:02<3:22:10,  1.93it/s] 51%|█████▏    | 24623/48008 [3:32:02<3:18:19,  1.97it/s] 51%|█████▏    | 24624/48008 [3:32:03<3:15:50,  1.99it/s] 51%|█████▏    | 24625/48008 [3:32:03<3:14:40,  2.00it/s] 51%|█████▏    | 24626/48008 [3:32:04<4:42:45,  1.38it/s] 51%|█████▏    | 24627/48008 [3:32:05<4:38:20,  1.40it/s] 51%|█████▏    | 24628/48008 [3:32:06<4:11:45,  1.55it/s] 51%|█████▏    | 24629/48008 [3:32:06<3:52:53,  1.67it/s] 51%|█████▏    | 24630/48008 [3:32:07<3:46:17,  1.72it/s] 51%|█████▏    | 24631/48008 [3:32:07<3:28:02,  1.87it/s] 51%|█████▏    | 24632/48008 [3:32:07<3:23:50,  1.91it/s] 51%|█████▏    | 24633/48008 [3:32:08<3:42:16,  1.75it/s] 51%|█████▏    | 24634/48008 [3:32:09<3:32:15,  1.84it/s] 51%|█████▏    | 24635/48008 [3:32:10<4:54:04,  1.32it/s] 51%|█████▏    | 24636/48008 [3:32:10<4:22:50,  1.48it/s] 51%|█████▏    | 24637/48008 [3:32:11<3:52:38,  1.67it/s] 51%|█████▏    | 24638/48008 [3:32:11<3:39:32,  1.77it/s] 51%|█████▏    | 24639/48008 [3:32:12<3:33:33,  1.82it/s] 51%|█████▏    | 24640/48008 [3:32:12<3:17:59,  1.97it/s] 51%|█████▏    | 24641/48008 [3:32:13<3:14:59,  2.00it/s] 51%|█████▏    | 24642/48008 [3:32:13<3:13:58,  2.01it/s] 51%|█████▏    | 24643/48008 [3:32:14<3:12:42,  2.02it/s] 51%|█████▏    | 24644/48008 [3:32:14<3:10:18,  2.05it/s] 51%|█████▏    | 24645/48008 [3:32:15<3:32:41,  1.83it/s] 51%|█████▏    | 24646/48008 [3:32:15<3:25:36,  1.89it/s] 51%|█████▏    | 24647/48008 [3:32:16<3:43:37,  1.74it/s] 51%|█████▏    | 24648/48008 [3:32:17<4:19:51,  1.50it/s] 51%|█████▏    | 24649/48008 [3:32:17<4:03:32,  1.60it/s] 51%|█████▏    | 24650/48008 [3:32:18<3:47:17,  1.71it/s]                                                         {'loss': 4.3159, 'grad_norm': 0.09422220289707184, 'learning_rate': 9.731294784202634e-05, 'epoch': 0.51}
 51%|█████▏    | 24650/48008 [3:32:18<3:47:17,  1.71it/s] 51%|█████▏    | 24651/48008 [3:32:18<3:35:06,  1.81it/s] 51%|█████▏    | 24652/48008 [3:32:19<3:28:44,  1.86it/s] 51%|█████▏    | 24653/48008 [3:32:19<3:15:30,  1.99it/s] 51%|█████▏    | 24654/48008 [3:32:20<3:19:40,  1.95it/s] 51%|█████▏    | 24655/48008 [3:32:20<3:16:22,  1.98it/s] 51%|█████▏    | 24656/48008 [3:32:21<3:13:06,  2.02it/s] 51%|█████▏    | 24657/48008 [3:32:21<3:03:19,  2.12it/s] 51%|█████▏    | 24658/48008 [3:32:22<2:57:28,  2.19it/s] 51%|█████▏    | 24659/48008 [3:32:22<3:01:37,  2.14it/s] 51%|█████▏    | 24660/48008 [3:32:23<3:02:30,  2.13it/s] 51%|█████▏    | 24661/48008 [3:32:23<3:07:05,  2.08it/s] 51%|█████▏    | 24662/48008 [3:32:24<3:30:33,  1.85it/s] 51%|█████▏    | 24663/48008 [3:32:24<3:27:46,  1.87it/s] 51%|█████▏    | 24664/48008 [3:32:25<3:26:58,  1.88it/s] 51%|█████▏    | 24665/48008 [3:32:25<3:13:44,  2.01it/s] 51%|█████▏    | 24666/48008 [3:32:26<3:11:54,  2.03it/s] 51%|█████▏    | 24667/48008 [3:32:26<3:10:25,  2.04it/s] 51%|█████▏    | 24668/48008 [3:32:27<3:32:02,  1.83it/s] 51%|█████▏    | 24669/48008 [3:32:27<3:18:14,  1.96it/s] 51%|█████▏    | 24670/48008 [3:32:28<3:16:37,  1.98it/s] 51%|█████▏    | 24671/48008 [3:32:28<3:14:10,  2.00it/s] 51%|█████▏    | 24672/48008 [3:32:29<3:13:45,  2.01it/s] 51%|█████▏    | 24673/48008 [3:32:29<3:18:58,  1.95it/s] 51%|█████▏    | 24674/48008 [3:32:30<3:20:25,  1.94it/s] 51%|█████▏    | 24675/48008 [3:32:30<3:15:56,  1.98it/s] 51%|█████▏    | 24676/48008 [3:32:31<3:05:56,  2.09it/s] 51%|█████▏    | 24677/48008 [3:32:31<3:08:40,  2.06it/s] 51%|█████▏    | 24678/48008 [3:32:32<3:00:23,  2.16it/s] 51%|█████▏    | 24679/48008 [3:32:32<2:55:00,  2.22it/s] 51%|█████▏    | 24680/48008 [3:32:33<2:58:21,  2.18it/s] 51%|█████▏    | 24681/48008 [3:32:33<3:01:21,  2.14it/s] 51%|█████▏    | 24682/48008 [3:32:34<3:03:42,  2.12it/s] 51%|█████▏    | 24683/48008 [3:32:34<3:05:00,  2.10it/s] 51%|█████▏    | 24684/48008 [3:32:34<3:05:01,  2.10it/s] 51%|█████▏    | 24685/48008 [3:32:35<3:08:15,  2.06it/s] 51%|█████▏    | 24686/48008 [3:32:35<3:07:46,  2.07it/s] 51%|█████▏    | 24687/48008 [3:32:36<3:00:03,  2.16it/s] 51%|█████▏    | 24688/48008 [3:32:36<2:55:01,  2.22it/s] 51%|█████▏    | 24689/48008 [3:32:37<2:58:51,  2.17it/s] 51%|█████▏    | 24690/48008 [3:32:37<3:03:51,  2.11it/s] 51%|█████▏    | 24691/48008 [3:32:38<3:04:24,  2.11it/s] 51%|█████▏    | 24692/48008 [3:32:39<3:51:12,  1.68it/s] 51%|█████▏    | 24693/48008 [3:32:39<3:38:08,  1.78it/s] 51%|█████▏    | 24694/48008 [3:32:40<3:28:52,  1.86it/s] 51%|█████▏    | 24695/48008 [3:32:40<3:21:37,  1.93it/s] 51%|█████▏    | 24696/48008 [3:32:41<3:40:13,  1.76it/s] 51%|█████▏    | 24697/48008 [3:32:41<3:30:51,  1.84it/s] 51%|█████▏    | 24698/48008 [3:32:42<3:16:11,  1.98it/s] 51%|█████▏    | 24699/48008 [3:32:42<3:13:43,  2.01it/s] 51%|█████▏    | 24700/48008 [3:32:43<3:11:26,  2.03it/s]                                                         {'loss': 4.2428, 'grad_norm': 0.09867391735315323, 'learning_rate': 9.710464922512915e-05, 'epoch': 0.51}
 51%|█████▏    | 24700/48008 [3:32:43<3:11:26,  2.03it/s] 51%|█████▏    | 24701/48008 [3:32:43<3:02:54,  2.12it/s] 51%|█████▏    | 24702/48008 [3:32:44<3:04:32,  2.10it/s] 51%|█████▏    | 24703/48008 [3:32:44<2:57:41,  2.19it/s] 51%|█████▏    | 24704/48008 [3:32:44<3:00:34,  2.15it/s] 51%|█████▏    | 24705/48008 [3:32:45<3:02:03,  2.13it/s] 51%|█████▏    | 24706/48008 [3:32:46<4:34:05,  1.42it/s] 51%|█████▏    | 24707/48008 [3:32:47<5:37:07,  1.15it/s] 51%|█████▏    | 24708/48008 [3:32:48<4:51:50,  1.33it/s] 51%|█████▏    | 24709/48008 [3:32:48<4:24:55,  1.47it/s] 51%|█████▏    | 24710/48008 [3:32:49<4:03:51,  1.59it/s] 51%|█████▏    | 24711/48008 [3:32:49<3:46:21,  1.72it/s] 51%|█████▏    | 24712/48008 [3:32:50<3:34:29,  1.81it/s] 51%|█████▏    | 24713/48008 [3:32:50<3:26:06,  1.88it/s] 51%|█████▏    | 24714/48008 [3:32:51<3:12:54,  2.01it/s] 51%|█████▏    | 24715/48008 [3:32:51<3:33:29,  1.82it/s] 51%|█████▏    | 24716/48008 [3:32:52<3:25:38,  1.89it/s] 51%|█████▏    | 24717/48008 [3:32:52<3:26:40,  1.88it/s] 51%|█████▏    | 24718/48008 [3:32:53<3:13:05,  2.01it/s] 51%|█████▏    | 24719/48008 [3:32:53<3:15:58,  1.98it/s] 51%|█████▏    | 24720/48008 [3:32:54<3:12:40,  2.01it/s] 51%|█████▏    | 24721/48008 [3:32:54<3:15:43,  1.98it/s] 51%|█████▏    | 24722/48008 [3:32:55<3:15:23,  1.99it/s] 51%|█████▏    | 24723/48008 [3:32:56<3:35:14,  1.80it/s] 51%|█████▏    | 24724/48008 [3:32:56<3:19:01,  1.95it/s] 52%|█████▏    | 24725/48008 [3:32:57<3:19:25,  1.95it/s] 52%|█████▏    | 24726/48008 [3:32:57<3:18:11,  1.96it/s] 52%|█████▏    | 24727/48008 [3:32:58<3:18:51,  1.95it/s] 52%|█████▏    | 24728/48008 [3:32:58<3:18:01,  1.96it/s] 52%|█████▏    | 24729/48008 [3:32:59<3:16:42,  1.97it/s] 52%|█████▏    | 24730/48008 [3:32:59<3:16:02,  1.98it/s] 52%|█████▏    | 24731/48008 [3:33:00<3:15:11,  1.99it/s] 52%|█████▏    | 24732/48008 [3:33:00<3:19:15,  1.95it/s] 52%|█████▏    | 24733/48008 [3:33:01<3:15:48,  1.98it/s] 52%|█████▏    | 24734/48008 [3:33:01<3:05:37,  2.09it/s] 52%|█████▏    | 24735/48008 [3:33:01<3:09:00,  2.05it/s] 52%|█████▏    | 24736/48008 [3:33:02<3:30:37,  1.84it/s] 52%|█████▏    | 24737/48008 [3:33:03<3:23:10,  1.91it/s] 52%|█████▏    | 24738/48008 [3:33:03<3:18:20,  1.96it/s] 52%|█████▏    | 24739/48008 [3:33:04<3:14:21,  2.00it/s] 52%|█████▏    | 24740/48008 [3:33:04<3:57:24,  1.63it/s] 52%|█████▏    | 24741/48008 [3:33:05<3:46:48,  1.71it/s] 52%|█████▏    | 24742/48008 [3:33:05<3:37:30,  1.78it/s] 52%|█████▏    | 24743/48008 [3:33:06<3:28:25,  1.86it/s] 52%|█████▏    | 24744/48008 [3:33:06<3:26:35,  1.88it/s] 52%|█████▏    | 24745/48008 [3:33:07<3:13:33,  2.00it/s] 52%|█████▏    | 24746/48008 [3:33:07<3:11:28,  2.02it/s] 52%|█████▏    | 24747/48008 [3:33:08<3:32:25,  1.83it/s] 52%|█████▏    | 24748/48008 [3:33:09<3:24:53,  1.89it/s] 52%|█████▏    | 24749/48008 [3:33:09<3:42:25,  1.74it/s] 52%|█████▏    | 24750/48008 [3:33:10<3:32:13,  1.83it/s]                                                         {'loss': 4.2453, 'grad_norm': 0.10162918269634247, 'learning_rate': 9.689635060823197e-05, 'epoch': 0.52} 52%|█████▏    | 24750/48008 [3:33:10<3:32:13,  1.83it/s]
 52%|█████▏    | 24751/48008 [3:33:11<4:54:11,  1.32it/s] 52%|█████▏    | 24752/48008 [3:33:11<4:14:08,  1.53it/s] 52%|█████▏    | 24753/48008 [3:33:12<3:46:20,  1.71it/s] 52%|█████▏    | 24754/48008 [3:33:12<3:34:10,  1.81it/s] 52%|█████▏    | 24755/48008 [3:33:13<3:18:13,  1.96it/s] 52%|█████▏    | 24756/48008 [3:33:13<3:17:14,  1.96it/s] 52%|█████▏    | 24757/48008 [3:33:14<3:14:15,  1.99it/s] 52%|█████▏    | 24758/48008 [3:33:14<3:14:43,  1.99it/s] 52%|█████▏    | 24759/48008 [3:33:15<3:16:27,  1.97it/s] 52%|█████▏    | 24760/48008 [3:33:15<3:13:39,  2.00it/s] 52%|█████▏    | 24761/48008 [3:33:16<3:33:50,  1.81it/s] 52%|█████▏    | 24762/48008 [3:33:16<3:18:04,  1.96it/s] 52%|█████▏    | 24763/48008 [3:33:17<3:06:50,  2.07it/s] 52%|█████▏    | 24764/48008 [3:33:17<3:09:35,  2.04it/s] 52%|█████▏    | 24765/48008 [3:33:18<3:30:44,  1.84it/s] 52%|█████▏    | 24766/48008 [3:33:18<3:15:38,  1.98it/s] 52%|█████▏    | 24767/48008 [3:33:19<3:05:31,  2.09it/s] 52%|█████▏    | 24768/48008 [3:33:19<3:08:14,  2.06it/s] 52%|█████▏    | 24769/48008 [3:33:20<3:14:27,  1.99it/s] 52%|█████▏    | 24770/48008 [3:33:20<3:16:02,  1.98it/s] 52%|█████▏    | 24771/48008 [3:33:21<3:05:17,  2.09it/s] 52%|█████▏    | 24772/48008 [3:33:21<3:09:37,  2.04it/s] 52%|█████▏    | 24773/48008 [3:33:22<3:00:59,  2.14it/s] 52%|█████▏    | 24774/48008 [3:33:22<3:02:28,  2.12it/s] 52%|█████▏    | 24775/48008 [3:33:23<3:03:23,  2.11it/s] 52%|█████▏    | 24776/48008 [3:33:23<3:07:17,  2.07it/s] 52%|█████▏    | 24777/48008 [3:33:24<3:06:51,  2.07it/s] 52%|█████▏    | 24778/48008 [3:33:24<3:11:04,  2.03it/s] 52%|█████▏    | 24779/48008 [3:33:25<3:09:50,  2.04it/s] 52%|█████▏    | 24780/48008 [3:33:25<3:12:57,  2.01it/s] 52%|█████▏    | 24781/48008 [3:33:26<3:10:42,  2.03it/s] 52%|█████▏    | 24782/48008 [3:33:26<3:09:37,  2.04it/s] 52%|█████▏    | 24783/48008 [3:33:27<3:11:14,  2.02it/s] 52%|█████▏    | 24784/48008 [3:33:27<3:09:40,  2.04it/s] 52%|█████▏    | 24785/48008 [3:33:27<3:00:42,  2.14it/s] 52%|█████▏    | 24786/48008 [3:33:28<3:01:56,  2.13it/s] 52%|█████▏    | 24787/48008 [3:33:28<3:09:48,  2.04it/s] 52%|█████▏    | 24788/48008 [3:33:29<3:01:26,  2.13it/s] 52%|█████▏    | 24789/48008 [3:33:29<3:05:05,  2.09it/s] 52%|█████▏    | 24790/48008 [3:33:30<3:04:57,  2.09it/s] 52%|█████▏    | 24791/48008 [3:33:30<3:05:18,  2.09it/s] 52%|█████▏    | 24792/48008 [3:33:31<3:05:01,  2.09it/s] 52%|█████▏    | 24793/48008 [3:33:31<3:04:57,  2.09it/s] 52%|█████▏    | 24794/48008 [3:33:32<3:07:21,  2.06it/s] 52%|█████▏    | 24795/48008 [3:33:32<3:07:04,  2.07it/s] 52%|█████▏    | 24796/48008 [3:33:34<4:36:06,  1.40it/s] 52%|█████▏    | 24797/48008 [3:33:34<4:15:20,  1.52it/s] 52%|█████▏    | 24798/48008 [3:33:35<3:57:26,  1.63it/s] 52%|█████▏    | 24799/48008 [3:33:35<3:34:47,  1.80it/s] 52%|█████▏    | 24800/48008 [3:33:35<3:25:59,  1.88it/s]                                                         {'loss': 4.2573, 'grad_norm': 0.10341614484786987, 'learning_rate': 9.668805199133479e-05, 'epoch': 0.52}
 52%|█████▏    | 24800/48008 [3:33:35<3:25:59,  1.88it/s] 52%|█████▏    | 24801/48008 [3:33:36<3:22:51,  1.91it/s] 52%|█████▏    | 24802/48008 [3:33:36<3:20:45,  1.93it/s] 52%|█████▏    | 24803/48008 [3:33:37<3:08:56,  2.05it/s] 52%|█████▏    | 24804/48008 [3:33:37<3:08:07,  2.06it/s] 52%|█████▏    | 24805/48008 [3:33:38<3:07:39,  2.06it/s] 52%|█████▏    | 24806/48008 [3:33:38<3:07:00,  2.07it/s] 52%|█████▏    | 24807/48008 [3:33:39<2:59:04,  2.16it/s] 52%|█████▏    | 24808/48008 [3:33:39<3:24:00,  1.90it/s] 52%|█████▏    | 24809/48008 [3:33:40<3:18:03,  1.95it/s] 52%|█████▏    | 24810/48008 [3:33:40<3:18:27,  1.95it/s] 52%|█████▏    | 24811/48008 [3:33:41<3:19:05,  1.94it/s] 52%|█████▏    | 24812/48008 [3:33:41<3:07:37,  2.06it/s] 52%|█████▏    | 24813/48008 [3:33:42<3:06:49,  2.07it/s] 52%|█████▏    | 24814/48008 [3:33:42<3:09:11,  2.04it/s] 52%|█████▏    | 24815/48008 [3:33:43<3:11:05,  2.02it/s] 52%|█████▏    | 24816/48008 [3:33:43<3:09:21,  2.04it/s] 52%|█████▏    | 24817/48008 [3:33:44<3:08:26,  2.05it/s] 52%|█████▏    | 24818/48008 [3:33:44<3:07:44,  2.06it/s] 52%|█████▏    | 24819/48008 [3:33:45<3:09:35,  2.04it/s] 52%|█████▏    | 24820/48008 [3:33:45<3:12:34,  2.01it/s] 52%|█████▏    | 24821/48008 [3:33:46<3:17:14,  1.96it/s] 52%|█████▏    | 24822/48008 [3:33:46<3:18:07,  1.95it/s] 52%|█████▏    | 24823/48008 [3:33:47<3:06:27,  2.07it/s] 52%|█████▏    | 24824/48008 [3:33:47<3:08:36,  2.05it/s] 52%|█████▏    | 24825/48008 [3:33:48<3:07:53,  2.06it/s] 52%|█████▏    | 24826/48008 [3:33:48<3:07:40,  2.06it/s] 52%|█████▏    | 24827/48008 [3:33:49<3:53:16,  1.66it/s] 52%|█████▏    | 24828/48008 [3:33:50<3:42:36,  1.74it/s] 52%|█████▏    | 24829/48008 [3:33:50<3:37:55,  1.77it/s] 52%|█████▏    | 24830/48008 [3:33:51<3:32:41,  1.82it/s] 52%|█████▏    | 24831/48008 [3:33:51<3:24:49,  1.89it/s] 52%|█████▏    | 24832/48008 [3:33:52<3:19:34,  1.94it/s] 52%|█████▏    | 24833/48008 [3:33:52<3:15:45,  1.97it/s] 52%|█████▏    | 24834/48008 [3:33:53<3:19:43,  1.93it/s] 52%|█████▏    | 24835/48008 [3:33:53<3:15:30,  1.98it/s] 52%|█████▏    | 24836/48008 [3:33:54<3:19:21,  1.94it/s] 52%|█████▏    | 24837/48008 [3:33:54<3:17:44,  1.95it/s] 52%|█████▏    | 24838/48008 [3:33:55<4:00:23,  1.61it/s] 52%|█████▏    | 24839/48008 [3:33:56<3:46:33,  1.70it/s] 52%|█████▏    | 24840/48008 [3:33:56<3:34:09,  1.80it/s] 52%|█████▏    | 24841/48008 [3:33:57<3:25:26,  1.88it/s] 52%|█████▏    | 24842/48008 [3:33:57<3:22:05,  1.91it/s] 52%|█████▏    | 24843/48008 [3:33:58<3:17:36,  1.95it/s] 52%|█████▏    | 24844/48008 [3:33:58<3:14:20,  1.99it/s] 52%|█████▏    | 24845/48008 [3:33:58<3:11:27,  2.02it/s] 52%|█████▏    | 24846/48008 [3:33:59<3:09:47,  2.03it/s] 52%|█████▏    | 24847/48008 [3:34:00<3:15:45,  1.97it/s] 52%|█████▏    | 24848/48008 [3:34:00<3:12:45,  2.00it/s] 52%|█████▏    | 24849/48008 [3:34:00<3:10:50,  2.02it/s] 52%|█████▏    | 24850/48008 [3:34:01<3:12:28,  2.01it/s]                                                         {'loss': 4.3088, 'grad_norm': 0.09308039397001266, 'learning_rate': 9.64797533744376e-05, 'epoch': 0.52}
 52%|█████▏    | 24850/48008 [3:34:01<3:12:28,  2.01it/s] 52%|█████▏    | 24851/48008 [3:34:01<3:13:19,  2.00it/s] 52%|█████▏    | 24852/48008 [3:34:02<3:15:30,  1.97it/s] 52%|█████▏    | 24853/48008 [3:34:03<3:17:11,  1.96it/s] 52%|█████▏    | 24854/48008 [3:34:03<3:18:03,  1.95it/s] 52%|█████▏    | 24855/48008 [3:34:04<3:19:06,  1.94it/s] 52%|█████▏    | 24856/48008 [3:34:04<3:17:18,  1.96it/s] 52%|█████▏    | 24857/48008 [3:34:05<3:16:30,  1.96it/s] 52%|█████▏    | 24858/48008 [3:34:06<4:42:53,  1.36it/s] 52%|█████▏    | 24859/48008 [3:34:07<5:44:01,  1.12it/s] 52%|█████▏    | 24860/48008 [3:34:08<4:56:30,  1.30it/s] 52%|█████▏    | 24861/48008 [3:34:08<4:23:15,  1.47it/s] 52%|█████▏    | 24862/48008 [3:34:08<3:52:24,  1.66it/s] 52%|█████▏    | 24863/48008 [3:34:09<3:38:21,  1.77it/s] 52%|█████▏    | 24864/48008 [3:34:09<3:31:46,  1.82it/s] 52%|█████▏    | 24865/48008 [3:34:10<3:26:22,  1.87it/s] 52%|█████▏    | 24866/48008 [3:34:10<3:19:53,  1.93it/s] 52%|█████▏    | 24867/48008 [3:34:11<3:21:12,  1.92it/s] 52%|█████▏    | 24868/48008 [3:34:11<3:16:11,  1.97it/s] 52%|█████▏    | 24869/48008 [3:34:12<3:16:22,  1.96it/s] 52%|█████▏    | 24870/48008 [3:34:13<3:35:24,  1.79it/s] 52%|█████▏    | 24871/48008 [3:34:13<3:25:49,  1.87it/s] 52%|█████▏    | 24872/48008 [3:34:14<3:19:43,  1.93it/s] 52%|█████▏    | 24873/48008 [3:34:14<3:19:53,  1.93it/s] 52%|█████▏    | 24874/48008 [3:34:15<3:07:49,  2.05it/s] 52%|█████▏    | 24875/48008 [3:34:15<3:06:47,  2.06it/s] 52%|█████▏    | 24876/48008 [3:34:16<3:09:09,  2.04it/s] 52%|█████▏    | 24877/48008 [3:34:16<3:08:29,  2.05it/s] 52%|█████▏    | 24878/48008 [3:34:16<3:00:08,  2.14it/s] 52%|█████▏    | 24879/48008 [3:34:17<3:04:42,  2.09it/s] 52%|█████▏    | 24880/48008 [3:34:17<3:04:54,  2.08it/s] 52%|█████▏    | 24881/48008 [3:34:18<3:04:41,  2.09it/s] 52%|█████▏    | 24882/48008 [3:34:18<3:05:19,  2.08it/s] 52%|█████▏    | 24883/48008 [3:34:19<3:07:25,  2.06it/s] 52%|█████▏    | 24884/48008 [3:34:19<3:09:36,  2.03it/s] 52%|█████▏    | 24885/48008 [3:34:20<3:10:54,  2.02it/s] 52%|█████▏    | 24886/48008 [3:34:20<3:08:49,  2.04it/s] 52%|█████▏    | 24887/48008 [3:34:21<3:12:48,  2.00it/s] 52%|█████▏    | 24888/48008 [3:34:21<3:12:59,  2.00it/s] 52%|█████▏    | 24889/48008 [3:34:22<3:10:53,  2.02it/s] 52%|█████▏    | 24890/48008 [3:34:22<3:01:38,  2.12it/s] 52%|█████▏    | 24891/48008 [3:34:23<3:05:04,  2.08it/s] 52%|█████▏    | 24892/48008 [3:34:23<3:09:44,  2.03it/s] 52%|█████▏    | 24893/48008 [3:34:24<3:15:16,  1.97it/s] 52%|█████▏    | 24894/48008 [3:34:24<3:12:40,  2.00it/s] 52%|█████▏    | 24895/48008 [3:34:25<3:02:48,  2.11it/s] 52%|█████▏    | 24896/48008 [3:34:25<3:25:38,  1.87it/s] 52%|█████▏    | 24897/48008 [3:34:26<3:22:09,  1.91it/s] 52%|█████▏    | 24898/48008 [3:34:26<3:16:54,  1.96it/s] 52%|█████▏    | 24899/48008 [3:34:28<4:42:23,  1.36it/s] 52%|█████▏    | 24900/48008 [3:34:28<4:12:49,  1.52it/s]                                                         {'loss': 4.2867, 'grad_norm': 0.16410855948925018, 'learning_rate': 9.627145475754041e-05, 'epoch': 0.52}
 52%|█████▏    | 24900/48008 [3:34:28<4:12:49,  1.52it/s] 52%|█████▏    | 24901/48008 [3:34:29<3:55:03,  1.64it/s] 52%|█████▏    | 24902/48008 [3:34:29<3:32:52,  1.81it/s] 52%|█████▏    | 24903/48008 [3:34:30<3:31:29,  1.82it/s] 52%|█████▏    | 24904/48008 [3:34:30<4:10:09,  1.54it/s] 52%|█████▏    | 24905/48008 [3:34:31<3:50:22,  1.67it/s] 52%|█████▏    | 24906/48008 [3:34:32<3:58:57,  1.61it/s] 52%|█████▏    | 24907/48008 [3:34:32<3:42:49,  1.73it/s] 52%|█████▏    | 24908/48008 [3:34:33<3:37:47,  1.77it/s] 52%|█████▏    | 24909/48008 [3:34:33<3:35:09,  1.79it/s] 52%|█████▏    | 24910/48008 [3:34:34<3:18:23,  1.94it/s] 52%|█████▏    | 24911/48008 [3:34:34<3:17:20,  1.95it/s] 52%|█████▏    | 24912/48008 [3:34:35<3:13:42,  1.99it/s] 52%|█████▏    | 24913/48008 [3:34:35<3:15:43,  1.97it/s] 52%|█████▏    | 24914/48008 [3:34:36<3:59:01,  1.61it/s] 52%|█████▏    | 24915/48008 [3:34:36<3:43:01,  1.73it/s] 52%|█████▏    | 24916/48008 [3:34:37<3:36:32,  1.78it/s] 52%|█████▏    | 24917/48008 [3:34:37<3:29:25,  1.84it/s] 52%|█████▏    | 24918/48008 [3:34:38<4:07:55,  1.55it/s] 52%|█████▏    | 24919/48008 [3:34:39<3:51:30,  1.66it/s] 52%|█████▏    | 24920/48008 [3:34:39<3:36:54,  1.77it/s] 52%|█████▏    | 24921/48008 [3:34:40<3:29:54,  1.83it/s] 52%|█████▏    | 24922/48008 [3:34:41<3:44:34,  1.71it/s] 52%|█████▏    | 24923/48008 [3:34:41<3:33:16,  1.80it/s] 52%|█████▏    | 24924/48008 [3:34:42<3:27:42,  1.85it/s] 52%|█████▏    | 24925/48008 [3:34:42<3:13:33,  1.99it/s] 52%|█████▏    | 24926/48008 [3:34:43<3:33:15,  1.80it/s] 52%|█████▏    | 24927/48008 [3:34:43<3:27:53,  1.85it/s] 52%|█████▏    | 24928/48008 [3:34:44<3:21:27,  1.91it/s] 52%|█████▏    | 24929/48008 [3:34:44<3:16:46,  1.95it/s] 52%|█████▏    | 24930/48008 [3:34:45<3:58:48,  1.61it/s] 52%|█████▏    | 24931/48008 [3:34:45<3:46:45,  1.70it/s] 52%|█████▏    | 24932/48008 [3:34:46<3:34:07,  1.80it/s] 52%|█████▏    | 24933/48008 [3:34:47<3:47:42,  1.69it/s] 52%|█████▏    | 24934/48008 [3:34:47<3:27:29,  1.85it/s] 52%|█████▏    | 24935/48008 [3:34:48<3:25:43,  1.87it/s] 52%|█████▏    | 24936/48008 [3:34:48<4:05:03,  1.57it/s] 52%|█████▏    | 24937/48008 [3:34:49<3:47:05,  1.69it/s] 52%|█████▏    | 24938/48008 [3:34:49<3:34:14,  1.79it/s] 52%|█████▏    | 24939/48008 [3:34:50<3:17:55,  1.94it/s] 52%|█████▏    | 24940/48008 [3:34:50<3:20:46,  1.91it/s] 52%|█████▏    | 24941/48008 [3:34:51<3:18:40,  1.94it/s] 52%|█████▏    | 24942/48008 [3:34:51<3:14:41,  1.97it/s] 52%|█████▏    | 24943/48008 [3:34:52<3:14:45,  1.97it/s] 52%|█████▏    | 24944/48008 [3:34:52<3:12:13,  2.00it/s] 52%|█████▏    | 24945/48008 [3:34:53<3:10:16,  2.02it/s] 52%|█████▏    | 24946/48008 [3:34:53<3:01:17,  2.12it/s] 52%|█████▏    | 24947/48008 [3:34:54<3:06:44,  2.06it/s] 52%|█████▏    | 24948/48008 [3:34:54<3:06:03,  2.07it/s] 52%|█████▏    | 24949/48008 [3:34:55<3:05:59,  2.07it/s] 52%|█████▏    | 24950/48008 [3:34:55<3:05:19,  2.07it/s]                                                         {'loss': 4.3182, 'grad_norm': 0.17093433439731598, 'learning_rate': 9.606315614064323e-05, 'epoch': 0.52}
 52%|█████▏    | 24950/48008 [3:34:55<3:05:19,  2.07it/s] 52%|█████▏    | 24951/48008 [3:34:56<3:05:30,  2.07it/s] 52%|█████▏    | 24952/48008 [3:34:56<2:57:52,  2.16it/s] 52%|█████▏    | 24953/48008 [3:34:57<3:04:38,  2.08it/s] 52%|█████▏    | 24954/48008 [3:34:57<2:57:28,  2.16it/s] 52%|█████▏    | 24955/48008 [3:34:58<3:02:36,  2.10it/s] 52%|█████▏    | 24956/48008 [3:34:58<3:09:35,  2.03it/s] 52%|█████▏    | 24957/48008 [3:34:58<3:01:01,  2.12it/s] 52%|█████▏    | 24958/48008 [3:34:59<3:07:27,  2.05it/s] 52%|█████▏    | 24959/48008 [3:35:00<3:09:37,  2.03it/s] 52%|█████▏    | 24960/48008 [3:35:00<3:08:11,  2.04it/s] 52%|█████▏    | 24961/48008 [3:35:00<3:07:47,  2.05it/s] 52%|█████▏    | 24962/48008 [3:35:01<3:09:45,  2.02it/s] 52%|█████▏    | 24963/48008 [3:35:02<3:12:27,  2.00it/s] 52%|█████▏    | 24964/48008 [3:35:02<2:58:46,  2.15it/s] 52%|█████▏    | 24965/48008 [3:35:02<3:07:22,  2.05it/s] 52%|█████▏    | 24966/48008 [3:35:03<3:52:54,  1.65it/s] 52%|█████▏    | 24967/48008 [3:35:04<3:38:52,  1.75it/s] 52%|█████▏    | 24968/48008 [3:35:04<3:21:10,  1.91it/s] 52%|█████▏    | 24969/48008 [3:35:05<3:39:35,  1.75it/s] 52%|█████▏    | 24970/48008 [3:35:05<3:36:31,  1.77it/s] 52%|█████▏    | 24971/48008 [3:35:06<4:27:01,  1.44it/s] 52%|█████▏    | 24972/48008 [3:35:07<4:01:58,  1.59it/s] 52%|█████▏    | 24973/48008 [3:35:07<3:44:56,  1.71it/s] 52%|█████▏    | 24974/48008 [3:35:08<3:35:51,  1.78it/s] 52%|█████▏    | 24975/48008 [3:35:08<3:31:39,  1.81it/s] 52%|█████▏    | 24976/48008 [3:35:09<3:26:00,  1.86it/s] 52%|█████▏    | 24977/48008 [3:35:09<3:19:21,  1.93it/s] 52%|█████▏    | 24978/48008 [3:35:10<3:21:54,  1.90it/s] 52%|█████▏    | 24979/48008 [3:35:11<3:39:33,  1.75it/s] 52%|█████▏    | 24980/48008 [3:35:11<3:29:10,  1.83it/s] 52%|█████▏    | 24981/48008 [3:35:12<3:21:54,  1.90it/s] 52%|█████▏    | 24982/48008 [3:35:12<3:23:16,  1.89it/s] 52%|█████▏    | 24983/48008 [3:35:13<3:40:06,  1.74it/s] 52%|█████▏    | 24984/48008 [3:35:13<3:34:52,  1.79it/s] 52%|█████▏    | 24985/48008 [3:35:14<3:25:16,  1.87it/s] 52%|█████▏    | 24986/48008 [3:35:15<3:41:49,  1.73it/s] 52%|█████▏    | 24987/48008 [3:35:15<3:30:38,  1.82it/s] 52%|█████▏    | 24988/48008 [3:35:15<3:15:30,  1.96it/s] 52%|█████▏    | 24989/48008 [3:35:16<3:34:58,  1.78it/s] 52%|█████▏    | 24990/48008 [3:35:17<3:28:50,  1.84it/s] 52%|█████▏    | 24991/48008 [3:35:17<3:14:26,  1.97it/s] 52%|█████▏    | 24992/48008 [3:35:17<3:10:49,  2.01it/s] 52%|█████▏    | 24993/48008 [3:35:18<3:11:03,  2.01it/s] 52%|█████▏    | 24994/48008 [3:35:19<3:15:45,  1.96it/s] 52%|█████▏    | 24995/48008 [3:35:19<3:12:32,  1.99it/s] 52%|█████▏    | 24996/48008 [3:35:20<3:12:30,  1.99it/s] 52%|█████▏    | 24997/48008 [3:35:20<3:13:03,  1.99it/s] 52%|█████▏    | 24998/48008 [3:35:21<3:10:20,  2.01it/s] 52%|█████▏    | 24999/48008 [3:35:21<3:11:51,  2.00it/s] 52%|█████▏    | 25000/48008 [3:35:22<3:14:32,  1.97it/s]                                                         {'loss': 4.272, 'grad_norm': 0.09637327492237091, 'learning_rate': 9.585485752374604e-05, 'epoch': 0.52}
 52%|█████▏    | 25000/48008 [3:35:22<3:14:32,  1.97it/s] 52%|█████▏    | 25001/48008 [3:35:22<3:34:19,  1.79it/s] 52%|█████▏    | 25002/48008 [3:35:23<3:28:40,  1.84it/s] 52%|█████▏    | 25003/48008 [3:35:23<3:13:51,  1.98it/s] 52%|█████▏    | 25004/48008 [3:35:24<3:13:44,  1.98it/s] 52%|█████▏    | 25005/48008 [3:35:24<3:14:45,  1.97it/s] 52%|█████▏    | 25006/48008 [3:35:25<3:04:22,  2.08it/s] 52%|█████▏    | 25007/48008 [3:35:25<3:06:49,  2.05it/s] 52%|█████▏    | 25008/48008 [3:35:26<3:08:22,  2.03it/s] 52%|█████▏    | 25009/48008 [3:35:26<3:06:26,  2.06it/s] 52%|█████▏    | 25010/48008 [3:35:27<3:08:59,  2.03it/s] 52%|█████▏    | 25011/48008 [3:35:27<3:09:41,  2.02it/s] 52%|█████▏    | 25012/48008 [3:35:28<3:08:14,  2.04it/s] 52%|█████▏    | 25013/48008 [3:35:28<3:10:12,  2.01it/s] 52%|█████▏    | 25014/48008 [3:35:29<3:13:28,  1.98it/s] 52%|█████▏    | 25015/48008 [3:35:29<2:59:20,  2.14it/s] 52%|█████▏    | 25016/48008 [3:35:29<3:01:17,  2.11it/s] 52%|█████▏    | 25017/48008 [3:35:30<3:02:06,  2.10it/s] 52%|█████▏    | 25018/48008 [3:35:30<3:02:45,  2.10it/s] 52%|█████▏    | 25019/48008 [3:35:31<3:03:28,  2.09it/s] 52%|█████▏    | 25020/48008 [3:35:31<2:55:51,  2.18it/s] 52%|█████▏    | 25021/48008 [3:35:32<2:58:37,  2.14it/s] 52%|█████▏    | 25022/48008 [3:35:32<2:59:56,  2.13it/s] 52%|█████▏    | 25023/48008 [3:35:33<3:05:43,  2.06it/s] 52%|█████▏    | 25024/48008 [3:35:33<3:08:17,  2.03it/s] 52%|█████▏    | 25025/48008 [3:35:34<3:52:29,  1.65it/s] 52%|█████▏    | 25026/48008 [3:35:35<3:37:47,  1.76it/s] 52%|█████▏    | 25027/48008 [3:35:35<3:20:00,  1.91it/s] 52%|█████▏    | 25028/48008 [3:35:36<3:18:16,  1.93it/s] 52%|█████▏    | 25029/48008 [3:35:36<3:16:59,  1.94it/s] 52%|█████▏    | 25030/48008 [3:35:37<3:13:17,  1.98it/s] 52%|█████▏    | 25031/48008 [3:35:37<3:10:51,  2.01it/s] 52%|█████▏    | 25032/48008 [3:35:38<3:11:30,  2.00it/s] 52%|█████▏    | 25033/48008 [3:35:38<3:01:50,  2.11it/s] 52%|█████▏    | 25034/48008 [3:35:38<2:54:48,  2.19it/s] 52%|█████▏    | 25035/48008 [3:35:39<2:57:16,  2.16it/s] 52%|█████▏    | 25036/48008 [3:35:39<3:02:12,  2.10it/s] 52%|█████▏    | 25037/48008 [3:35:40<3:03:02,  2.09it/s] 52%|█████▏    | 25038/48008 [3:35:40<3:05:59,  2.06it/s] 52%|█████▏    | 25039/48008 [3:35:41<3:05:44,  2.06it/s] 52%|█████▏    | 25040/48008 [3:35:42<4:34:21,  1.40it/s] 52%|█████▏    | 25041/48008 [3:35:43<4:09:44,  1.53it/s] 52%|█████▏    | 25042/48008 [3:35:43<3:50:01,  1.66it/s] 52%|█████▏    | 25043/48008 [3:35:44<3:39:19,  1.75it/s] 52%|█████▏    | 25044/48008 [3:35:44<3:28:52,  1.83it/s] 52%|█████▏    | 25045/48008 [3:35:45<3:21:45,  1.90it/s] 52%|█████▏    | 25046/48008 [3:35:45<3:08:51,  2.03it/s] 52%|█████▏    | 25047/48008 [3:35:45<3:07:51,  2.04it/s] 52%|█████▏    | 25048/48008 [3:35:46<3:11:53,  1.99it/s] 52%|█████▏    | 25049/48008 [3:35:47<3:16:12,  1.95it/s] 52%|█████▏    | 25050/48008 [3:35:47<3:15:09,  1.96it/s]                                                         {'loss': 4.2713, 'grad_norm': 0.10130547732114792, 'learning_rate': 9.564655890684886e-05, 'epoch': 0.52}
 52%|█████▏    | 25050/48008 [3:35:47<3:15:09,  1.96it/s] 52%|█████▏    | 25051/48008 [3:35:48<3:16:42,  1.95it/s] 52%|█████▏    | 25052/48008 [3:35:48<3:17:06,  1.94it/s] 52%|█████▏    | 25053/48008 [3:35:49<3:13:19,  1.98it/s] 52%|█████▏    | 25054/48008 [3:35:49<3:17:34,  1.94it/s] 52%|█████▏    | 25055/48008 [3:35:50<3:13:47,  1.97it/s] 52%|█████▏    | 25056/48008 [3:35:50<3:11:16,  2.00it/s] 52%|█████▏    | 25057/48008 [3:35:50<3:01:46,  2.10it/s] 52%|█████▏    | 25058/48008 [3:35:51<3:07:02,  2.04it/s] 52%|█████▏    | 25059/48008 [3:35:51<3:06:13,  2.05it/s] 52%|█████▏    | 25060/48008 [3:35:52<3:06:01,  2.06it/s] 52%|█████▏    | 25061/48008 [3:35:52<3:08:14,  2.03it/s] 52%|█████▏    | 25062/48008 [3:35:53<3:07:36,  2.04it/s] 52%|█████▏    | 25063/48008 [3:35:53<3:09:16,  2.02it/s] 52%|█████▏    | 25064/48008 [3:35:54<3:11:52,  1.99it/s] 52%|█████▏    | 25065/48008 [3:35:54<3:09:30,  2.02it/s] 52%|█████▏    | 25066/48008 [3:35:55<3:12:21,  1.99it/s] 52%|█████▏    | 25067/48008 [3:35:55<3:10:14,  2.01it/s] 52%|█████▏    | 25068/48008 [3:35:56<3:08:50,  2.02it/s] 52%|█████▏    | 25069/48008 [3:35:56<3:07:26,  2.04it/s] 52%|█████▏    | 25070/48008 [3:35:57<3:06:38,  2.05it/s] 52%|█████▏    | 25071/48008 [3:35:57<3:12:52,  1.98it/s] 52%|█████▏    | 25072/48008 [3:35:58<3:13:14,  1.98it/s] 52%|█████▏    | 25073/48008 [3:35:58<3:10:40,  2.00it/s] 52%|█████▏    | 25074/48008 [3:35:59<3:01:07,  2.11it/s] 52%|█████▏    | 25075/48008 [3:35:59<2:54:24,  2.19it/s] 52%|█████▏    | 25076/48008 [3:36:00<2:57:17,  2.16it/s] 52%|█████▏    | 25077/48008 [3:36:00<2:59:18,  2.13it/s] 52%|█████▏    | 25078/48008 [3:36:01<3:07:08,  2.04it/s] 52%|█████▏    | 25079/48008 [3:36:01<3:10:36,  2.00it/s] 52%|█████▏    | 25080/48008 [3:36:02<3:07:56,  2.03it/s] 52%|█████▏    | 25081/48008 [3:36:03<4:35:51,  1.39it/s] 52%|█████▏    | 25082/48008 [3:36:04<4:08:23,  1.54it/s] 52%|█████▏    | 25083/48008 [3:36:04<3:53:09,  1.64it/s] 52%|█████▏    | 25084/48008 [3:36:05<3:40:46,  1.73it/s] 52%|█████▏    | 25085/48008 [3:36:05<3:31:53,  1.80it/s] 52%|█████▏    | 25086/48008 [3:36:06<3:26:18,  1.85it/s] 52%|█████▏    | 25087/48008 [3:36:07<4:57:19,  1.28it/s] 52%|█████▏    | 25088/48008 [3:36:07<4:25:53,  1.44it/s] 52%|█████▏    | 25089/48008 [3:36:08<4:01:16,  1.58it/s] 52%|█████▏    | 25090/48008 [3:36:09<5:13:05,  1.22it/s] 52%|█████▏    | 25091/48008 [3:36:10<4:34:20,  1.39it/s] 52%|█████▏    | 25092/48008 [3:36:10<4:11:38,  1.52it/s] 52%|█████▏    | 25093/48008 [3:36:12<5:36:29,  1.14it/s] 52%|█████▏    | 25094/48008 [3:36:12<4:53:27,  1.30it/s] 52%|█████▏    | 25095/48008 [3:36:13<4:23:27,  1.45it/s] 52%|█████▏    | 25096/48008 [3:36:13<4:00:00,  1.59it/s] 52%|█████▏    | 25097/48008 [3:36:14<4:04:41,  1.56it/s] 52%|█████▏    | 25098/48008 [3:36:14<3:39:09,  1.74it/s] 52%|█████▏    | 25099/48008 [3:36:15<5:12:16,  1.22it/s] 52%|█████▏    | 25100/48008 [3:36:16<4:36:32,  1.38it/s]                                                         {'loss': 4.2781, 'grad_norm': 0.10107411444187164, 'learning_rate': 9.543826028995168e-05, 'epoch': 0.52}
 52%|█████▏    | 25100/48008 [3:36:16<4:36:32,  1.38it/s] 52%|█████▏    | 25101/48008 [3:36:16<4:01:18,  1.58it/s] 52%|█████▏    | 25102/48008 [3:36:17<3:44:26,  1.70it/s] 52%|█████▏    | 25103/48008 [3:36:17<3:32:42,  1.79it/s] 52%|█████▏    | 25104/48008 [3:36:19<4:52:10,  1.31it/s] 52%|█████▏    | 25105/48008 [3:36:20<5:24:47,  1.18it/s] 52%|█████▏    | 25106/48008 [3:36:20<4:42:17,  1.35it/s] 52%|█████▏    | 25107/48008 [3:36:21<4:05:29,  1.55it/s] 52%|█████▏    | 25108/48008 [3:36:21<3:53:27,  1.63it/s] 52%|█████▏    | 25109/48008 [3:36:22<5:06:04,  1.25it/s] 52%|█████▏    | 25110/48008 [3:36:23<4:29:23,  1.42it/s] 52%|█████▏    | 25111/48008 [3:36:23<3:56:17,  1.62it/s] 52%|█████▏    | 25112/48008 [3:36:24<3:33:01,  1.79it/s] 52%|█████▏    | 25113/48008 [3:36:24<3:24:29,  1.87it/s] 52%|█████▏    | 25114/48008 [3:36:25<3:18:22,  1.92it/s] 52%|█████▏    | 25115/48008 [3:36:25<3:16:55,  1.94it/s] 52%|█████▏    | 25116/48008 [3:36:26<3:17:39,  1.93it/s] 52%|█████▏    | 25117/48008 [3:36:27<3:59:14,  1.59it/s] 52%|█████▏    | 25118/48008 [3:36:27<3:42:19,  1.72it/s] 52%|█████▏    | 25119/48008 [3:36:28<3:30:42,  1.81it/s] 52%|█████▏    | 25120/48008 [3:36:28<3:27:02,  1.84it/s] 52%|█████▏    | 25121/48008 [3:36:29<3:22:22,  1.88it/s] 52%|█████▏    | 25122/48008 [3:36:29<3:23:22,  1.88it/s] 52%|█████▏    | 25123/48008 [3:36:30<3:20:07,  1.91it/s] 52%|█████▏    | 25124/48008 [3:36:30<3:07:38,  2.03it/s] 52%|█████▏    | 25125/48008 [3:36:30<2:59:11,  2.13it/s] 52%|█████▏    | 25126/48008 [3:36:31<3:06:47,  2.04it/s] 52%|█████▏    | 25127/48008 [3:36:31<3:06:12,  2.05it/s] 52%|█████▏    | 25128/48008 [3:36:32<3:06:31,  2.04it/s] 52%|█████▏    | 25129/48008 [3:36:32<3:08:25,  2.02it/s] 52%|█████▏    | 25130/48008 [3:36:33<3:07:38,  2.03it/s] 52%|█████▏    | 25131/48008 [3:36:33<3:06:47,  2.04it/s] 52%|█████▏    | 25132/48008 [3:36:34<3:05:27,  2.06it/s] 52%|█████▏    | 25133/48008 [3:36:34<3:08:25,  2.02it/s] 52%|█████▏    | 25134/48008 [3:36:35<3:13:30,  1.97it/s] 52%|█████▏    | 25135/48008 [3:36:35<3:10:40,  2.00it/s] 52%|█████▏    | 25136/48008 [3:36:36<3:00:42,  2.11it/s] 52%|█████▏    | 25137/48008 [3:36:36<3:08:41,  2.02it/s] 52%|█████▏    | 25138/48008 [3:36:37<3:07:57,  2.03it/s] 52%|█████▏    | 25139/48008 [3:36:38<3:29:23,  1.82it/s] 52%|█████▏    | 25140/48008 [3:36:38<3:24:50,  1.86it/s] 52%|█████▏    | 25141/48008 [3:36:39<3:18:48,  1.92it/s] 52%|█████▏    | 25142/48008 [3:36:39<3:14:39,  1.96it/s] 52%|█████▏    | 25143/48008 [3:36:40<3:14:11,  1.96it/s] 52%|█████▏    | 25144/48008 [3:36:40<3:11:04,  1.99it/s] 52%|█████▏    | 25145/48008 [3:36:40<3:01:26,  2.10it/s] 52%|█████▏    | 25146/48008 [3:36:41<2:54:40,  2.18it/s] 52%|█████▏    | 25147/48008 [3:36:42<3:19:20,  1.91it/s] 52%|█████▏    | 25148/48008 [3:36:42<3:17:16,  1.93it/s] 52%|█████▏    | 25149/48008 [3:36:43<3:15:40,  1.95it/s] 52%|█████▏    | 25150/48008 [3:36:43<3:11:27,  1.99it/s]                                                         {'loss': 4.2902, 'grad_norm': 0.09796366840600967, 'learning_rate': 9.52299616730545e-05, 'epoch': 0.52}
 52%|█████▏    | 25150/48008 [3:36:43<3:11:27,  1.99it/s] 52%|█████▏    | 25151/48008 [3:36:43<3:08:42,  2.02it/s] 52%|█████▏    | 25152/48008 [3:36:44<3:07:09,  2.04it/s] 52%|█████▏    | 25153/48008 [3:36:44<2:58:35,  2.13it/s] 52%|█████▏    | 25154/48008 [3:36:45<3:00:20,  2.11it/s] 52%|█████▏    | 25155/48008 [3:36:45<3:06:08,  2.05it/s] 52%|█████▏    | 25156/48008 [3:36:46<2:57:47,  2.14it/s] 52%|█████▏    | 25157/48008 [3:36:46<3:01:57,  2.09it/s] 52%|█████▏    | 25158/48008 [3:36:47<3:06:34,  2.04it/s] 52%|█████▏    | 25159/48008 [3:36:47<2:57:27,  2.15it/s] 52%|█████▏    | 25160/48008 [3:36:48<2:58:46,  2.13it/s] 52%|█████▏    | 25161/48008 [3:36:48<3:03:57,  2.07it/s] 52%|█████▏    | 25162/48008 [3:36:49<3:03:58,  2.07it/s] 52%|█████▏    | 25163/48008 [3:36:49<3:06:15,  2.04it/s] 52%|█████▏    | 25164/48008 [3:36:50<3:05:06,  2.06it/s] 52%|█████▏    | 25165/48008 [3:36:50<3:06:26,  2.04it/s] 52%|█████▏    | 25166/48008 [3:36:51<3:05:38,  2.05it/s] 52%|█████▏    | 25167/48008 [3:36:52<4:33:00,  1.39it/s] 52%|█████▏    | 25168/48008 [3:36:52<4:06:19,  1.55it/s] 52%|█████▏    | 25169/48008 [3:36:53<3:52:18,  1.64it/s] 52%|█████▏    | 25170/48008 [3:36:53<3:37:22,  1.75it/s] 52%|█████▏    | 25171/48008 [3:36:54<3:32:20,  1.79it/s] 52%|█████▏    | 25172/48008 [3:36:54<3:23:34,  1.87it/s] 52%|█████▏    | 25173/48008 [3:36:55<3:10:14,  2.00it/s] 52%|█████▏    | 25174/48008 [3:36:55<3:08:33,  2.02it/s] 52%|█████▏    | 25175/48008 [3:36:56<3:07:12,  2.03it/s] 52%|█████▏    | 25176/48008 [3:36:56<3:08:33,  2.02it/s] 52%|█████▏    | 25177/48008 [3:36:57<3:29:20,  1.82it/s] 52%|█████▏    | 25178/48008 [3:36:57<3:22:00,  1.88it/s] 52%|█████▏    | 25179/48008 [3:36:58<3:16:27,  1.94it/s] 52%|█████▏    | 25180/48008 [3:36:58<3:12:19,  1.98it/s] 52%|█████▏    | 25181/48008 [3:36:59<3:10:07,  2.00it/s] 52%|█████▏    | 25182/48008 [3:36:59<3:10:48,  1.99it/s] 52%|█████▏    | 25183/48008 [3:37:00<3:08:40,  2.02it/s] 52%|█████▏    | 25184/48008 [3:37:00<3:07:00,  2.03it/s] 52%|█████▏    | 25185/48008 [3:37:01<2:59:03,  2.12it/s] 52%|█████▏    | 25186/48008 [3:37:01<3:03:46,  2.07it/s] 52%|█████▏    | 25187/48008 [3:37:02<3:03:29,  2.07it/s] 52%|█████▏    | 25188/48008 [3:37:02<3:04:18,  2.06it/s] 52%|█████▏    | 25189/48008 [3:37:03<2:57:04,  2.15it/s] 52%|█████▏    | 25190/48008 [3:37:03<2:59:03,  2.12it/s] 52%|█████▏    | 25191/48008 [3:37:04<3:00:46,  2.10it/s] 52%|█████▏    | 25192/48008 [3:37:04<3:08:01,  2.02it/s] 52%|█████▏    | 25193/48008 [3:37:05<2:59:13,  2.12it/s] 52%|█████▏    | 25194/48008 [3:37:05<3:00:27,  2.11it/s] 52%|█████▏    | 25195/48008 [3:37:06<3:02:33,  2.08it/s] 52%|█████▏    | 25196/48008 [3:37:06<3:03:22,  2.07it/s] 52%|█████▏    | 25197/48008 [3:37:07<3:05:57,  2.04it/s] 52%|█████▏    | 25198/48008 [3:37:08<3:50:25,  1.65it/s] 52%|█████▏    | 25199/48008 [3:37:08<3:39:02,  1.74it/s] 52%|█████▏    | 25200/48008 [3:37:08<3:28:42,  1.82it/s]                                                         {'loss': 4.2568, 'grad_norm': 0.10524655878543854, 'learning_rate': 9.502166305615731e-05, 'epoch': 0.52} 52%|█████▏    | 25200/48008 [3:37:08<3:28:42,  1.82it/s]
 52%|█████▏    | 25201/48008 [3:37:09<3:10:29,  2.00it/s] 52%|█████▏    | 25202/48008 [3:37:09<3:13:18,  1.97it/s] 52%|█████▏    | 25203/48008 [3:37:10<3:12:45,  1.97it/s] 52%|█████▏    | 25204/48008 [3:37:10<2:59:07,  2.12it/s] 53%|█████▎    | 25205/48008 [3:37:11<3:00:42,  2.10it/s] 53%|█████▎    | 25206/48008 [3:37:11<3:04:13,  2.06it/s] 53%|█████▎    | 25207/48008 [3:37:12<3:07:05,  2.03it/s] 53%|█████▎    | 25208/48008 [3:37:12<3:06:05,  2.04it/s] 53%|█████▎    | 25209/48008 [3:37:13<2:57:44,  2.14it/s] 53%|█████▎    | 25210/48008 [3:37:13<2:59:11,  2.12it/s] 53%|█████▎    | 25211/48008 [3:37:14<3:00:28,  2.11it/s] 53%|█████▎    | 25212/48008 [3:37:14<3:01:38,  2.09it/s] 53%|█████▎    | 25213/48008 [3:37:15<3:24:35,  1.86it/s] 53%|█████▎    | 25214/48008 [3:37:15<3:17:47,  1.92it/s] 53%|█████▎    | 25215/48008 [3:37:16<3:13:27,  1.96it/s] 53%|█████▎    | 25216/48008 [3:37:16<3:32:53,  1.78it/s] 53%|█████▎    | 25217/48008 [3:37:17<3:23:37,  1.87it/s] 53%|█████▎    | 25218/48008 [3:37:17<3:20:09,  1.90it/s] 53%|█████▎    | 25219/48008 [3:37:18<3:17:42,  1.92it/s] 53%|█████▎    | 25220/48008 [3:37:18<3:13:45,  1.96it/s] 53%|█████▎    | 25221/48008 [3:37:19<3:14:42,  1.95it/s] 53%|█████▎    | 25222/48008 [3:37:19<3:11:06,  1.99it/s] 53%|█████▎    | 25223/48008 [3:37:20<3:11:40,  1.98it/s] 53%|█████▎    | 25224/48008 [3:37:20<3:13:09,  1.97it/s] 53%|█████▎    | 25225/48008 [3:37:21<3:10:26,  1.99it/s] 53%|█████▎    | 25226/48008 [3:37:21<3:07:43,  2.02it/s] 53%|█████▎    | 25227/48008 [3:37:22<3:12:33,  1.97it/s] 53%|█████▎    | 25228/48008 [3:37:22<3:13:44,  1.96it/s] 53%|█████▎    | 25229/48008 [3:37:23<3:13:22,  1.96it/s] 53%|█████▎    | 25230/48008 [3:37:23<3:10:17,  2.00it/s] 53%|█████▎    | 25231/48008 [3:37:24<3:08:34,  2.01it/s] 53%|█████▎    | 25232/48008 [3:37:24<3:07:14,  2.03it/s] 53%|█████▎    | 25233/48008 [3:37:25<3:08:28,  2.01it/s] 53%|█████▎    | 25234/48008 [3:37:25<3:07:03,  2.03it/s] 53%|█████▎    | 25235/48008 [3:37:26<3:12:11,  1.97it/s] 53%|█████▎    | 25236/48008 [3:37:26<3:09:39,  2.00it/s] 53%|█████▎    | 25237/48008 [3:37:27<3:10:25,  1.99it/s] 53%|█████▎    | 25238/48008 [3:37:27<3:11:33,  1.98it/s] 53%|█████▎    | 25239/48008 [3:37:28<3:09:03,  2.01it/s] 53%|█████▎    | 25240/48008 [3:37:29<3:52:42,  1.63it/s] 53%|█████▎    | 25241/48008 [3:37:29<3:40:20,  1.72it/s] 53%|█████▎    | 25242/48008 [3:37:30<3:28:38,  1.82it/s] 53%|█████▎    | 25243/48008 [3:37:31<3:42:53,  1.70it/s] 53%|█████▎    | 25244/48008 [3:37:31<3:52:44,  1.63it/s] 53%|█████▎    | 25245/48008 [3:37:32<3:30:35,  1.80it/s] 53%|█████▎    | 25246/48008 [3:37:32<3:24:18,  1.86it/s] 53%|█████▎    | 25247/48008 [3:37:33<3:17:09,  1.92it/s] 53%|█████▎    | 25248/48008 [3:37:33<3:14:59,  1.95it/s] 53%|█████▎    | 25249/48008 [3:37:34<3:15:51,  1.94it/s] 53%|█████▎    | 25250/48008 [3:37:34<3:18:22,  1.91it/s]                                                         {'loss': 4.2947, 'grad_norm': 0.0995543822646141, 'learning_rate': 9.481336443926013e-05, 'epoch': 0.53}
 53%|█████▎    | 25250/48008 [3:37:34<3:18:22,  1.91it/s] 53%|█████▎    | 25251/48008 [3:37:35<3:06:29,  2.03it/s] 53%|█████▎    | 25252/48008 [3:37:35<3:09:44,  2.00it/s] 53%|█████▎    | 25253/48008 [3:37:36<3:07:37,  2.02it/s] 53%|█████▎    | 25254/48008 [3:37:36<3:06:26,  2.03it/s] 53%|█████▎    | 25255/48008 [3:37:36<2:58:29,  2.12it/s] 53%|█████▎    | 25256/48008 [3:37:37<3:00:06,  2.11it/s] 53%|█████▎    | 25257/48008 [3:37:37<3:01:29,  2.09it/s] 53%|█████▎    | 25258/48008 [3:37:39<4:30:31,  1.40it/s] 53%|█████▎    | 25259/48008 [3:37:39<4:07:20,  1.53it/s] 53%|█████▎    | 25260/48008 [3:37:40<3:47:54,  1.66it/s] 53%|█████▎    | 25261/48008 [3:37:41<5:02:36,  1.25it/s] 53%|█████▎    | 25262/48008 [3:37:41<4:26:53,  1.42it/s] 53%|█████▎    | 25263/48008 [3:37:42<4:04:20,  1.55it/s] 53%|█████▎    | 25264/48008 [3:37:42<3:48:09,  1.66it/s] 53%|█████▎    | 25265/48008 [3:37:43<3:34:43,  1.77it/s] 53%|█████▎    | 25266/48008 [3:37:43<3:17:49,  1.92it/s] 53%|█████▎    | 25267/48008 [3:37:44<3:13:12,  1.96it/s] 53%|█████▎    | 25268/48008 [3:37:44<3:14:35,  1.95it/s] 53%|█████▎    | 25269/48008 [3:37:45<3:13:21,  1.96it/s] 53%|█████▎    | 25270/48008 [3:37:45<3:14:45,  1.95it/s] 53%|█████▎    | 25271/48008 [3:37:46<3:11:26,  1.98it/s] 53%|█████▎    | 25272/48008 [3:37:46<3:11:35,  1.98it/s] 53%|█████▎    | 25273/48008 [3:37:47<3:11:11,  1.98it/s] 53%|█████▎    | 25274/48008 [3:37:47<3:01:22,  2.09it/s] 53%|█████▎    | 25275/48008 [3:37:48<3:04:00,  2.06it/s] 53%|█████▎    | 25276/48008 [3:37:48<3:03:30,  2.06it/s] 53%|█████▎    | 25277/48008 [3:37:49<2:55:36,  2.16it/s] 53%|█████▎    | 25278/48008 [3:37:49<2:50:25,  2.22it/s] 53%|█████▎    | 25279/48008 [3:37:50<2:46:44,  2.27it/s] 53%|█████▎    | 25280/48008 [3:37:50<2:51:17,  2.21it/s] 53%|█████▎    | 25281/48008 [3:37:50<2:47:10,  2.27it/s] 53%|█████▎    | 25282/48008 [3:37:51<2:52:21,  2.20it/s] 53%|█████▎    | 25283/48008 [3:37:51<2:59:37,  2.11it/s] 53%|█████▎    | 25284/48008 [3:37:52<3:03:39,  2.06it/s] 53%|█████▎    | 25285/48008 [3:37:52<3:03:27,  2.06it/s] 53%|█████▎    | 25286/48008 [3:37:53<3:02:51,  2.07it/s] 53%|█████▎    | 25287/48008 [3:37:53<3:07:09,  2.02it/s] 53%|█████▎    | 25288/48008 [3:37:54<3:05:14,  2.04it/s] 53%|█████▎    | 25289/48008 [3:37:54<3:04:31,  2.05it/s] 53%|█████▎    | 25290/48008 [3:37:55<3:03:54,  2.06it/s] 53%|█████▎    | 25291/48008 [3:37:55<3:03:45,  2.06it/s] 53%|█████▎    | 25292/48008 [3:37:56<3:03:24,  2.06it/s] 53%|█████▎    | 25293/48008 [3:37:56<3:02:57,  2.07it/s] 53%|█████▎    | 25294/48008 [3:37:57<3:04:37,  2.05it/s] 53%|█████▎    | 25295/48008 [3:37:57<3:05:44,  2.04it/s] 53%|█████▎    | 25296/48008 [3:37:58<2:57:25,  2.13it/s] 53%|█████▎    | 25297/48008 [3:37:58<3:01:59,  2.08it/s] 53%|█████▎    | 25298/48008 [3:37:59<3:02:09,  2.08it/s] 53%|█████▎    | 25299/48008 [3:37:59<3:02:16,  2.08it/s] 53%|█████▎    | 25300/48008 [3:38:00<2:54:51,  2.16it/s]                                                         {'loss': 4.2357, 'grad_norm': 0.10201646387577057, 'learning_rate': 9.460506582236295e-05, 'epoch': 0.53}
 53%|█████▎    | 25300/48008 [3:38:00<2:54:51,  2.16it/s] 53%|█████▎    | 25301/48008 [3:38:00<2:56:52,  2.14it/s] 53%|█████▎    | 25302/48008 [3:38:01<3:00:50,  2.09it/s] 53%|█████▎    | 25303/48008 [3:38:01<3:23:30,  1.86it/s] 53%|█████▎    | 25304/48008 [3:38:02<3:09:56,  1.99it/s] 53%|█████▎    | 25305/48008 [3:38:02<3:10:18,  1.99it/s] 53%|█████▎    | 25306/48008 [3:38:03<3:07:55,  2.01it/s] 53%|█████▎    | 25307/48008 [3:38:03<3:08:33,  2.01it/s] 53%|█████▎    | 25308/48008 [3:38:04<3:06:47,  2.03it/s] 53%|█████▎    | 25309/48008 [3:38:04<3:27:16,  1.83it/s] 53%|█████▎    | 25310/48008 [3:38:06<4:47:07,  1.32it/s] 53%|█████▎    | 25311/48008 [3:38:06<4:04:29,  1.55it/s] 53%|█████▎    | 25312/48008 [3:38:06<3:45:52,  1.67it/s] 53%|█████▎    | 25313/48008 [3:38:07<3:37:06,  1.74it/s] 53%|█████▎    | 25314/48008 [3:38:07<3:19:54,  1.89it/s] 53%|█████▎    | 25315/48008 [3:38:08<3:14:18,  1.95it/s] 53%|█████▎    | 25316/48008 [3:38:08<3:10:55,  1.98it/s] 53%|█████▎    | 25317/48008 [3:38:09<3:10:38,  1.98it/s] 53%|█████▎    | 25318/48008 [3:38:09<2:56:54,  2.14it/s] 53%|█████▎    | 25319/48008 [3:38:10<2:58:10,  2.12it/s] 53%|█████▎    | 25320/48008 [3:38:10<2:59:32,  2.11it/s] 53%|█████▎    | 25321/48008 [3:38:11<3:02:54,  2.07it/s] 53%|█████▎    | 25322/48008 [3:38:11<3:02:47,  2.07it/s] 53%|█████▎    | 25323/48008 [3:38:12<3:05:16,  2.04it/s] 53%|█████▎    | 25324/48008 [3:38:12<2:57:08,  2.13it/s] 53%|█████▎    | 25325/48008 [3:38:13<2:58:32,  2.12it/s] 53%|█████▎    | 25326/48008 [3:38:13<2:59:48,  2.10it/s] 53%|█████▎    | 25327/48008 [3:38:13<2:52:49,  2.19it/s] 53%|█████▎    | 25328/48008 [3:38:14<2:58:43,  2.11it/s] 53%|█████▎    | 25329/48008 [3:38:15<3:03:31,  2.06it/s] 53%|█████▎    | 25330/48008 [3:38:15<2:55:51,  2.15it/s] 53%|█████▎    | 25331/48008 [3:38:15<2:58:04,  2.12it/s] 53%|█████▎    | 25332/48008 [3:38:16<2:52:01,  2.20it/s] 53%|█████▎    | 25333/48008 [3:38:17<4:22:30,  1.44it/s] 53%|█████▎    | 25334/48008 [3:38:18<4:02:59,  1.56it/s] 53%|█████▎    | 25335/48008 [3:38:18<3:51:12,  1.63it/s] 53%|█████▎    | 25336/48008 [3:38:19<3:36:01,  1.75it/s] 53%|█████▎    | 25337/48008 [3:38:19<3:48:02,  1.66it/s] 53%|█████▎    | 25338/48008 [3:38:20<3:38:30,  1.73it/s] 53%|█████▎    | 25339/48008 [3:38:20<3:26:46,  1.83it/s] 53%|█████▎    | 25340/48008 [3:38:21<3:19:43,  1.89it/s] 53%|█████▎    | 25341/48008 [3:38:21<3:19:22,  1.89it/s] 53%|█████▎    | 25342/48008 [3:38:22<3:06:33,  2.02it/s] 53%|█████▎    | 25343/48008 [3:38:23<3:49:50,  1.64it/s] 53%|█████▎    | 25344/48008 [3:38:23<3:34:51,  1.76it/s] 53%|█████▎    | 25345/48008 [3:38:24<3:24:54,  1.84it/s] 53%|█████▎    | 25346/48008 [3:38:24<3:17:40,  1.91it/s] 53%|█████▎    | 25347/48008 [3:38:25<3:16:47,  1.92it/s] 53%|█████▎    | 25348/48008 [3:38:25<3:14:40,  1.94it/s] 53%|█████▎    | 25349/48008 [3:38:26<3:10:49,  1.98it/s] 53%|█████▎    | 25350/48008 [3:38:26<3:08:28,  2.00it/s]                                                         {'loss': 4.2586, 'grad_norm': 0.10218922793865204, 'learning_rate': 9.439676720546576e-05, 'epoch': 0.53}
 53%|█████▎    | 25350/48008 [3:38:26<3:08:28,  2.00it/s] 53%|█████▎    | 25351/48008 [3:38:27<3:10:30,  1.98it/s] 53%|█████▎    | 25352/48008 [3:38:27<3:09:57,  1.99it/s] 53%|█████▎    | 25353/48008 [3:38:27<3:00:01,  2.10it/s] 53%|█████▎    | 25354/48008 [3:38:28<3:01:02,  2.09it/s] 53%|█████▎    | 25355/48008 [3:38:29<3:45:57,  1.67it/s] 53%|█████▎    | 25356/48008 [3:38:29<3:25:13,  1.84it/s] 53%|█████▎    | 25357/48008 [3:38:30<3:20:35,  1.88it/s] 53%|█████▎    | 25358/48008 [3:38:30<3:07:27,  2.01it/s] 53%|█████▎    | 25359/48008 [3:38:31<3:08:22,  2.00it/s] 53%|█████▎    | 25360/48008 [3:38:31<3:10:55,  1.98it/s] 53%|█████▎    | 25361/48008 [3:38:32<3:00:53,  2.09it/s] 53%|█████▎    | 25362/48008 [3:38:33<4:28:11,  1.41it/s] 53%|█████▎    | 25363/48008 [3:38:33<4:02:01,  1.56it/s] 53%|█████▎    | 25364/48008 [3:38:34<3:44:01,  1.68it/s] 53%|█████▎    | 25365/48008 [3:38:34<3:30:33,  1.79it/s] 53%|█████▎    | 25366/48008 [3:38:35<3:21:17,  1.87it/s] 53%|█████▎    | 25367/48008 [3:38:35<3:15:16,  1.93it/s] 53%|█████▎    | 25368/48008 [3:38:36<3:11:35,  1.97it/s] 53%|█████▎    | 25369/48008 [3:38:36<3:12:41,  1.96it/s] 53%|█████▎    | 25370/48008 [3:38:37<3:09:43,  1.99it/s] 53%|█████▎    | 25371/48008 [3:38:37<3:07:23,  2.01it/s] 53%|█████▎    | 25372/48008 [3:38:38<2:58:27,  2.11it/s] 53%|█████▎    | 25373/48008 [3:38:38<3:03:23,  2.06it/s] 53%|█████▎    | 25374/48008 [3:38:39<3:02:58,  2.06it/s] 53%|█████▎    | 25375/48008 [3:38:39<3:02:15,  2.07it/s] 53%|█████▎    | 25376/48008 [3:38:40<3:06:38,  2.02it/s] 53%|█████▎    | 25377/48008 [3:38:40<3:04:18,  2.05it/s] 53%|█████▎    | 25378/48008 [3:38:41<3:48:41,  1.65it/s] 53%|█████▎    | 25379/48008 [3:38:41<3:36:32,  1.74it/s] 53%|█████▎    | 25380/48008 [3:38:42<3:26:06,  1.83it/s] 53%|█████▎    | 25381/48008 [3:38:42<3:18:50,  1.90it/s] 53%|█████▎    | 25382/48008 [3:38:43<3:13:26,  1.95it/s] 53%|█████▎    | 25383/48008 [3:38:43<3:13:33,  1.95it/s] 53%|█████▎    | 25384/48008 [3:38:44<3:10:19,  1.98it/s] 53%|█████▎    | 25385/48008 [3:38:45<4:34:44,  1.37it/s] 53%|█████▎    | 25386/48008 [3:38:46<4:06:47,  1.53it/s] 53%|█████▎    | 25387/48008 [3:38:47<4:31:35,  1.39it/s] 53%|█████▎    | 25388/48008 [3:38:47<4:04:38,  1.54it/s] 53%|█████▎    | 25389/48008 [3:38:47<3:38:42,  1.72it/s] 53%|█████▎    | 25390/48008 [3:38:48<3:26:44,  1.82it/s] 53%|█████▎    | 25391/48008 [3:38:48<3:19:05,  1.89it/s] 53%|█████▎    | 25392/48008 [3:38:49<3:13:36,  1.95it/s] 53%|█████▎    | 25393/48008 [3:38:49<3:09:34,  1.99it/s] 53%|█████▎    | 25394/48008 [3:38:50<3:14:08,  1.94it/s] 53%|█████▎    | 25395/48008 [3:38:50<3:10:12,  1.98it/s] 53%|█████▎    | 25396/48008 [3:38:51<3:07:19,  2.01it/s] 53%|█████▎    | 25397/48008 [3:38:51<3:08:55,  1.99it/s] 53%|█████▎    | 25398/48008 [3:38:52<3:11:01,  1.97it/s] 53%|█████▎    | 25399/48008 [3:38:52<3:13:10,  1.95it/s] 53%|█████▎    | 25400/48008 [3:38:53<3:09:41,  1.99it/s]                                                         {'loss': 4.2685, 'grad_norm': 0.09977495670318604, 'learning_rate': 9.418846858856858e-05, 'epoch': 0.53}
 53%|█████▎    | 25400/48008 [3:38:53<3:09:41,  1.99it/s] 53%|█████▎    | 25401/48008 [3:38:53<3:07:27,  2.01it/s] 53%|█████▎    | 25402/48008 [3:38:54<3:10:29,  1.98it/s] 53%|█████▎    | 25403/48008 [3:38:54<3:10:47,  1.97it/s] 53%|█████▎    | 25404/48008 [3:38:55<3:07:39,  2.01it/s] 53%|█████▎    | 25405/48008 [3:38:55<3:09:13,  1.99it/s] 53%|█████▎    | 25406/48008 [3:38:56<3:07:37,  2.01it/s] 53%|█████▎    | 25407/48008 [3:38:56<3:08:35,  2.00it/s] 53%|█████▎    | 25408/48008 [3:38:58<4:34:17,  1.37it/s] 53%|█████▎    | 25409/48008 [3:38:58<3:59:28,  1.57it/s] 53%|█████▎    | 25410/48008 [3:38:58<3:34:00,  1.76it/s] 53%|█████▎    | 25411/48008 [3:38:59<3:24:42,  1.84it/s] 53%|█████▎    | 25412/48008 [3:38:59<3:18:04,  1.90it/s] 53%|█████▎    | 25413/48008 [3:39:00<3:58:14,  1.58it/s] 53%|█████▎    | 25414/48008 [3:39:01<4:03:41,  1.55it/s] 53%|█████▎    | 25415/48008 [3:39:01<3:45:17,  1.67it/s] 53%|█████▎    | 25416/48008 [3:39:02<3:25:02,  1.84it/s] 53%|█████▎    | 25417/48008 [3:39:02<3:17:53,  1.90it/s] 53%|█████▎    | 25418/48008 [3:39:03<3:15:44,  1.92it/s] 53%|█████▎    | 25419/48008 [3:39:03<3:11:37,  1.96it/s] 53%|█████▎    | 25420/48008 [3:39:04<3:53:07,  1.61it/s] 53%|█████▎    | 25421/48008 [3:39:05<3:29:53,  1.79it/s] 53%|█████▎    | 25422/48008 [3:39:05<3:21:53,  1.86it/s] 53%|█████▎    | 25423/48008 [3:39:06<3:18:26,  1.90it/s] 53%|█████▎    | 25424/48008 [3:39:06<3:13:33,  1.94it/s] 53%|█████▎    | 25425/48008 [3:39:07<3:02:53,  2.06it/s] 53%|█████▎    | 25426/48008 [3:39:07<3:02:17,  2.06it/s] 53%|█████▎    | 25427/48008 [3:39:08<3:07:21,  2.01it/s] 53%|█████▎    | 25428/48008 [3:39:08<2:58:21,  2.11it/s] 53%|█████▎    | 25429/48008 [3:39:08<2:51:59,  2.19it/s] 53%|█████▎    | 25430/48008 [3:39:09<2:58:27,  2.11it/s] 53%|█████▎    | 25431/48008 [3:39:09<2:59:28,  2.10it/s] 53%|█████▎    | 25432/48008 [3:39:10<3:07:59,  2.00it/s] 53%|█████▎    | 25433/48008 [3:39:11<3:12:33,  1.95it/s] 53%|█████▎    | 25434/48008 [3:39:11<3:12:12,  1.96it/s] 53%|█████▎    | 25435/48008 [3:39:12<3:14:09,  1.94it/s] 53%|█████▎    | 25436/48008 [3:39:12<3:09:57,  1.98it/s] 53%|█████▎    | 25437/48008 [3:39:13<3:07:38,  2.00it/s] 53%|█████▎    | 25438/48008 [3:39:13<3:12:39,  1.95it/s] 53%|█████▎    | 25439/48008 [3:39:14<3:13:51,  1.94it/s] 53%|█████▎    | 25440/48008 [3:39:14<3:10:27,  1.97it/s] 53%|█████▎    | 25441/48008 [3:39:15<3:10:32,  1.97it/s] 53%|█████▎    | 25442/48008 [3:39:15<3:07:24,  2.01it/s] 53%|█████▎    | 25443/48008 [3:39:16<3:05:36,  2.03it/s] 53%|█████▎    | 25444/48008 [3:39:16<3:04:41,  2.04it/s] 53%|█████▎    | 25445/48008 [3:39:16<3:03:30,  2.05it/s] 53%|█████▎    | 25446/48008 [3:39:17<3:02:19,  2.06it/s] 53%|█████▎    | 25447/48008 [3:39:17<3:02:02,  2.07it/s] 53%|█████▎    | 25448/48008 [3:39:18<3:01:55,  2.07it/s] 53%|█████▎    | 25449/48008 [3:39:18<3:04:29,  2.04it/s] 53%|█████▎    | 25450/48008 [3:39:19<3:24:41,  1.84it/s]                                                         {'loss': 4.2912, 'grad_norm': 0.09376726299524307, 'learning_rate': 9.39801699716714e-05, 'epoch': 0.53}
 53%|█████▎    | 25450/48008 [3:39:19<3:24:41,  1.84it/s] 53%|█████▎    | 25451/48008 [3:39:20<4:44:32,  1.32it/s] 53%|█████▎    | 25452/48008 [3:39:21<4:13:08,  1.49it/s] 53%|█████▎    | 25453/48008 [3:39:21<3:53:32,  1.61it/s] 53%|█████▎    | 25454/48008 [3:39:22<3:44:52,  1.67it/s] 53%|█████▎    | 25455/48008 [3:39:22<3:34:17,  1.75it/s] 53%|█████▎    | 25456/48008 [3:39:23<3:27:31,  1.81it/s] 53%|█████▎    | 25457/48008 [3:39:23<3:22:24,  1.86it/s] 53%|█████▎    | 25458/48008 [3:39:24<3:18:28,  1.89it/s] 53%|█████▎    | 25459/48008 [3:39:24<3:13:07,  1.95it/s] 53%|█████▎    | 25460/48008 [3:39:25<3:09:03,  1.99it/s] 53%|█████▎    | 25461/48008 [3:39:26<3:29:00,  1.80it/s] 53%|█████▎    | 25462/48008 [3:39:26<3:23:26,  1.85it/s] 53%|█████▎    | 25463/48008 [3:39:27<3:16:53,  1.91it/s] 53%|█████▎    | 25464/48008 [3:39:27<3:05:02,  2.03it/s] 53%|█████▎    | 25465/48008 [3:39:27<3:08:13,  2.00it/s] 53%|█████▎    | 25466/48008 [3:39:28<3:08:47,  1.99it/s] 53%|█████▎    | 25467/48008 [3:39:28<2:55:26,  2.14it/s] 53%|█████▎    | 25468/48008 [3:39:29<3:01:08,  2.07it/s] 53%|█████▎    | 25469/48008 [3:39:29<3:01:30,  2.07it/s] 53%|█████▎    | 25470/48008 [3:39:30<3:03:57,  2.04it/s] 53%|█████▎    | 25471/48008 [3:39:30<3:09:10,  1.99it/s] 53%|█████▎    | 25472/48008 [3:39:31<3:06:10,  2.02it/s] 53%|█████▎    | 25473/48008 [3:39:31<3:09:18,  1.98it/s] 53%|█████▎    | 25474/48008 [3:39:32<3:13:49,  1.94it/s] 53%|█████▎    | 25475/48008 [3:39:32<3:12:40,  1.95it/s] 53%|█████▎    | 25476/48008 [3:39:33<3:13:17,  1.94it/s] 53%|█████▎    | 25477/48008 [3:39:33<3:02:26,  2.06it/s] 53%|█████▎    | 25478/48008 [3:39:35<4:27:58,  1.40it/s] 53%|█████▎    | 25479/48008 [3:39:35<4:02:06,  1.55it/s] 53%|█████▎    | 25480/48008 [3:39:36<3:44:19,  1.67it/s] 53%|█████▎    | 25481/48008 [3:39:36<3:31:24,  1.78it/s] 53%|█████▎    | 25482/48008 [3:39:37<3:26:33,  1.82it/s] 53%|█████▎    | 25483/48008 [3:39:37<3:11:31,  1.96it/s] 53%|█████▎    | 25484/48008 [3:39:37<3:01:09,  2.07it/s] 53%|█████▎    | 25485/48008 [3:39:38<3:05:24,  2.02it/s] 53%|█████▎    | 25486/48008 [3:39:39<3:10:58,  1.97it/s] 53%|█████▎    | 25487/48008 [3:39:39<3:00:48,  2.08it/s] 53%|█████▎    | 25488/48008 [3:39:39<3:04:00,  2.04it/s] 53%|█████▎    | 25489/48008 [3:39:40<3:25:24,  1.83it/s] 53%|█████▎    | 25490/48008 [3:39:41<3:18:30,  1.89it/s] 53%|█████▎    | 25491/48008 [3:39:41<3:13:48,  1.94it/s] 53%|█████▎    | 25492/48008 [3:39:42<3:02:56,  2.05it/s] 53%|█████▎    | 25493/48008 [3:39:42<3:06:49,  2.01it/s] 53%|█████▎    | 25494/48008 [3:39:43<3:05:00,  2.03it/s] 53%|█████▎    | 25495/48008 [3:39:43<3:04:01,  2.04it/s] 53%|█████▎    | 25496/48008 [3:39:43<2:55:53,  2.13it/s] 53%|█████▎    | 25497/48008 [3:39:44<2:57:48,  2.11it/s] 53%|█████▎    | 25498/48008 [3:39:45<3:20:39,  1.87it/s] 53%|█████▎    | 25499/48008 [3:39:45<3:17:09,  1.90it/s] 53%|█████▎    | 25500/48008 [3:39:46<3:14:01,  1.93it/s]                                                         {'loss': 4.2657, 'grad_norm': 0.09872251003980637, 'learning_rate': 9.37718713547742e-05, 'epoch': 0.53}
 53%|█████▎    | 25500/48008 [3:39:46<3:14:01,  1.93it/s] 53%|█████▎    | 25501/48008 [3:39:46<3:17:06,  1.90it/s] 53%|█████▎    | 25502/48008 [3:39:47<3:04:54,  2.03it/s] 53%|█████▎    | 25503/48008 [3:39:47<3:05:38,  2.02it/s] 53%|█████▎    | 25504/48008 [3:39:47<2:56:22,  2.13it/s] 53%|█████▎    | 25505/48008 [3:39:48<2:58:09,  2.11it/s] 53%|█████▎    | 25506/48008 [3:39:48<2:59:08,  2.09it/s] 53%|█████▎    | 25507/48008 [3:39:49<2:59:37,  2.09it/s] 53%|█████▎    | 25508/48008 [3:39:49<3:06:41,  2.01it/s] 53%|█████▎    | 25509/48008 [3:39:50<3:05:12,  2.02it/s] 53%|█████▎    | 25510/48008 [3:39:50<3:06:00,  2.02it/s] 53%|█████▎    | 25511/48008 [3:39:51<2:56:44,  2.12it/s] 53%|█████▎    | 25512/48008 [3:39:51<2:49:52,  2.21it/s] 53%|█████▎    | 25513/48008 [3:39:52<2:46:04,  2.26it/s] 53%|█████▎    | 25514/48008 [3:39:52<2:50:01,  2.20it/s] 53%|█████▎    | 25515/48008 [3:39:53<2:53:01,  2.17it/s] 53%|█████▎    | 25516/48008 [3:39:53<2:55:25,  2.14it/s] 53%|█████▎    | 25517/48008 [3:39:54<2:49:56,  2.21it/s] 53%|█████▎    | 25518/48008 [3:39:54<2:55:43,  2.13it/s] 53%|█████▎    | 25519/48008 [3:39:55<3:03:02,  2.05it/s] 53%|█████▎    | 25520/48008 [3:39:55<3:06:56,  2.00it/s] 53%|█████▎    | 25521/48008 [3:39:56<3:07:56,  1.99it/s] 53%|█████▎    | 25522/48008 [3:39:56<3:05:57,  2.02it/s] 53%|█████▎    | 25523/48008 [3:39:57<2:56:31,  2.12it/s] 53%|█████▎    | 25524/48008 [3:39:57<3:00:24,  2.08it/s] 53%|█████▎    | 25525/48008 [3:39:57<2:53:00,  2.17it/s] 53%|█████▎    | 25526/48008 [3:39:58<2:58:00,  2.11it/s] 53%|█████▎    | 25527/48008 [3:39:58<2:51:38,  2.18it/s] 53%|█████▎    | 25528/48008 [3:39:59<2:54:54,  2.14it/s] 53%|█████▎    | 25529/48008 [3:39:59<2:49:30,  2.21it/s] 53%|█████▎    | 25530/48008 [3:40:00<2:53:06,  2.16it/s] 53%|█████▎    | 25531/48008 [3:40:00<2:55:06,  2.14it/s] 53%|█████▎    | 25532/48008 [3:40:01<3:03:26,  2.04it/s] 53%|█████▎    | 25533/48008 [3:40:01<3:02:23,  2.05it/s] 53%|█████▎    | 25534/48008 [3:40:02<3:04:12,  2.03it/s] 53%|█████▎    | 25535/48008 [3:40:02<3:03:22,  2.04it/s] 53%|█████▎    | 25536/48008 [3:40:03<3:02:09,  2.06it/s] 53%|█████▎    | 25537/48008 [3:40:03<3:01:47,  2.06it/s] 53%|█████▎    | 25538/48008 [3:40:04<3:01:12,  2.07it/s] 53%|█████▎    | 25539/48008 [3:40:04<3:22:42,  1.85it/s] 53%|█████▎    | 25540/48008 [3:40:05<3:16:19,  1.91it/s] 53%|█████▎    | 25541/48008 [3:40:05<3:15:30,  1.92it/s] 53%|█████▎    | 25542/48008 [3:40:06<3:11:22,  1.96it/s] 53%|█████▎    | 25543/48008 [3:40:06<3:10:56,  1.96it/s] 53%|█████▎    | 25544/48008 [3:40:07<3:07:59,  1.99it/s] 53%|█████▎    | 25545/48008 [3:40:07<2:58:00,  2.10it/s] 53%|█████▎    | 25546/48008 [3:40:08<3:00:56,  2.07it/s] 53%|█████▎    | 25547/48008 [3:40:08<3:01:01,  2.07it/s] 53%|█████▎    | 25548/48008 [3:40:09<3:01:09,  2.07it/s] 53%|█████▎    | 25549/48008 [3:40:09<3:01:08,  2.07it/s] 53%|█████▎    | 25550/48008 [3:40:10<3:07:32,  2.00it/s]                                                         {'loss': 4.2206, 'grad_norm': 0.09669774770736694, 'learning_rate': 9.356357273787702e-05, 'epoch': 0.53}
 53%|█████▎    | 25550/48008 [3:40:10<3:07:32,  2.00it/s] 53%|█████▎    | 25551/48008 [3:40:10<3:05:38,  2.02it/s] 53%|█████▎    | 25552/48008 [3:40:11<3:07:02,  2.00it/s] 53%|█████▎    | 25553/48008 [3:40:11<3:05:31,  2.02it/s] 53%|█████▎    | 25554/48008 [3:40:12<3:06:56,  2.00it/s] 53%|█████▎    | 25555/48008 [3:40:12<3:05:40,  2.02it/s] 53%|█████▎    | 25556/48008 [3:40:13<3:06:30,  2.01it/s] 53%|█████▎    | 25557/48008 [3:40:13<3:04:55,  2.02it/s] 53%|█████▎    | 25558/48008 [3:40:14<3:05:46,  2.01it/s] 53%|█████▎    | 25559/48008 [3:40:14<2:57:21,  2.11it/s] 53%|█████▎    | 25560/48008 [3:40:15<2:58:44,  2.09it/s] 53%|█████▎    | 25561/48008 [3:40:15<3:01:55,  2.06it/s] 53%|█████▎    | 25562/48008 [3:40:16<3:05:13,  2.02it/s] 53%|█████▎    | 25563/48008 [3:40:16<3:08:24,  1.99it/s] 53%|█████▎    | 25564/48008 [3:40:17<2:58:37,  2.09it/s] 53%|█████▎    | 25565/48008 [3:40:17<2:58:59,  2.09it/s] 53%|█████▎    | 25566/48008 [3:40:18<2:59:28,  2.08it/s] 53%|█████▎    | 25567/48008 [3:40:18<2:52:33,  2.17it/s] 53%|█████▎    | 25568/48008 [3:40:18<2:48:16,  2.22it/s] 53%|█████▎    | 25569/48008 [3:40:19<3:14:06,  1.93it/s] 53%|█████▎    | 25570/48008 [3:40:20<3:10:09,  1.97it/s] 53%|█████▎    | 25571/48008 [3:40:20<3:13:55,  1.93it/s] 53%|█████▎    | 25572/48008 [3:40:21<3:12:41,  1.94it/s] 53%|█████▎    | 25573/48008 [3:40:21<3:11:07,  1.96it/s] 53%|█████▎    | 25574/48008 [3:40:22<3:14:27,  1.92it/s] 53%|█████▎    | 25575/48008 [3:40:22<3:16:24,  1.90it/s] 53%|█████▎    | 25576/48008 [3:40:23<3:14:09,  1.93it/s] 53%|█████▎    | 25577/48008 [3:40:23<3:10:30,  1.96it/s] 53%|█████▎    | 25578/48008 [3:40:24<3:07:17,  2.00it/s] 53%|█████▎    | 25579/48008 [3:40:24<3:04:56,  2.02it/s] 53%|█████▎    | 25580/48008 [3:40:25<3:06:26,  2.00it/s] 53%|█████▎    | 25581/48008 [3:40:25<3:04:06,  2.03it/s] 53%|█████▎    | 25582/48008 [3:40:26<2:55:48,  2.13it/s] 53%|█████▎    | 25583/48008 [3:40:26<3:00:51,  2.07it/s] 53%|█████▎    | 25584/48008 [3:40:27<3:00:14,  2.07it/s] 53%|█████▎    | 25585/48008 [3:40:27<3:00:18,  2.07it/s] 53%|█████▎    | 25586/48008 [3:40:28<3:05:20,  2.02it/s] 53%|█████▎    | 25587/48008 [3:40:28<3:06:38,  2.00it/s] 53%|█████▎    | 25588/48008 [3:40:29<3:07:49,  1.99it/s] 53%|█████▎    | 25589/48008 [3:40:29<3:05:36,  2.01it/s] 53%|█████▎    | 25590/48008 [3:40:29<2:56:59,  2.11it/s] 53%|█████▎    | 25591/48008 [3:40:30<3:00:36,  2.07it/s] 53%|█████▎    | 25592/48008 [3:40:30<3:03:10,  2.04it/s] 53%|█████▎    | 25593/48008 [3:40:31<3:02:20,  2.05it/s] 53%|█████▎    | 25594/48008 [3:40:31<3:01:56,  2.05it/s] 53%|█████▎    | 25595/48008 [3:40:32<3:03:48,  2.03it/s] 53%|█████▎    | 25596/48008 [3:40:32<3:03:00,  2.04it/s] 53%|█████▎    | 25597/48008 [3:40:33<3:04:53,  2.02it/s] 53%|█████▎    | 25598/48008 [3:40:33<3:08:01,  1.99it/s] 53%|█████▎    | 25599/48008 [3:40:34<3:07:33,  1.99it/s] 53%|█████▎    | 25600/48008 [3:40:34<3:05:48,  2.01it/s]                                                         {'loss': 4.2676, 'grad_norm': 0.09618300199508667, 'learning_rate': 9.335527412097984e-05, 'epoch': 0.53}
 53%|█████▎    | 25600/48008 [3:40:34<3:05:48,  2.01it/s] 53%|█████▎    | 25601/48008 [3:40:35<3:04:03,  2.03it/s] 53%|█████▎    | 25602/48008 [3:40:35<2:55:07,  2.13it/s] 53%|█████▎    | 25603/48008 [3:40:36<2:49:17,  2.21it/s] 53%|█████▎    | 25604/48008 [3:40:36<2:52:52,  2.16it/s] 53%|█████▎    | 25605/48008 [3:40:37<2:59:49,  2.08it/s] 53%|█████▎    | 25606/48008 [3:40:37<3:02:26,  2.05it/s] 53%|█████▎    | 25607/48008 [3:40:38<2:53:59,  2.15it/s] 53%|█████▎    | 25608/48008 [3:40:38<2:48:41,  2.21it/s] 53%|█████▎    | 25609/48008 [3:40:39<2:52:24,  2.17it/s] 53%|█████▎    | 25610/48008 [3:40:39<2:47:29,  2.23it/s] 53%|█████▎    | 25611/48008 [3:40:40<2:53:26,  2.15it/s] 53%|█████▎    | 25612/48008 [3:40:40<3:16:49,  1.90it/s] 53%|█████▎    | 25613/48008 [3:40:41<3:14:20,  1.92it/s] 53%|█████▎    | 25614/48008 [3:40:41<3:10:07,  1.96it/s] 53%|█████▎    | 25615/48008 [3:40:42<3:29:03,  1.79it/s] 53%|█████▎    | 25616/48008 [3:40:42<3:20:37,  1.86it/s] 53%|█████▎    | 25617/48008 [3:40:43<3:06:49,  2.00it/s] 53%|█████▎    | 25618/48008 [3:40:43<3:04:26,  2.02it/s] 53%|█████▎    | 25619/48008 [3:40:44<2:55:56,  2.12it/s] 53%|█████▎    | 25620/48008 [3:40:44<2:50:04,  2.19it/s] 53%|█████▎    | 25621/48008 [3:40:45<2:52:37,  2.16it/s] 53%|█████▎    | 25622/48008 [3:40:45<3:38:40,  1.71it/s] 53%|█████▎    | 25623/48008 [3:40:46<3:30:41,  1.77it/s] 53%|█████▎    | 25624/48008 [3:40:46<3:13:48,  1.92it/s] 53%|█████▎    | 25625/48008 [3:40:47<3:09:51,  1.96it/s] 53%|█████▎    | 25626/48008 [3:40:47<3:06:24,  2.00it/s] 53%|█████▎    | 25627/48008 [3:40:48<3:04:02,  2.03it/s] 53%|█████▎    | 25628/48008 [3:40:48<3:09:37,  1.97it/s] 53%|█████▎    | 25629/48008 [3:40:49<3:09:15,  1.97it/s] 53%|█████▎    | 25630/48008 [3:40:50<3:28:30,  1.79it/s] 53%|█████▎    | 25631/48008 [3:40:50<3:19:44,  1.87it/s] 53%|█████▎    | 25632/48008 [3:40:51<3:19:41,  1.87it/s] 53%|█████▎    | 25633/48008 [3:40:51<3:13:59,  1.92it/s] 53%|█████▎    | 25634/48008 [3:40:52<3:14:33,  1.92it/s] 53%|█████▎    | 25635/48008 [3:40:52<3:14:44,  1.91it/s] 53%|█████▎    | 25636/48008 [3:40:53<4:35:53,  1.35it/s] 53%|█████▎    | 25637/48008 [3:40:54<4:11:09,  1.48it/s] 53%|█████▎    | 25638/48008 [3:40:54<3:55:56,  1.58it/s] 53%|█████▎    | 25639/48008 [3:40:55<3:43:09,  1.67it/s] 53%|█████▎    | 25640/48008 [3:40:55<3:30:04,  1.77it/s] 53%|█████▎    | 25641/48008 [3:40:56<3:20:50,  1.86it/s] 53%|█████▎    | 25642/48008 [3:40:56<3:20:59,  1.85it/s] 53%|█████▎    | 25643/48008 [3:40:57<3:14:32,  1.92it/s] 53%|█████▎    | 25644/48008 [3:40:57<3:14:04,  1.92it/s] 53%|█████▎    | 25645/48008 [3:40:58<3:09:52,  1.96it/s] 53%|█████▎    | 25646/48008 [3:40:58<3:11:22,  1.95it/s] 53%|█████▎    | 25647/48008 [3:40:59<3:14:08,  1.92it/s] 53%|█████▎    | 25648/48008 [3:40:59<3:12:40,  1.93it/s] 53%|█████▎    | 25649/48008 [3:41:00<3:09:12,  1.97it/s] 53%|█████▎    | 25650/48008 [3:41:00<2:59:06,  2.08it/s]                                                         {'loss': 4.2648, 'grad_norm': 0.11333248019218445, 'learning_rate': 9.314697550408266e-05, 'epoch': 0.53}
 53%|█████▎    | 25650/48008 [3:41:00<2:59:06,  2.08it/s] 53%|█████▎    | 25651/48008 [3:41:01<3:05:46,  2.01it/s] 53%|█████▎    | 25652/48008 [3:41:01<3:03:26,  2.03it/s] 53%|█████▎    | 25653/48008 [3:41:02<3:02:07,  2.05it/s] 53%|█████▎    | 25654/48008 [3:41:02<3:01:58,  2.05it/s] 53%|█████▎    | 25655/48008 [3:41:03<3:01:18,  2.05it/s] 53%|█████▎    | 25656/48008 [3:41:03<3:03:11,  2.03it/s] 53%|█████▎    | 25657/48008 [3:41:04<3:08:21,  1.98it/s] 53%|█████▎    | 25658/48008 [3:41:04<2:58:23,  2.09it/s] 53%|█████▎    | 25659/48008 [3:41:05<2:51:22,  2.17it/s] 53%|█████▎    | 25660/48008 [3:41:05<2:46:20,  2.24it/s] 53%|█████▎    | 25661/48008 [3:41:06<2:57:00,  2.10it/s] 53%|█████▎    | 25662/48008 [3:41:06<2:50:22,  2.19it/s] 53%|█████▎    | 25663/48008 [3:41:07<2:52:57,  2.15it/s] 53%|█████▎    | 25664/48008 [3:41:07<3:16:46,  1.89it/s] 53%|█████▎    | 25665/48008 [3:41:08<3:04:29,  2.02it/s] 53%|█████▎    | 25666/48008 [3:41:08<3:09:23,  1.97it/s] 53%|█████▎    | 25667/48008 [3:41:09<3:08:39,  1.97it/s] 53%|█████▎    | 25668/48008 [3:41:09<3:05:21,  2.01it/s] 53%|█████▎    | 25669/48008 [3:41:10<3:03:40,  2.03it/s] 53%|█████▎    | 25670/48008 [3:41:10<3:02:15,  2.04it/s] 53%|█████▎    | 25671/48008 [3:41:11<3:01:04,  2.06it/s] 53%|█████▎    | 25672/48008 [3:41:11<3:22:01,  1.84it/s] 53%|█████▎    | 25673/48008 [3:41:12<3:36:56,  1.72it/s] 53%|█████▎    | 25674/48008 [3:41:12<3:26:08,  1.81it/s] 53%|█████▎    | 25675/48008 [3:41:13<3:24:30,  1.82it/s] 53%|█████▎    | 25676/48008 [3:41:13<3:19:42,  1.86it/s] 53%|█████▎    | 25677/48008 [3:41:14<3:19:28,  1.87it/s] 53%|█████▎    | 25678/48008 [3:41:15<3:13:33,  1.92it/s] 53%|█████▎    | 25679/48008 [3:41:15<3:11:58,  1.94it/s] 53%|█████▎    | 25680/48008 [3:41:16<3:10:52,  1.95it/s] 53%|█████▎    | 25681/48008 [3:41:16<3:11:44,  1.94it/s] 53%|█████▎    | 25682/48008 [3:41:17<4:33:34,  1.36it/s] 53%|█████▎    | 25683/48008 [3:41:18<4:08:06,  1.50it/s] 53%|█████▎    | 25684/48008 [3:41:18<3:49:44,  1.62it/s] 54%|█████▎    | 25685/48008 [3:41:19<3:39:04,  1.70it/s] 54%|█████▎    | 25686/48008 [3:41:19<3:27:42,  1.79it/s] 54%|█████▎    | 25687/48008 [3:41:20<3:19:35,  1.86it/s] 54%|█████▎    | 25688/48008 [3:41:20<3:05:58,  2.00it/s] 54%|█████▎    | 25689/48008 [3:41:21<3:06:16,  2.00it/s] 54%|█████▎    | 25690/48008 [3:41:21<3:06:32,  1.99it/s] 54%|█████▎    | 25691/48008 [3:41:22<3:04:14,  2.02it/s] 54%|█████▎    | 25692/48008 [3:41:22<3:05:43,  2.00it/s] 54%|█████▎    | 25693/48008 [3:41:23<3:08:06,  1.98it/s] 54%|█████▎    | 25694/48008 [3:41:23<3:05:49,  2.00it/s] 54%|█████▎    | 25695/48008 [3:41:24<3:04:11,  2.02it/s] 54%|█████▎    | 25696/48008 [3:41:24<3:06:45,  1.99it/s] 54%|█████▎    | 25697/48008 [3:41:25<3:04:13,  2.02it/s] 54%|█████▎    | 25698/48008 [3:41:25<3:02:42,  2.04it/s] 54%|█████▎    | 25699/48008 [3:41:26<3:02:11,  2.04it/s] 54%|█████▎    | 25700/48008 [3:41:26<3:07:39,  1.98it/s]                                                         {'loss': 4.2926, 'grad_norm': 0.269523948431015, 'learning_rate': 9.293867688718547e-05, 'epoch': 0.54}
 54%|█████▎    | 25700/48008 [3:41:26<3:07:39,  1.98it/s] 54%|█████▎    | 25701/48008 [3:41:27<3:04:46,  2.01it/s] 54%|█████▎    | 25702/48008 [3:41:27<3:02:59,  2.03it/s] 54%|█████▎    | 25703/48008 [3:41:28<3:06:05,  2.00it/s] 54%|█████▎    | 25704/48008 [3:41:28<3:11:16,  1.94it/s] 54%|█████▎    | 25705/48008 [3:41:29<3:13:53,  1.92it/s] 54%|█████▎    | 25706/48008 [3:41:29<3:02:13,  2.04it/s] 54%|█████▎    | 25707/48008 [3:41:30<3:01:09,  2.05it/s] 54%|█████▎    | 25708/48008 [3:41:30<3:04:36,  2.01it/s] 54%|█████▎    | 25709/48008 [3:41:31<3:07:08,  1.99it/s] 54%|█████▎    | 25710/48008 [3:41:31<3:26:07,  1.80it/s] 54%|█████▎    | 25711/48008 [3:41:32<3:18:21,  1.87it/s] 54%|█████▎    | 25712/48008 [3:41:32<3:15:02,  1.91it/s] 54%|█████▎    | 25713/48008 [3:41:33<3:17:02,  1.89it/s] 54%|█████▎    | 25714/48008 [3:41:33<3:11:47,  1.94it/s] 54%|█████▎    | 25715/48008 [3:41:34<3:10:35,  1.95it/s] 54%|█████▎    | 25716/48008 [3:41:34<2:59:40,  2.07it/s] 54%|█████▎    | 25717/48008 [3:41:35<3:02:10,  2.04it/s] 54%|█████▎    | 25718/48008 [3:41:35<3:01:06,  2.05it/s] 54%|█████▎    | 25719/48008 [3:41:36<2:52:49,  2.15it/s] 54%|█████▎    | 25720/48008 [3:41:36<3:00:27,  2.06it/s] 54%|█████▎    | 25721/48008 [3:41:37<2:59:27,  2.07it/s] 54%|█████▎    | 25722/48008 [3:41:37<3:01:40,  2.04it/s] 54%|█████▎    | 25723/48008 [3:41:38<4:27:40,  1.39it/s] 54%|█████▎    | 25724/48008 [3:41:39<4:01:34,  1.54it/s] 54%|█████▎    | 25725/48008 [3:41:39<3:46:53,  1.64it/s] 54%|█████▎    | 25726/48008 [3:41:40<3:25:01,  1.81it/s] 54%|█████▎    | 25727/48008 [3:41:40<3:16:40,  1.89it/s] 54%|█████▎    | 25728/48008 [3:41:41<3:11:40,  1.94it/s] 54%|█████▎    | 25729/48008 [3:41:41<3:10:10,  1.95it/s] 54%|█████▎    | 25730/48008 [3:41:42<3:09:10,  1.96it/s] 54%|█████▎    | 25731/48008 [3:41:42<3:12:24,  1.93it/s] 54%|█████▎    | 25732/48008 [3:41:43<3:08:40,  1.97it/s] 54%|█████▎    | 25733/48008 [3:41:43<3:08:32,  1.97it/s] 54%|█████▎    | 25734/48008 [3:41:44<3:09:39,  1.96it/s] 54%|█████▎    | 25735/48008 [3:41:44<3:06:04,  1.99it/s] 54%|█████▎    | 25736/48008 [3:41:46<4:44:58,  1.30it/s] 54%|█████▎    | 25737/48008 [3:41:46<4:13:14,  1.47it/s] 54%|█████▎    | 25738/48008 [3:41:47<3:55:11,  1.58it/s] 54%|█████▎    | 25739/48008 [3:41:47<3:38:16,  1.70it/s] 54%|█████▎    | 25740/48008 [3:41:48<3:26:10,  1.80it/s] 54%|█████▎    | 25741/48008 [3:41:48<3:24:16,  1.82it/s] 54%|█████▎    | 25742/48008 [3:41:50<5:00:50,  1.23it/s] 54%|█████▎    | 25743/48008 [3:41:50<4:26:50,  1.39it/s] 54%|█████▎    | 25744/48008 [3:41:51<4:02:52,  1.53it/s] 54%|█████▎    | 25745/48008 [3:41:51<3:36:31,  1.71it/s] 54%|█████▎    | 25746/48008 [3:41:52<4:50:41,  1.28it/s] 54%|█████▎    | 25747/48008 [3:41:53<4:16:36,  1.45it/s] 54%|█████▎    | 25748/48008 [3:41:54<5:31:10,  1.12it/s] 54%|█████▎    | 25749/48008 [3:41:55<4:45:27,  1.30it/s] 54%|█████▎    | 25750/48008 [3:41:55<4:13:14,  1.46it/s]                                                         {'loss': 4.2444, 'grad_norm': 0.24758580327033997, 'learning_rate': 9.273037827028829e-05, 'epoch': 0.54} 54%|█████▎    | 25750/48008 [3:41:55<4:13:14,  1.46it/s]
 54%|█████▎    | 25751/48008 [3:41:56<3:53:49,  1.59it/s] 54%|█████▎    | 25752/48008 [3:41:56<3:37:32,  1.71it/s] 54%|█████▎    | 25753/48008 [3:41:57<3:26:18,  1.80it/s] 54%|█████▎    | 25754/48008 [3:41:58<4:32:22,  1.36it/s] 54%|█████▎    | 25755/48008 [3:41:58<4:04:07,  1.52it/s] 54%|█████▎    | 25756/48008 [3:41:59<3:37:29,  1.71it/s] 54%|█████▎    | 25757/48008 [3:41:59<3:18:54,  1.86it/s] 54%|█████▎    | 25758/48008 [3:42:00<3:13:11,  1.92it/s] 54%|█████▎    | 25759/48008 [3:42:00<3:10:53,  1.94it/s] 54%|█████▎    | 25760/48008 [3:42:01<3:07:16,  1.98it/s] 54%|█████▎    | 25761/48008 [3:42:01<3:05:02,  2.00it/s] 54%|█████▎    | 25762/48008 [3:42:02<3:03:13,  2.02it/s] 54%|█████▎    | 25763/48008 [3:42:02<3:01:43,  2.04it/s] 54%|█████▎    | 25764/48008 [3:42:02<2:53:19,  2.14it/s] 54%|█████▎    | 25765/48008 [3:42:03<3:16:13,  1.89it/s] 54%|█████▎    | 25766/48008 [3:42:04<3:04:10,  2.01it/s] 54%|█████▎    | 25767/48008 [3:42:04<3:05:21,  2.00it/s] 54%|█████▎    | 25768/48008 [3:42:05<3:07:58,  1.97it/s] 54%|█████▎    | 25769/48008 [3:42:05<3:04:22,  2.01it/s] 54%|█████▎    | 25770/48008 [3:42:05<2:55:25,  2.11it/s] 54%|█████▎    | 25771/48008 [3:42:06<2:58:33,  2.08it/s] 54%|█████▎    | 25772/48008 [3:42:07<3:42:11,  1.67it/s] 54%|█████▎    | 25773/48008 [3:42:07<3:28:45,  1.78it/s] 54%|█████▎    | 25774/48008 [3:42:08<3:24:03,  1.82it/s] 54%|█████▎    | 25775/48008 [3:42:08<3:16:22,  1.89it/s] 54%|█████▎    | 25776/48008 [3:42:09<3:03:40,  2.02it/s] 54%|█████▎    | 25777/48008 [3:42:09<3:02:26,  2.03it/s] 54%|█████▎    | 25778/48008 [3:42:10<3:05:42,  2.00it/s] 54%|█████▎    | 25779/48008 [3:42:10<3:03:18,  2.02it/s] 54%|█████▎    | 25780/48008 [3:42:11<2:54:54,  2.12it/s] 54%|█████▎    | 25781/48008 [3:42:11<3:17:11,  1.88it/s] 54%|█████▎    | 25782/48008 [3:42:12<3:04:06,  2.01it/s] 54%|█████▎    | 25783/48008 [3:42:12<3:05:41,  1.99it/s] 54%|█████▎    | 25784/48008 [3:42:13<3:08:16,  1.97it/s] 54%|█████▎    | 25785/48008 [3:42:13<3:07:57,  1.97it/s] 54%|█████▎    | 25786/48008 [3:42:14<3:05:16,  2.00it/s] 54%|█████▎    | 25787/48008 [3:42:14<3:03:03,  2.02it/s] 54%|█████▎    | 25788/48008 [3:42:15<3:01:55,  2.04it/s] 54%|█████▎    | 25789/48008 [3:42:15<3:06:05,  1.99it/s] 54%|█████▎    | 25790/48008 [3:42:16<3:06:19,  1.99it/s] 54%|█████▎    | 25791/48008 [3:42:16<3:06:07,  1.99it/s] 54%|█████▎    | 25792/48008 [3:42:17<3:06:33,  1.98it/s] 54%|█████▎    | 25793/48008 [3:42:17<3:04:02,  2.01it/s] 54%|█████▎    | 25794/48008 [3:42:18<2:54:36,  2.12it/s] 54%|█████▎    | 25795/48008 [3:42:18<2:55:20,  2.11it/s] 54%|█████▎    | 25796/48008 [3:42:19<3:18:01,  1.87it/s] 54%|█████▎    | 25797/48008 [3:42:19<3:18:44,  1.86it/s] 54%|█████▎    | 25798/48008 [3:42:20<3:15:25,  1.89it/s] 54%|█████▎    | 25799/48008 [3:42:20<3:16:16,  1.89it/s] 54%|█████▎    | 25800/48008 [3:42:21<3:54:28,  1.58it/s]                                                         {'loss': 4.2672, 'grad_norm': 0.34313443303108215, 'learning_rate': 9.252207965339111e-05, 'epoch': 0.54}
 54%|█████▎    | 25800/48008 [3:42:21<3:54:28,  1.58it/s] 54%|█████▎    | 25801/48008 [3:42:22<3:58:46,  1.55it/s] 54%|█████▎    | 25802/48008 [3:42:22<3:42:51,  1.66it/s] 54%|█████▎    | 25803/48008 [3:42:23<3:28:55,  1.77it/s] 54%|█████▎    | 25804/48008 [3:42:23<3:19:20,  1.86it/s] 54%|█████▍    | 25805/48008 [3:42:24<3:19:22,  1.86it/s] 54%|█████▍    | 25806/48008 [3:42:24<3:13:04,  1.92it/s] 54%|█████▍    | 25807/48008 [3:42:25<3:08:16,  1.97it/s] 54%|█████▍    | 25808/48008 [3:42:26<3:26:23,  1.79it/s] 54%|█████▍    | 25809/48008 [3:42:26<3:20:22,  1.85it/s] 54%|█████▍    | 25810/48008 [3:42:27<3:13:45,  1.91it/s] 54%|█████▍    | 25811/48008 [3:42:27<3:09:01,  1.96it/s] 54%|█████▍    | 25812/48008 [3:42:28<3:05:47,  1.99it/s] 54%|█████▍    | 25813/48008 [3:42:28<3:02:57,  2.02it/s] 54%|█████▍    | 25814/48008 [3:42:29<3:07:43,  1.97it/s] 54%|█████▍    | 25815/48008 [3:42:29<3:07:45,  1.97it/s] 54%|█████▍    | 25816/48008 [3:42:30<4:29:43,  1.37it/s] 54%|█████▍    | 25817/48008 [3:42:31<4:04:41,  1.51it/s] 54%|█████▍    | 25818/48008 [3:42:31<3:44:39,  1.65it/s] 54%|█████▍    | 25819/48008 [3:42:32<3:30:33,  1.76it/s] 54%|█████▍    | 25820/48008 [3:42:32<3:42:32,  1.66it/s] 54%|█████▍    | 25821/48008 [3:42:33<3:21:56,  1.83it/s] 54%|█████▍    | 25822/48008 [3:42:33<3:07:21,  1.97it/s] 54%|█████▍    | 25823/48008 [3:42:34<3:04:36,  2.00it/s] 54%|█████▍    | 25824/48008 [3:42:34<3:05:11,  2.00it/s] 54%|█████▍    | 25825/48008 [3:42:35<3:05:24,  1.99it/s] 54%|█████▍    | 25826/48008 [3:42:35<2:56:07,  2.10it/s] 54%|█████▍    | 25827/48008 [3:42:36<2:49:25,  2.18it/s] 54%|█████▍    | 25828/48008 [3:42:36<2:52:00,  2.15it/s] 54%|█████▍    | 25829/48008 [3:42:37<2:53:29,  2.13it/s] 54%|█████▍    | 25830/48008 [3:42:37<2:47:36,  2.21it/s] 54%|█████▍    | 25831/48008 [3:42:38<2:57:33,  2.08it/s] 54%|█████▍    | 25832/48008 [3:42:38<3:00:08,  2.05it/s] 54%|█████▍    | 25833/48008 [3:42:39<3:02:15,  2.03it/s] 54%|█████▍    | 25834/48008 [3:42:39<3:00:39,  2.05it/s] 54%|█████▍    | 25835/48008 [3:42:40<3:21:14,  1.84it/s] 54%|█████▍    | 25836/48008 [3:42:40<3:14:07,  1.90it/s] 54%|█████▍    | 25837/48008 [3:42:41<3:02:13,  2.03it/s] 54%|█████▍    | 25838/48008 [3:42:41<3:04:04,  2.01it/s] 54%|█████▍    | 25839/48008 [3:42:42<3:09:00,  1.95it/s] 54%|█████▍    | 25840/48008 [3:42:42<3:08:37,  1.96it/s] 54%|█████▍    | 25841/48008 [3:42:43<3:26:35,  1.79it/s] 54%|█████▍    | 25842/48008 [3:42:43<3:10:49,  1.94it/s] 54%|█████▍    | 25843/48008 [3:42:44<2:59:22,  2.06it/s] 54%|█████▍    | 25844/48008 [3:42:44<3:03:02,  2.02it/s] 54%|█████▍    | 25845/48008 [3:42:45<3:01:42,  2.03it/s] 54%|█████▍    | 25846/48008 [3:42:45<3:00:42,  2.04it/s] 54%|█████▍    | 25847/48008 [3:42:46<3:04:12,  2.01it/s] 54%|█████▍    | 25848/48008 [3:42:46<3:02:33,  2.02it/s] 54%|█████▍    | 25849/48008 [3:42:47<3:00:56,  2.04it/s] 54%|█████▍    | 25850/48008 [3:42:47<3:00:27,  2.05it/s]                                                         {'loss': 4.2885, 'grad_norm': 0.42983436584472656, 'learning_rate': 9.231378103649391e-05, 'epoch': 0.54}
 54%|█████▍    | 25850/48008 [3:42:47<3:00:27,  2.05it/s] 54%|█████▍    | 25851/48008 [3:42:48<3:02:14,  2.03it/s] 54%|█████▍    | 25852/48008 [3:42:48<3:04:36,  2.00it/s] 54%|█████▍    | 25853/48008 [3:42:49<3:02:13,  2.03it/s] 54%|█████▍    | 25854/48008 [3:42:49<3:00:59,  2.04it/s] 54%|█████▍    | 25855/48008 [3:42:50<3:00:29,  2.05it/s] 54%|█████▍    | 25856/48008 [3:42:50<2:59:43,  2.05it/s] 54%|█████▍    | 25857/48008 [3:42:51<3:03:22,  2.01it/s] 54%|█████▍    | 25858/48008 [3:42:51<3:02:06,  2.03it/s] 54%|█████▍    | 25859/48008 [3:42:52<3:03:15,  2.01it/s] 54%|█████▍    | 25860/48008 [3:42:52<3:01:46,  2.03it/s] 54%|█████▍    | 25861/48008 [3:42:53<3:21:47,  1.83it/s] 54%|█████▍    | 25862/48008 [3:42:53<3:14:42,  1.90it/s] 54%|█████▍    | 25863/48008 [3:42:54<3:02:37,  2.02it/s] 54%|█████▍    | 25864/48008 [3:42:54<3:08:00,  1.96it/s] 54%|█████▍    | 25865/48008 [3:42:55<4:30:50,  1.36it/s] 54%|█████▍    | 25866/48008 [3:42:56<4:03:06,  1.52it/s] 54%|█████▍    | 25867/48008 [3:42:56<3:43:44,  1.65it/s] 54%|█████▍    | 25868/48008 [3:42:57<3:36:41,  1.70it/s] 54%|█████▍    | 25869/48008 [3:42:57<3:13:53,  1.90it/s] 54%|█████▍    | 25870/48008 [3:42:58<3:08:55,  1.95it/s] 54%|█████▍    | 25871/48008 [3:42:58<3:05:37,  1.99it/s] 54%|█████▍    | 25872/48008 [3:42:59<3:03:05,  2.02it/s] 54%|█████▍    | 25873/48008 [3:42:59<3:01:53,  2.03it/s] 54%|█████▍    | 25874/48008 [3:43:00<3:00:31,  2.04it/s] 54%|█████▍    | 25875/48008 [3:43:00<2:52:47,  2.13it/s] 54%|█████▍    | 25876/48008 [3:43:01<2:54:11,  2.12it/s] 54%|█████▍    | 25877/48008 [3:43:01<2:48:06,  2.19it/s] 54%|█████▍    | 25878/48008 [3:43:02<2:57:15,  2.08it/s] 54%|█████▍    | 25879/48008 [3:43:02<3:01:24,  2.03it/s] 54%|█████▍    | 25880/48008 [3:43:03<3:00:44,  2.04it/s] 54%|█████▍    | 25881/48008 [3:43:03<3:02:06,  2.03it/s] 54%|█████▍    | 25882/48008 [3:43:04<3:00:46,  2.04it/s] 54%|█████▍    | 25883/48008 [3:43:04<3:00:08,  2.05it/s] 54%|█████▍    | 25884/48008 [3:43:05<3:01:25,  2.03it/s] 54%|█████▍    | 25885/48008 [3:43:05<3:00:54,  2.04it/s] 54%|█████▍    | 25886/48008 [3:43:06<3:06:25,  1.98it/s] 54%|█████▍    | 25887/48008 [3:43:06<2:56:37,  2.09it/s] 54%|█████▍    | 25888/48008 [3:43:06<2:56:58,  2.08it/s] 54%|█████▍    | 25889/48008 [3:43:07<2:59:41,  2.05it/s] 54%|█████▍    | 25890/48008 [3:43:07<2:51:49,  2.15it/s] 54%|█████▍    | 25891/48008 [3:43:08<3:00:30,  2.04it/s] 54%|█████▍    | 25892/48008 [3:43:08<3:02:09,  2.02it/s] 54%|█████▍    | 25893/48008 [3:43:09<2:49:43,  2.17it/s] 54%|█████▍    | 25894/48008 [3:43:09<2:55:12,  2.10it/s] 54%|█████▍    | 25895/48008 [3:43:10<2:58:08,  2.07it/s] 54%|█████▍    | 25896/48008 [3:43:10<3:00:36,  2.04it/s] 54%|█████▍    | 25897/48008 [3:43:11<2:53:01,  2.13it/s] 54%|█████▍    | 25898/48008 [3:43:11<2:47:27,  2.20it/s] 54%|█████▍    | 25899/48008 [3:43:12<2:56:03,  2.09it/s] 54%|█████▍    | 25900/48008 [3:43:12<3:00:10,  2.05it/s]                                                         {'loss': 4.2315, 'grad_norm': 0.23226407170295715, 'learning_rate': 9.210548241959673e-05, 'epoch': 0.54}
 54%|█████▍    | 25900/48008 [3:43:12<3:00:10,  2.05it/s] 54%|█████▍    | 25901/48008 [3:43:13<2:52:27,  2.14it/s] 54%|█████▍    | 25902/48008 [3:43:13<2:54:31,  2.11it/s] 54%|█████▍    | 25903/48008 [3:43:14<2:58:11,  2.07it/s] 54%|█████▍    | 25904/48008 [3:43:14<2:47:14,  2.20it/s] 54%|█████▍    | 25905/48008 [3:43:14<2:43:31,  2.25it/s] 54%|█████▍    | 25906/48008 [3:43:15<2:51:35,  2.15it/s] 54%|█████▍    | 25907/48008 [3:43:16<2:58:43,  2.06it/s] 54%|█████▍    | 25908/48008 [3:43:16<3:02:13,  2.02it/s] 54%|█████▍    | 25909/48008 [3:43:17<3:00:59,  2.04it/s] 54%|█████▍    | 25910/48008 [3:43:17<3:01:50,  2.03it/s] 54%|█████▍    | 25911/48008 [3:43:18<3:03:09,  2.01it/s] 54%|█████▍    | 25912/48008 [3:43:18<3:01:06,  2.03it/s] 54%|█████▍    | 25913/48008 [3:43:18<2:52:08,  2.14it/s] 54%|█████▍    | 25914/48008 [3:43:19<2:46:44,  2.21it/s] 54%|█████▍    | 25915/48008 [3:43:19<2:50:15,  2.16it/s] 54%|█████▍    | 25916/48008 [3:43:20<2:56:49,  2.08it/s] 54%|█████▍    | 25917/48008 [3:43:20<2:59:17,  2.05it/s] 54%|█████▍    | 25918/48008 [3:43:21<2:51:54,  2.14it/s] 54%|█████▍    | 25919/48008 [3:43:21<2:55:53,  2.09it/s] 54%|█████▍    | 25920/48008 [3:43:22<3:40:33,  1.67it/s] 54%|█████▍    | 25921/48008 [3:43:23<3:30:27,  1.75it/s] 54%|█████▍    | 25922/48008 [3:43:23<3:23:32,  1.81it/s] 54%|█████▍    | 25923/48008 [3:43:24<3:19:23,  1.85it/s] 54%|█████▍    | 25924/48008 [3:43:24<3:12:07,  1.92it/s] 54%|█████▍    | 25925/48008 [3:43:25<4:32:08,  1.35it/s] 54%|█████▍    | 25926/48008 [3:43:26<4:06:02,  1.50it/s] 54%|█████▍    | 25927/48008 [3:43:26<3:47:47,  1.62it/s] 54%|█████▍    | 25928/48008 [3:43:28<4:57:46,  1.24it/s] 54%|█████▍    | 25929/48008 [3:43:28<4:24:52,  1.39it/s] 54%|█████▍    | 25930/48008 [3:43:29<3:58:38,  1.54it/s] 54%|█████▍    | 25931/48008 [3:43:29<3:33:00,  1.73it/s] 54%|█████▍    | 25932/48008 [3:43:30<3:22:20,  1.82it/s] 54%|█████▍    | 25933/48008 [3:43:30<3:14:48,  1.89it/s] 54%|█████▍    | 25934/48008 [3:43:31<3:16:16,  1.87it/s] 54%|█████▍    | 25935/48008 [3:43:31<3:03:38,  2.00it/s] 54%|█████▍    | 25936/48008 [3:43:31<2:54:46,  2.10it/s] 54%|█████▍    | 25937/48008 [3:43:32<3:02:17,  2.02it/s] 54%|█████▍    | 25938/48008 [3:43:32<3:01:04,  2.03it/s] 54%|█████▍    | 25939/48008 [3:43:33<3:02:42,  2.01it/s] 54%|█████▍    | 25940/48008 [3:43:33<3:05:21,  1.98it/s] 54%|█████▍    | 25941/48008 [3:43:34<3:03:09,  2.01it/s] 54%|█████▍    | 25942/48008 [3:43:34<3:01:14,  2.03it/s] 54%|█████▍    | 25943/48008 [3:43:35<2:53:13,  2.12it/s] 54%|█████▍    | 25944/48008 [3:43:35<2:57:20,  2.07it/s] 54%|█████▍    | 25945/48008 [3:43:36<2:50:19,  2.16it/s] 54%|█████▍    | 25946/48008 [3:43:36<2:55:06,  2.10it/s] 54%|█████▍    | 25947/48008 [3:43:37<2:56:08,  2.09it/s] 54%|█████▍    | 25948/48008 [3:43:37<2:56:55,  2.08it/s] 54%|█████▍    | 25949/48008 [3:43:38<3:01:39,  2.02it/s] 54%|█████▍    | 25950/48008 [3:43:38<3:02:21,  2.02it/s]                                                         {'loss': 4.27, 'grad_norm': 0.4195554256439209, 'learning_rate': 9.189718380269955e-05, 'epoch': 0.54}
 54%|█████▍    | 25950/48008 [3:43:38<3:02:21,  2.02it/s] 54%|█████▍    | 25951/48008 [3:43:39<3:05:05,  1.99it/s] 54%|█████▍    | 25952/48008 [3:43:39<2:55:46,  2.09it/s] 54%|█████▍    | 25953/48008 [3:43:40<2:55:50,  2.09it/s] 54%|█████▍    | 25954/48008 [3:43:40<3:01:01,  2.03it/s] 54%|█████▍    | 25955/48008 [3:43:41<3:00:05,  2.04it/s] 54%|█████▍    | 25956/48008 [3:43:41<3:06:21,  1.97it/s] 54%|█████▍    | 25957/48008 [3:43:42<3:07:05,  1.96it/s] 54%|█████▍    | 25958/48008 [3:43:42<3:04:09,  2.00it/s] 54%|█████▍    | 25959/48008 [3:43:43<2:54:49,  2.10it/s] 54%|█████▍    | 25960/48008 [3:43:43<2:55:56,  2.09it/s] 54%|█████▍    | 25961/48008 [3:43:44<2:48:52,  2.18it/s] 54%|█████▍    | 25962/48008 [3:43:44<2:44:18,  2.24it/s] 54%|█████▍    | 25963/48008 [3:43:44<2:48:31,  2.18it/s] 54%|█████▍    | 25964/48008 [3:43:45<2:51:25,  2.14it/s] 54%|█████▍    | 25965/48008 [3:43:45<2:55:59,  2.09it/s] 54%|█████▍    | 25966/48008 [3:43:46<2:56:02,  2.09it/s] 54%|█████▍    | 25967/48008 [3:43:46<2:55:58,  2.09it/s] 54%|█████▍    | 25968/48008 [3:43:47<2:58:54,  2.05it/s] 54%|█████▍    | 25969/48008 [3:43:47<3:04:58,  1.99it/s] 54%|█████▍    | 25970/48008 [3:43:48<3:04:45,  1.99it/s] 54%|█████▍    | 25971/48008 [3:43:48<3:02:47,  2.01it/s] 54%|█████▍    | 25972/48008 [3:43:49<3:05:02,  1.98it/s] 54%|█████▍    | 25973/48008 [3:43:49<2:55:37,  2.09it/s] 54%|█████▍    | 25974/48008 [3:43:50<2:55:59,  2.09it/s] 54%|█████▍    | 25975/48008 [3:43:51<4:20:35,  1.41it/s] 54%|█████▍    | 25976/48008 [3:43:52<3:55:25,  1.56it/s] 54%|█████▍    | 25977/48008 [3:43:52<3:44:37,  1.63it/s] 54%|█████▍    | 25978/48008 [3:43:53<3:32:45,  1.73it/s] 54%|█████▍    | 25979/48008 [3:43:53<3:15:05,  1.88it/s] 54%|█████▍    | 25980/48008 [3:43:54<3:14:32,  1.89it/s] 54%|█████▍    | 25981/48008 [3:43:54<3:11:52,  1.91it/s] 54%|█████▍    | 25982/48008 [3:43:55<3:07:09,  1.96it/s] 54%|█████▍    | 25983/48008 [3:43:55<3:06:37,  1.97it/s] 54%|█████▍    | 25984/48008 [3:43:56<3:10:36,  1.93it/s] 54%|█████▍    | 25985/48008 [3:43:56<2:59:29,  2.04it/s] 54%|█████▍    | 25986/48008 [3:43:57<3:01:26,  2.02it/s] 54%|█████▍    | 25987/48008 [3:43:57<3:02:28,  2.01it/s] 54%|█████▍    | 25988/48008 [3:43:58<3:03:27,  2.00it/s] 54%|█████▍    | 25989/48008 [3:43:58<2:54:23,  2.10it/s] 54%|█████▍    | 25990/48008 [3:43:59<2:59:17,  2.05it/s] 54%|█████▍    | 25991/48008 [3:43:59<3:01:02,  2.03it/s] 54%|█████▍    | 25992/48008 [3:43:59<2:48:50,  2.17it/s] 54%|█████▍    | 25993/48008 [3:44:00<2:53:25,  2.12it/s] 54%|█████▍    | 25994/48008 [3:44:00<2:56:49,  2.07it/s] 54%|█████▍    | 25995/48008 [3:44:01<2:57:38,  2.07it/s] 54%|█████▍    | 25996/48008 [3:44:02<3:41:57,  1.65it/s] 54%|█████▍    | 25997/48008 [3:44:02<3:32:34,  1.73it/s] 54%|█████▍    | 25998/48008 [3:44:03<3:25:01,  1.79it/s] 54%|█████▍    | 25999/48008 [3:44:03<3:09:48,  1.93it/s] 54%|█████▍    | 26000/48008 [3:44:04<2:58:34,  2.05it/s]                                                         {'loss': 4.274, 'grad_norm': 0.31287431716918945, 'learning_rate': 9.168888518580238e-05, 'epoch': 0.54}
 54%|█████▍    | 26000/48008 [3:44:04<2:58:34,  2.05it/s] 54%|█████▍    | 26001/48008 [3:44:04<2:57:48,  2.06it/s] 54%|█████▍    | 26002/48008 [3:44:05<2:57:52,  2.06it/s] 54%|█████▍    | 26003/48008 [3:44:05<2:58:10,  2.06it/s] 54%|█████▍    | 26004/48008 [3:44:06<2:57:58,  2.06it/s] 54%|█████▍    | 26005/48008 [3:44:06<2:57:36,  2.06it/s] 54%|█████▍    | 26006/48008 [3:44:07<2:57:40,  2.06it/s] 54%|█████▍    | 26007/48008 [3:44:07<2:57:45,  2.06it/s] 54%|█████▍    | 26008/48008 [3:44:07<2:50:25,  2.15it/s] 54%|█████▍    | 26009/48008 [3:44:08<2:52:33,  2.12it/s] 54%|█████▍    | 26010/48008 [3:44:08<2:53:16,  2.12it/s] 54%|█████▍    | 26011/48008 [3:44:09<3:01:11,  2.02it/s] 54%|█████▍    | 26012/48008 [3:44:09<3:02:09,  2.01it/s] 54%|█████▍    | 26013/48008 [3:44:10<3:01:00,  2.03it/s] 54%|█████▍    | 26014/48008 [3:44:10<2:52:44,  2.12it/s] 54%|█████▍    | 26015/48008 [3:44:11<2:56:49,  2.07it/s] 54%|█████▍    | 26016/48008 [3:44:11<2:59:18,  2.04it/s] 54%|█████▍    | 26017/48008 [3:44:12<3:01:32,  2.02it/s] 54%|█████▍    | 26018/48008 [3:44:12<3:00:43,  2.03it/s] 54%|█████▍    | 26019/48008 [3:44:13<3:06:45,  1.96it/s] 54%|█████▍    | 26020/48008 [3:44:13<3:03:48,  1.99it/s] 54%|█████▍    | 26021/48008 [3:44:14<3:02:14,  2.01it/s] 54%|█████▍    | 26022/48008 [3:44:14<3:01:00,  2.02it/s] 54%|█████▍    | 26023/48008 [3:44:15<3:04:32,  1.99it/s] 54%|█████▍    | 26024/48008 [3:44:15<3:06:11,  1.97it/s] 54%|█████▍    | 26025/48008 [3:44:16<3:08:13,  1.95it/s] 54%|█████▍    | 26026/48008 [3:44:16<2:58:01,  2.06it/s] 54%|█████▍    | 26027/48008 [3:44:17<2:59:34,  2.04it/s] 54%|█████▍    | 26028/48008 [3:44:17<2:51:53,  2.13it/s] 54%|█████▍    | 26029/48008 [3:44:18<3:37:42,  1.68it/s] 54%|█████▍    | 26030/48008 [3:44:19<3:25:35,  1.78it/s] 54%|█████▍    | 26031/48008 [3:44:19<3:10:02,  1.93it/s] 54%|█████▍    | 26032/48008 [3:44:20<3:08:56,  1.94it/s] 54%|█████▍    | 26033/48008 [3:44:20<3:05:07,  1.98it/s] 54%|█████▍    | 26034/48008 [3:44:21<3:02:24,  2.01it/s] 54%|█████▍    | 26035/48008 [3:44:21<3:01:12,  2.02it/s] 54%|█████▍    | 26036/48008 [3:44:22<3:02:23,  2.01it/s] 54%|█████▍    | 26037/48008 [3:44:22<3:03:46,  1.99it/s] 54%|█████▍    | 26038/48008 [3:44:23<3:04:30,  1.98it/s] 54%|█████▍    | 26039/48008 [3:44:23<3:04:40,  1.98it/s] 54%|█████▍    | 26040/48008 [3:44:24<3:05:16,  1.98it/s] 54%|█████▍    | 26041/48008 [3:44:24<2:55:42,  2.08it/s] 54%|█████▍    | 26042/48008 [3:44:25<3:39:11,  1.67it/s] 54%|█████▍    | 26043/48008 [3:44:25<3:25:51,  1.78it/s] 54%|█████▍    | 26044/48008 [3:44:26<4:01:14,  1.52it/s] 54%|█████▍    | 26045/48008 [3:44:27<3:41:47,  1.65it/s] 54%|█████▍    | 26046/48008 [3:44:27<3:33:17,  1.72it/s] 54%|█████▍    | 26047/48008 [3:44:28<3:44:26,  1.63it/s] 54%|█████▍    | 26048/48008 [3:44:28<3:29:15,  1.75it/s] 54%|█████▍    | 26049/48008 [3:44:29<3:22:56,  1.80it/s] 54%|█████▍    | 26050/48008 [3:44:29<3:14:31,  1.88it/s]                                                         {'loss': 4.271, 'grad_norm': 0.32380211353302, 'learning_rate': 9.14805865689052e-05, 'epoch': 0.54}
 54%|█████▍    | 26050/48008 [3:44:29<3:14:31,  1.88it/s] 54%|█████▍    | 26051/48008 [3:44:30<3:13:33,  1.89it/s] 54%|█████▍    | 26052/48008 [3:44:30<3:08:47,  1.94it/s] 54%|█████▍    | 26053/48008 [3:44:31<3:05:04,  1.98it/s] 54%|█████▍    | 26054/48008 [3:44:32<3:23:48,  1.80it/s] 54%|█████▍    | 26055/48008 [3:44:32<3:17:43,  1.85it/s] 54%|█████▍    | 26056/48008 [3:44:33<3:32:35,  1.72it/s] 54%|█████▍    | 26057/48008 [3:44:33<3:15:04,  1.88it/s] 54%|█████▍    | 26058/48008 [3:44:34<3:12:04,  1.90it/s] 54%|█████▍    | 26059/48008 [3:44:34<3:07:06,  1.96it/s] 54%|█████▍    | 26060/48008 [3:44:35<2:56:00,  2.08it/s] 54%|█████▍    | 26061/48008 [3:44:35<3:00:28,  2.03it/s] 54%|█████▍    | 26062/48008 [3:44:36<2:59:30,  2.04it/s] 54%|█████▍    | 26063/48008 [3:44:36<2:51:17,  2.14it/s] 54%|█████▍    | 26064/48008 [3:44:36<2:52:19,  2.12it/s] 54%|█████▍    | 26065/48008 [3:44:37<2:53:34,  2.11it/s] 54%|█████▍    | 26066/48008 [3:44:37<2:57:05,  2.07it/s] 54%|█████▍    | 26067/48008 [3:44:38<2:59:30,  2.04it/s] 54%|█████▍    | 26068/48008 [3:44:38<2:59:05,  2.04it/s] 54%|█████▍    | 26069/48008 [3:44:39<3:02:16,  2.01it/s] 54%|█████▍    | 26070/48008 [3:44:40<4:24:52,  1.38it/s] 54%|█████▍    | 26071/48008 [3:44:41<4:04:06,  1.50it/s] 54%|█████▍    | 26072/48008 [3:44:41<3:43:45,  1.63it/s] 54%|█████▍    | 26073/48008 [3:44:42<3:32:00,  1.72it/s] 54%|█████▍    | 26074/48008 [3:44:42<3:13:51,  1.89it/s] 54%|█████▍    | 26075/48008 [3:44:43<3:12:41,  1.90it/s] 54%|█████▍    | 26076/48008 [3:44:43<3:07:40,  1.95it/s] 54%|█████▍    | 26077/48008 [3:44:44<3:08:11,  1.94it/s] 54%|█████▍    | 26078/48008 [3:44:44<3:06:52,  1.96it/s] 54%|█████▍    | 26079/48008 [3:44:45<2:56:35,  2.07it/s] 54%|█████▍    | 26080/48008 [3:44:45<3:00:24,  2.03it/s] 54%|█████▍    | 26081/48008 [3:44:46<3:01:31,  2.01it/s] 54%|█████▍    | 26082/48008 [3:44:46<3:02:38,  2.00it/s] 54%|█████▍    | 26083/48008 [3:44:47<3:05:36,  1.97it/s] 54%|█████▍    | 26084/48008 [3:44:47<3:23:43,  1.79it/s] 54%|█████▍    | 26085/48008 [3:44:48<3:21:46,  1.81it/s] 54%|█████▍    | 26086/48008 [3:44:48<3:16:14,  1.86it/s] 54%|█████▍    | 26087/48008 [3:44:49<3:13:30,  1.89it/s] 54%|█████▍    | 26088/48008 [3:44:49<3:01:01,  2.02it/s] 54%|█████▍    | 26089/48008 [3:44:50<2:52:04,  2.12it/s] 54%|█████▍    | 26090/48008 [3:44:50<2:45:41,  2.20it/s] 54%|█████▍    | 26091/48008 [3:44:51<3:32:35,  1.72it/s] 54%|█████▍    | 26092/48008 [3:44:51<3:14:44,  1.88it/s] 54%|█████▍    | 26093/48008 [3:44:52<3:13:49,  1.88it/s] 54%|█████▍    | 26094/48008 [3:44:52<3:08:36,  1.94it/s] 54%|█████▍    | 26095/48008 [3:44:53<3:08:51,  1.93it/s] 54%|█████▍    | 26096/48008 [3:44:53<3:07:10,  1.95it/s] 54%|█████▍    | 26097/48008 [3:44:54<3:06:44,  1.96it/s] 54%|█████▍    | 26098/48008 [3:44:54<3:04:21,  1.98it/s] 54%|█████▍    | 26099/48008 [3:44:55<2:54:54,  2.09it/s] 54%|█████▍    | 26100/48008 [3:44:55<2:54:41,  2.09it/s]                                                         {'loss': 4.2554, 'grad_norm': 0.17708083987236023, 'learning_rate': 9.127228795200801e-05, 'epoch': 0.54}
 54%|█████▍    | 26100/48008 [3:44:55<2:54:41,  2.09it/s] 54%|█████▍    | 26101/48008 [3:44:56<2:55:34,  2.08it/s] 54%|█████▍    | 26102/48008 [3:44:56<2:48:41,  2.16it/s] 54%|█████▍    | 26103/48008 [3:44:57<2:54:59,  2.09it/s] 54%|█████▍    | 26104/48008 [3:44:57<2:54:52,  2.09it/s] 54%|█████▍    | 26105/48008 [3:44:58<2:48:10,  2.17it/s] 54%|█████▍    | 26106/48008 [3:44:58<2:50:08,  2.15it/s] 54%|█████▍    | 26107/48008 [3:44:59<2:44:43,  2.22it/s] 54%|█████▍    | 26108/48008 [3:44:59<2:48:20,  2.17it/s] 54%|█████▍    | 26109/48008 [3:45:00<2:53:06,  2.11it/s] 54%|█████▍    | 26110/48008 [3:45:00<2:58:16,  2.05it/s] 54%|█████▍    | 26111/48008 [3:45:01<3:57:20,  1.54it/s] 54%|█████▍    | 26112/48008 [3:45:02<3:31:38,  1.72it/s] 54%|█████▍    | 26113/48008 [3:45:02<3:20:59,  1.82it/s] 54%|█████▍    | 26114/48008 [3:45:02<3:13:25,  1.89it/s] 54%|█████▍    | 26115/48008 [3:45:03<3:07:55,  1.94it/s] 54%|█████▍    | 26116/48008 [3:45:04<4:28:17,  1.36it/s] 54%|█████▍    | 26117/48008 [3:45:05<4:02:41,  1.50it/s] 54%|█████▍    | 26118/48008 [3:45:05<3:48:39,  1.60it/s] 54%|█████▍    | 26119/48008 [3:45:06<3:33:16,  1.71it/s] 54%|█████▍    | 26120/48008 [3:45:07<4:46:15,  1.27it/s] 54%|█████▍    | 26121/48008 [3:45:07<4:15:13,  1.43it/s] 54%|█████▍    | 26122/48008 [3:45:08<3:43:45,  1.63it/s] 54%|█████▍    | 26123/48008 [3:45:08<3:22:48,  1.80it/s] 54%|█████▍    | 26124/48008 [3:45:09<3:17:03,  1.85it/s] 54%|█████▍    | 26125/48008 [3:45:09<3:17:51,  1.84it/s] 54%|█████▍    | 26126/48008 [3:45:10<3:14:11,  1.88it/s] 54%|█████▍    | 26127/48008 [3:45:10<3:01:25,  2.01it/s] 54%|█████▍    | 26128/48008 [3:45:11<2:59:35,  2.03it/s] 54%|█████▍    | 26129/48008 [3:45:11<3:20:22,  1.82it/s] 54%|█████▍    | 26130/48008 [3:45:12<3:13:06,  1.89it/s] 54%|█████▍    | 26131/48008 [3:45:12<3:08:24,  1.94it/s] 54%|█████▍    | 26132/48008 [3:45:13<3:10:26,  1.91it/s] 54%|█████▍    | 26133/48008 [3:45:13<3:05:39,  1.96it/s] 54%|█████▍    | 26134/48008 [3:45:14<3:08:33,  1.93it/s] 54%|█████▍    | 26135/48008 [3:45:14<3:04:48,  1.97it/s] 54%|█████▍    | 26136/48008 [3:45:15<3:05:09,  1.97it/s] 54%|█████▍    | 26137/48008 [3:45:15<3:02:21,  2.00it/s] 54%|█████▍    | 26138/48008 [3:45:16<3:03:46,  1.98it/s] 54%|█████▍    | 26139/48008 [3:45:16<3:01:12,  2.01it/s] 54%|█████▍    | 26140/48008 [3:45:17<2:59:06,  2.03it/s] 54%|█████▍    | 26141/48008 [3:45:17<3:04:42,  1.97it/s] 54%|█████▍    | 26142/48008 [3:45:18<3:04:26,  1.98it/s] 54%|█████▍    | 26143/48008 [3:45:18<3:04:54,  1.97it/s] 54%|█████▍    | 26144/48008 [3:45:19<3:02:11,  2.00it/s] 54%|█████▍    | 26145/48008 [3:45:19<3:00:29,  2.02it/s] 54%|█████▍    | 26146/48008 [3:45:20<2:58:45,  2.04it/s] 54%|█████▍    | 26147/48008 [3:45:21<3:18:38,  1.83it/s] 54%|█████▍    | 26148/48008 [3:45:21<3:14:37,  1.87it/s] 54%|█████▍    | 26149/48008 [3:45:22<3:08:39,  1.93it/s] 54%|█████▍    | 26150/48008 [3:45:22<3:07:25,  1.94it/s]                                                         {'loss': 4.2244, 'grad_norm': 0.12946611642837524, 'learning_rate': 9.106398933511082e-05, 'epoch': 0.54} 54%|█████▍    | 26150/48008 [3:45:22<3:07:25,  1.94it/s]
 54%|█████▍    | 26151/48008 [3:45:23<3:03:24,  1.99it/s] 54%|█████▍    | 26152/48008 [3:45:23<3:00:56,  2.01it/s] 54%|█████▍    | 26153/48008 [3:45:24<2:59:03,  2.03it/s] 54%|█████▍    | 26154/48008 [3:45:24<3:18:31,  1.83it/s] 54%|█████▍    | 26155/48008 [3:45:25<3:11:48,  1.90it/s] 54%|█████▍    | 26156/48008 [3:45:25<3:09:10,  1.93it/s] 54%|█████▍    | 26157/48008 [3:45:26<3:05:03,  1.97it/s] 54%|█████▍    | 26158/48008 [3:45:26<3:01:31,  2.01it/s] 54%|█████▍    | 26159/48008 [3:45:27<3:00:08,  2.02it/s] 54%|█████▍    | 26160/48008 [3:45:27<2:51:13,  2.13it/s] 54%|█████▍    | 26161/48008 [3:45:28<2:52:43,  2.11it/s] 54%|█████▍    | 26162/48008 [3:45:28<2:53:34,  2.10it/s] 54%|█████▍    | 26163/48008 [3:45:28<2:54:23,  2.09it/s] 54%|█████▍    | 26164/48008 [3:45:29<2:56:59,  2.06it/s] 55%|█████▍    | 26165/48008 [3:45:29<2:56:04,  2.07it/s] 55%|█████▍    | 26166/48008 [3:45:30<2:55:41,  2.07it/s] 55%|█████▍    | 26167/48008 [3:45:30<2:55:36,  2.07it/s] 55%|█████▍    | 26168/48008 [3:45:31<2:48:24,  2.16it/s] 55%|█████▍    | 26169/48008 [3:45:31<2:54:36,  2.08it/s] 55%|█████▍    | 26170/48008 [3:45:32<2:54:31,  2.09it/s] 55%|█████▍    | 26171/48008 [3:45:32<2:57:36,  2.05it/s] 55%|█████▍    | 26172/48008 [3:45:33<2:56:37,  2.06it/s] 55%|█████▍    | 26173/48008 [3:45:33<2:56:37,  2.06it/s] 55%|█████▍    | 26174/48008 [3:45:34<2:45:33,  2.20it/s] 55%|█████▍    | 26175/48008 [3:45:34<2:51:34,  2.12it/s] 55%|█████▍    | 26176/48008 [3:45:35<2:46:01,  2.19it/s] 55%|█████▍    | 26177/48008 [3:45:35<2:48:47,  2.16it/s] 55%|█████▍    | 26178/48008 [3:45:36<2:53:40,  2.10it/s] 55%|█████▍    | 26179/48008 [3:45:36<3:00:06,  2.02it/s] 55%|█████▍    | 26180/48008 [3:45:37<3:01:16,  2.01it/s] 55%|█████▍    | 26181/48008 [3:45:37<3:02:19,  2.00it/s] 55%|█████▍    | 26182/48008 [3:45:38<2:59:59,  2.02it/s] 55%|█████▍    | 26183/48008 [3:45:38<3:02:38,  1.99it/s] 55%|█████▍    | 26184/48008 [3:45:39<3:00:25,  2.02it/s] 55%|█████▍    | 26185/48008 [3:45:39<2:59:19,  2.03it/s] 55%|█████▍    | 26186/48008 [3:45:40<3:01:06,  2.01it/s] 55%|█████▍    | 26187/48008 [3:45:40<2:59:44,  2.02it/s] 55%|█████▍    | 26188/48008 [3:45:41<2:58:02,  2.04it/s] 55%|█████▍    | 26189/48008 [3:45:41<2:57:11,  2.05it/s] 55%|█████▍    | 26190/48008 [3:45:42<2:56:11,  2.06it/s] 55%|█████▍    | 26191/48008 [3:45:42<3:00:17,  2.02it/s] 55%|█████▍    | 26192/48008 [3:45:43<3:03:28,  1.98it/s] 55%|█████▍    | 26193/48008 [3:45:43<3:00:55,  2.01it/s] 55%|█████▍    | 26194/48008 [3:45:44<3:05:49,  1.96it/s] 55%|█████▍    | 26195/48008 [3:45:44<3:04:42,  1.97it/s] 55%|█████▍    | 26196/48008 [3:45:45<3:06:21,  1.95it/s] 55%|█████▍    | 26197/48008 [3:45:45<3:02:44,  1.99it/s] 55%|█████▍    | 26198/48008 [3:45:46<3:00:27,  2.01it/s] 55%|█████▍    | 26199/48008 [3:45:46<3:02:39,  1.99it/s] 55%|█████▍    | 26200/48008 [3:45:47<3:00:44,  2.01it/s]                                                         {'loss': 4.2363, 'grad_norm': 0.10202676057815552, 'learning_rate': 9.085569071821363e-05, 'epoch': 0.55} 55%|█████▍    | 26200/48008 [3:45:47<3:00:44,  2.01it/s]
 55%|█████▍    | 26201/48008 [3:45:47<3:05:55,  1.95it/s] 55%|█████▍    | 26202/48008 [3:45:48<3:04:33,  1.97it/s] 55%|█████▍    | 26203/48008 [3:45:48<3:04:25,  1.97it/s] 55%|█████▍    | 26204/48008 [3:45:49<3:01:16,  2.00it/s] 55%|█████▍    | 26205/48008 [3:45:49<2:59:20,  2.03it/s] 55%|█████▍    | 26206/48008 [3:45:50<2:57:45,  2.04it/s] 55%|█████▍    | 26207/48008 [3:45:50<2:56:44,  2.06it/s] 55%|█████▍    | 26208/48008 [3:45:51<2:55:49,  2.07it/s] 55%|█████▍    | 26209/48008 [3:45:51<2:55:48,  2.07it/s] 55%|█████▍    | 26210/48008 [3:45:52<2:58:39,  2.03it/s] 55%|█████▍    | 26211/48008 [3:45:52<3:03:50,  1.98it/s] 55%|█████▍    | 26212/48008 [3:45:53<2:54:27,  2.08it/s] 55%|█████▍    | 26213/48008 [3:45:53<2:55:19,  2.07it/s] 55%|█████▍    | 26214/48008 [3:45:54<3:39:08,  1.66it/s] 55%|█████▍    | 26215/48008 [3:45:54<3:31:11,  1.72it/s] 55%|█████▍    | 26216/48008 [3:45:55<3:19:48,  1.82it/s] 55%|█████▍    | 26217/48008 [3:45:55<3:13:15,  1.88it/s] 55%|█████▍    | 26218/48008 [3:45:56<3:08:19,  1.93it/s] 55%|█████▍    | 26219/48008 [3:45:56<3:09:35,  1.92it/s] 55%|█████▍    | 26220/48008 [3:45:57<3:07:48,  1.93it/s] 55%|█████▍    | 26221/48008 [3:45:57<3:04:43,  1.97it/s] 55%|█████▍    | 26222/48008 [3:45:58<3:01:24,  2.00it/s] 55%|█████▍    | 26223/48008 [3:45:58<2:52:43,  2.10it/s] 55%|█████▍    | 26224/48008 [3:45:59<2:46:05,  2.19it/s] 55%|█████▍    | 26225/48008 [3:45:59<2:49:12,  2.15it/s] 55%|█████▍    | 26226/48008 [3:46:00<2:51:45,  2.11it/s] 55%|█████▍    | 26227/48008 [3:46:00<2:52:01,  2.11it/s] 55%|█████▍    | 26228/48008 [3:46:01<2:53:16,  2.10it/s] 55%|█████▍    | 26229/48008 [3:46:01<2:56:56,  2.05it/s] 55%|█████▍    | 26230/48008 [3:46:02<2:56:50,  2.05it/s] 55%|█████▍    | 26231/48008 [3:46:02<2:58:23,  2.03it/s] 55%|█████▍    | 26232/48008 [3:46:03<2:50:04,  2.13it/s] 55%|█████▍    | 26233/48008 [3:46:03<2:53:41,  2.09it/s] 55%|█████▍    | 26234/48008 [3:46:04<2:54:11,  2.08it/s] 55%|█████▍    | 26235/48008 [3:46:04<2:54:19,  2.08it/s] 55%|█████▍    | 26236/48008 [3:46:04<2:47:53,  2.16it/s] 55%|█████▍    | 26237/48008 [3:46:05<2:49:54,  2.14it/s] 55%|█████▍    | 26238/48008 [3:46:05<2:51:55,  2.11it/s] 55%|█████▍    | 26239/48008 [3:46:06<2:55:53,  2.06it/s] 55%|█████▍    | 26240/48008 [3:46:06<3:00:40,  2.01it/s] 55%|█████▍    | 26241/48008 [3:46:07<2:58:50,  2.03it/s] 55%|█████▍    | 26242/48008 [3:46:08<3:04:27,  1.97it/s] 55%|█████▍    | 26243/48008 [3:46:08<3:01:51,  1.99it/s] 55%|█████▍    | 26244/48008 [3:46:09<3:06:33,  1.94it/s] 55%|█████▍    | 26245/48008 [3:46:09<3:23:35,  1.78it/s] 55%|█████▍    | 26246/48008 [3:46:10<3:15:24,  1.86it/s] 55%|█████▍    | 26247/48008 [3:46:10<3:12:08,  1.89it/s] 55%|█████▍    | 26248/48008 [3:46:11<3:13:34,  1.87it/s] 55%|█████▍    | 26249/48008 [3:46:11<3:10:18,  1.91it/s] 55%|█████▍    | 26250/48008 [3:46:12<3:26:02,  1.76it/s]                                                         {'loss': 4.2468, 'grad_norm': 0.09741941094398499, 'learning_rate': 9.064739210131645e-05, 'epoch': 0.55}
 55%|█████▍    | 26250/48008 [3:46:12<3:26:02,  1.76it/s] 55%|█████▍    | 26251/48008 [3:46:12<3:17:01,  1.84it/s] 55%|█████▍    | 26252/48008 [3:46:13<3:31:06,  1.72it/s] 55%|█████▍    | 26253/48008 [3:46:14<3:22:55,  1.79it/s] 55%|█████▍    | 26254/48008 [3:46:14<3:14:21,  1.87it/s] 55%|█████▍    | 26255/48008 [3:46:15<3:11:09,  1.90it/s] 55%|█████▍    | 26256/48008 [3:46:15<3:06:59,  1.94it/s] 55%|█████▍    | 26257/48008 [3:46:16<3:03:35,  1.97it/s] 55%|█████▍    | 26258/48008 [3:46:16<3:01:26,  2.00it/s] 55%|█████▍    | 26259/48008 [3:46:16<2:52:36,  2.10it/s] 55%|█████▍    | 26260/48008 [3:46:18<4:17:00,  1.41it/s] 55%|█████▍    | 26261/48008 [3:46:18<3:52:08,  1.56it/s] 55%|█████▍    | 26262/48008 [3:46:19<3:39:22,  1.65it/s] 55%|█████▍    | 26263/48008 [3:46:19<3:28:15,  1.74it/s] 55%|█████▍    | 26264/48008 [3:46:20<3:21:05,  1.80it/s] 55%|█████▍    | 26265/48008 [3:46:20<3:06:08,  1.95it/s] 55%|█████▍    | 26266/48008 [3:46:21<3:02:38,  1.98it/s] 55%|█████▍    | 26267/48008 [3:46:21<3:21:42,  1.80it/s] 55%|█████▍    | 26268/48008 [3:46:22<3:13:17,  1.87it/s] 55%|█████▍    | 26269/48008 [3:46:22<3:11:34,  1.89it/s] 55%|█████▍    | 26270/48008 [3:46:23<2:59:55,  2.01it/s] 55%|█████▍    | 26271/48008 [3:46:23<3:04:35,  1.96it/s] 55%|█████▍    | 26272/48008 [3:46:24<2:54:37,  2.07it/s] 55%|█████▍    | 26273/48008 [3:46:24<2:54:01,  2.08it/s] 55%|█████▍    | 26274/48008 [3:46:25<2:56:44,  2.05it/s] 55%|█████▍    | 26275/48008 [3:46:25<2:56:55,  2.05it/s] 55%|█████▍    | 26276/48008 [3:46:26<2:56:01,  2.06it/s] 55%|█████▍    | 26277/48008 [3:46:26<2:59:55,  2.01it/s] 55%|█████▍    | 26278/48008 [3:46:27<3:00:31,  2.01it/s] 55%|█████▍    | 26279/48008 [3:46:27<3:01:41,  1.99it/s] 55%|█████▍    | 26280/48008 [3:46:28<3:02:42,  1.98it/s] 55%|█████▍    | 26281/48008 [3:46:28<2:52:44,  2.10it/s] 55%|█████▍    | 26282/48008 [3:46:29<2:53:23,  2.09it/s] 55%|█████▍    | 26283/48008 [3:46:29<2:53:05,  2.09it/s] 55%|█████▍    | 26284/48008 [3:46:30<2:55:33,  2.06it/s] 55%|█████▍    | 26285/48008 [3:46:30<2:55:04,  2.07it/s] 55%|█████▍    | 26286/48008 [3:46:31<2:57:53,  2.04it/s] 55%|█████▍    | 26287/48008 [3:46:31<3:39:30,  1.65it/s] 55%|█████▍    | 26288/48008 [3:46:32<3:26:33,  1.75it/s] 55%|█████▍    | 26289/48008 [3:46:32<3:19:31,  1.81it/s] 55%|█████▍    | 26290/48008 [3:46:33<3:14:38,  1.86it/s] 55%|█████▍    | 26291/48008 [3:46:33<3:08:19,  1.92it/s] 55%|█████▍    | 26292/48008 [3:46:34<3:04:18,  1.96it/s] 55%|█████▍    | 26293/48008 [3:46:34<3:01:21,  2.00it/s] 55%|█████▍    | 26294/48008 [3:46:35<3:20:57,  1.80it/s] 55%|█████▍    | 26295/48008 [3:46:36<3:15:08,  1.85it/s] 55%|█████▍    | 26296/48008 [3:46:36<3:12:05,  1.88it/s] 55%|█████▍    | 26297/48008 [3:46:37<3:10:52,  1.90it/s] 55%|█████▍    | 26298/48008 [3:46:37<3:05:49,  1.95it/s] 55%|█████▍    | 26299/48008 [3:46:38<3:01:37,  1.99it/s] 55%|█████▍    | 26300/48008 [3:46:38<2:52:28,  2.10it/s]                                                         {'loss': 4.2893, 'grad_norm': 0.18084391951560974, 'learning_rate': 9.043909348441927e-05, 'epoch': 0.55}
 55%|█████▍    | 26300/48008 [3:46:38<2:52:28,  2.10it/s] 55%|█████▍    | 26301/48008 [3:46:38<2:52:41,  2.09it/s] 55%|█████▍    | 26302/48008 [3:46:39<2:55:12,  2.06it/s] 55%|█████▍    | 26303/48008 [3:46:39<2:56:43,  2.05it/s] 55%|█████▍    | 26304/48008 [3:46:40<2:56:00,  2.06it/s] 55%|█████▍    | 26305/48008 [3:46:40<2:57:34,  2.04it/s] 55%|█████▍    | 26306/48008 [3:46:41<2:56:54,  2.04it/s] 55%|█████▍    | 26307/48008 [3:46:41<3:00:06,  2.01it/s] 55%|█████▍    | 26308/48008 [3:46:42<3:05:34,  1.95it/s] 55%|█████▍    | 26309/48008 [3:46:42<2:55:36,  2.06it/s] 55%|█████▍    | 26310/48008 [3:46:43<2:47:57,  2.15it/s] 55%|█████▍    | 26311/48008 [3:46:43<2:49:33,  2.13it/s] 55%|█████▍    | 26312/48008 [3:46:44<3:11:25,  1.89it/s] 55%|█████▍    | 26313/48008 [3:46:45<3:27:09,  1.75it/s] 55%|█████▍    | 26314/48008 [3:46:45<3:21:51,  1.79it/s] 55%|█████▍    | 26315/48008 [3:46:46<3:14:33,  1.86it/s] 55%|█████▍    | 26316/48008 [3:46:46<3:14:47,  1.86it/s] 55%|█████▍    | 26317/48008 [3:46:47<3:11:05,  1.89it/s] 55%|█████▍    | 26318/48008 [3:46:47<3:09:08,  1.91it/s] 55%|█████▍    | 26319/48008 [3:46:48<3:04:39,  1.96it/s] 55%|█████▍    | 26320/48008 [3:46:48<3:01:32,  1.99it/s] 55%|█████▍    | 26321/48008 [3:46:49<3:02:15,  1.98it/s] 55%|█████▍    | 26322/48008 [3:46:49<3:02:11,  1.98it/s] 55%|█████▍    | 26323/48008 [3:46:50<2:59:22,  2.01it/s] 55%|█████▍    | 26324/48008 [3:46:50<3:00:24,  2.00it/s] 55%|█████▍    | 26325/48008 [3:46:51<2:58:29,  2.02it/s] 55%|█████▍    | 26326/48008 [3:46:51<2:57:21,  2.04it/s] 55%|█████▍    | 26327/48008 [3:46:52<2:56:23,  2.05it/s] 55%|█████▍    | 26328/48008 [3:46:52<2:57:49,  2.03it/s] 55%|█████▍    | 26329/48008 [3:46:53<2:55:59,  2.05it/s] 55%|█████▍    | 26330/48008 [3:46:53<2:55:30,  2.06it/s] 55%|█████▍    | 26331/48008 [3:46:54<2:55:24,  2.06it/s] 55%|█████▍    | 26332/48008 [3:46:54<2:48:21,  2.15it/s] 55%|█████▍    | 26333/48008 [3:46:54<2:52:50,  2.09it/s] 55%|█████▍    | 26334/48008 [3:46:55<2:55:59,  2.05it/s] 55%|█████▍    | 26335/48008 [3:46:56<4:18:37,  1.40it/s] 55%|█████▍    | 26336/48008 [3:46:57<3:53:24,  1.55it/s] 55%|█████▍    | 26337/48008 [3:46:57<3:36:04,  1.67it/s] 55%|█████▍    | 26338/48008 [3:46:58<3:16:58,  1.83it/s] 55%|█████▍    | 26339/48008 [3:46:58<3:03:09,  1.97it/s] 55%|█████▍    | 26340/48008 [3:46:59<3:00:04,  2.01it/s] 55%|█████▍    | 26341/48008 [3:46:59<3:19:31,  1.81it/s] 55%|█████▍    | 26342/48008 [3:47:00<3:11:18,  1.89it/s] 55%|█████▍    | 26343/48008 [3:47:00<2:59:27,  2.01it/s] 55%|█████▍    | 26344/48008 [3:47:01<2:58:12,  2.03it/s] 55%|█████▍    | 26345/48008 [3:47:01<2:59:28,  2.01it/s] 55%|█████▍    | 26346/48008 [3:47:02<2:57:45,  2.03it/s] 55%|█████▍    | 26347/48008 [3:47:02<2:56:23,  2.05it/s] 55%|█████▍    | 26348/48008 [3:47:03<2:55:57,  2.05it/s] 55%|█████▍    | 26349/48008 [3:47:03<2:48:12,  2.15it/s] 55%|█████▍    | 26350/48008 [3:47:03<2:49:35,  2.13it/s]                                                         {'loss': 4.2493, 'grad_norm': 0.10345157980918884, 'learning_rate': 9.023079486752209e-05, 'epoch': 0.55}
 55%|█████▍    | 26350/48008 [3:47:03<2:49:35,  2.13it/s] 55%|█████▍    | 26351/48008 [3:47:04<2:51:08,  2.11it/s] 55%|█████▍    | 26352/48008 [3:47:04<2:52:40,  2.09it/s] 55%|█████▍    | 26353/48008 [3:47:05<2:56:12,  2.05it/s] 55%|█████▍    | 26354/48008 [3:47:05<2:57:53,  2.03it/s] 55%|█████▍    | 26355/48008 [3:47:06<2:57:04,  2.04it/s] 55%|█████▍    | 26356/48008 [3:47:06<2:59:15,  2.01it/s] 55%|█████▍    | 26357/48008 [3:47:07<2:57:52,  2.03it/s] 55%|█████▍    | 26358/48008 [3:47:07<2:59:21,  2.01it/s] 55%|█████▍    | 26359/48008 [3:47:08<2:50:41,  2.11it/s] 55%|█████▍    | 26360/48008 [3:47:08<2:56:16,  2.05it/s] 55%|█████▍    | 26361/48008 [3:47:09<2:55:40,  2.05it/s] 55%|█████▍    | 26362/48008 [3:47:09<2:55:22,  2.06it/s] 55%|█████▍    | 26363/48008 [3:47:10<2:48:08,  2.15it/s] 55%|█████▍    | 26364/48008 [3:47:10<2:42:57,  2.21it/s] 55%|█████▍    | 26365/48008 [3:47:11<2:48:37,  2.14it/s] 55%|█████▍    | 26366/48008 [3:47:11<2:50:03,  2.12it/s] 55%|█████▍    | 26367/48008 [3:47:12<2:56:44,  2.04it/s] 55%|█████▍    | 26368/48008 [3:47:12<3:02:05,  1.98it/s] 55%|█████▍    | 26369/48008 [3:47:13<2:59:48,  2.01it/s] 55%|█████▍    | 26370/48008 [3:47:14<3:40:15,  1.64it/s] 55%|█████▍    | 26371/48008 [3:47:14<3:26:43,  1.74it/s] 55%|█████▍    | 26372/48008 [3:47:15<3:17:22,  1.83it/s] 55%|█████▍    | 26373/48008 [3:47:15<3:03:47,  1.96it/s] 55%|█████▍    | 26374/48008 [3:47:15<3:01:16,  1.99it/s] 55%|█████▍    | 26375/48008 [3:47:16<2:58:47,  2.02it/s] 55%|█████▍    | 26376/48008 [3:47:16<2:57:01,  2.04it/s] 55%|█████▍    | 26377/48008 [3:47:17<2:48:53,  2.13it/s] 55%|█████▍    | 26378/48008 [3:47:18<3:33:02,  1.69it/s] 55%|█████▍    | 26379/48008 [3:47:18<3:21:58,  1.78it/s] 55%|█████▍    | 26380/48008 [3:47:19<3:15:51,  1.84it/s] 55%|█████▍    | 26381/48008 [3:47:19<3:09:33,  1.90it/s] 55%|█████▍    | 26382/48008 [3:47:20<3:25:08,  1.76it/s] 55%|█████▍    | 26383/48008 [3:47:20<3:15:39,  1.84it/s] 55%|█████▍    | 26384/48008 [3:47:21<3:09:13,  1.90it/s] 55%|█████▍    | 26385/48008 [3:47:21<3:07:05,  1.93it/s] 55%|█████▍    | 26386/48008 [3:47:22<3:02:58,  1.97it/s] 55%|█████▍    | 26387/48008 [3:47:22<3:06:08,  1.94it/s] 55%|█████▍    | 26388/48008 [3:47:23<3:02:20,  1.98it/s] 55%|█████▍    | 26389/48008 [3:47:23<3:21:05,  1.79it/s] 55%|█████▍    | 26390/48008 [3:47:24<3:17:07,  1.83it/s] 55%|█████▍    | 26391/48008 [3:47:25<3:30:48,  1.71it/s] 55%|█████▍    | 26392/48008 [3:47:25<3:22:11,  1.78it/s] 55%|█████▍    | 26393/48008 [3:47:26<3:13:06,  1.87it/s] 55%|█████▍    | 26394/48008 [3:47:26<2:56:36,  2.04it/s] 55%|█████▍    | 26395/48008 [3:47:27<2:59:45,  2.00it/s] 55%|█████▍    | 26396/48008 [3:47:27<3:00:29,  2.00it/s] 55%|█████▍    | 26397/48008 [3:47:28<3:00:43,  1.99it/s] 55%|█████▍    | 26398/48008 [3:47:28<3:01:02,  1.99it/s] 55%|█████▍    | 26399/48008 [3:47:29<3:04:39,  1.95it/s] 55%|█████▍    | 26400/48008 [3:47:29<3:03:29,  1.96it/s]                                                         {'loss': 4.2978, 'grad_norm': 0.11831668019294739, 'learning_rate': 9.00224962506249e-05, 'epoch': 0.55}
 55%|█████▍    | 26400/48008 [3:47:29<3:03:29,  1.96it/s] 55%|█████▍    | 26401/48008 [3:47:30<2:52:51,  2.08it/s] 55%|█████▍    | 26402/48008 [3:47:30<2:57:06,  2.03it/s] 55%|█████▍    | 26403/48008 [3:47:31<2:56:00,  2.05it/s] 55%|█████▍    | 26404/48008 [3:47:31<3:00:03,  2.00it/s] 55%|█████▌    | 26405/48008 [3:47:32<2:57:24,  2.03it/s] 55%|█████▌    | 26406/48008 [3:47:32<2:56:20,  2.04it/s] 55%|█████▌    | 26407/48008 [3:47:33<2:57:22,  2.03it/s] 55%|█████▌    | 26408/48008 [3:47:33<2:58:14,  2.02it/s] 55%|█████▌    | 26409/48008 [3:47:33<2:50:20,  2.11it/s] 55%|█████▌    | 26410/48008 [3:47:34<2:44:38,  2.19it/s] 55%|█████▌    | 26411/48008 [3:47:34<2:51:59,  2.09it/s] 55%|█████▌    | 26412/48008 [3:47:35<2:55:18,  2.05it/s] 55%|█████▌    | 26413/48008 [3:47:35<2:54:12,  2.07it/s] 55%|█████▌    | 26414/48008 [3:47:36<2:53:19,  2.08it/s] 55%|█████▌    | 26415/48008 [3:47:37<3:14:57,  1.85it/s] 55%|█████▌    | 26416/48008 [3:47:37<3:28:58,  1.72it/s] 55%|█████▌    | 26417/48008 [3:47:38<3:17:54,  1.82it/s] 55%|█████▌    | 26418/48008 [3:47:38<3:02:58,  1.97it/s] 55%|█████▌    | 26419/48008 [3:47:39<4:24:00,  1.36it/s] 55%|█████▌    | 26420/48008 [3:47:40<3:59:16,  1.50it/s] 55%|█████▌    | 26421/48008 [3:47:40<3:39:47,  1.64it/s] 55%|█████▌    | 26422/48008 [3:47:41<3:28:19,  1.73it/s] 55%|█████▌    | 26423/48008 [3:47:41<3:17:33,  1.82it/s] 55%|█████▌    | 26424/48008 [3:47:42<3:16:26,  1.83it/s] 55%|█████▌    | 26425/48008 [3:47:42<3:13:32,  1.86it/s] 55%|█████▌    | 26426/48008 [3:47:43<3:11:38,  1.88it/s] 55%|█████▌    | 26427/48008 [3:47:43<3:10:48,  1.89it/s] 55%|█████▌    | 26428/48008 [3:47:44<3:05:49,  1.94it/s] 55%|█████▌    | 26429/48008 [3:47:44<3:02:21,  1.97it/s] 55%|█████▌    | 26430/48008 [3:47:45<2:59:15,  2.01it/s] 55%|█████▌    | 26431/48008 [3:47:45<2:59:46,  2.00it/s] 55%|█████▌    | 26432/48008 [3:47:46<3:00:30,  1.99it/s] 55%|█████▌    | 26433/48008 [3:47:46<2:58:50,  2.01it/s] 55%|█████▌    | 26434/48008 [3:47:47<2:57:19,  2.03it/s] 55%|█████▌    | 26435/48008 [3:47:47<2:55:47,  2.05it/s] 55%|█████▌    | 26436/48008 [3:47:48<2:59:04,  2.01it/s] 55%|█████▌    | 26437/48008 [3:47:48<2:56:56,  2.03it/s] 55%|█████▌    | 26438/48008 [3:47:49<2:58:04,  2.02it/s] 55%|█████▌    | 26439/48008 [3:47:49<3:03:33,  1.96it/s] 55%|█████▌    | 26440/48008 [3:47:50<3:00:09,  2.00it/s] 55%|█████▌    | 26441/48008 [3:47:50<2:58:00,  2.02it/s] 55%|█████▌    | 26442/48008 [3:47:51<2:59:15,  2.01it/s] 55%|█████▌    | 26443/48008 [3:47:51<2:57:27,  2.03it/s] 55%|█████▌    | 26444/48008 [3:47:52<2:56:21,  2.04it/s] 55%|█████▌    | 26445/48008 [3:47:52<2:59:28,  2.00it/s] 55%|█████▌    | 26446/48008 [3:47:53<2:57:11,  2.03it/s] 55%|█████▌    | 26447/48008 [3:47:53<3:16:40,  1.83it/s] 55%|█████▌    | 26448/48008 [3:47:54<3:02:54,  1.96it/s] 55%|█████▌    | 26449/48008 [3:47:54<3:01:45,  1.98it/s] 55%|█████▌    | 26450/48008 [3:47:55<2:58:34,  2.01it/s]                                                         {'loss': 4.2622, 'grad_norm': 0.0978589877486229, 'learning_rate': 8.981419763372772e-05, 'epoch': 0.55} 55%|█████▌    | 26450/48008 [3:47:55<2:58:34,  2.01it/s]
 55%|█████▌    | 26451/48008 [3:47:55<2:57:02,  2.03it/s] 55%|█████▌    | 26452/48008 [3:47:56<2:55:56,  2.04it/s] 55%|█████▌    | 26453/48008 [3:47:56<2:55:01,  2.05it/s] 55%|█████▌    | 26454/48008 [3:47:57<2:47:22,  2.15it/s] 55%|█████▌    | 26455/48008 [3:47:57<2:41:51,  2.22it/s] 55%|█████▌    | 26456/48008 [3:47:58<2:47:24,  2.15it/s] 55%|█████▌    | 26457/48008 [3:47:58<2:52:07,  2.09it/s] 55%|█████▌    | 26458/48008 [3:47:59<2:52:35,  2.08it/s] 55%|█████▌    | 26459/48008 [3:47:59<2:52:29,  2.08it/s] 55%|█████▌    | 26460/48008 [3:48:00<2:53:00,  2.08it/s] 55%|█████▌    | 26461/48008 [3:48:00<2:57:16,  2.03it/s] 55%|█████▌    | 26462/48008 [3:48:01<3:16:47,  1.82it/s] 55%|█████▌    | 26463/48008 [3:48:01<3:09:06,  1.90it/s] 55%|█████▌    | 26464/48008 [3:48:02<3:03:56,  1.95it/s] 55%|█████▌    | 26465/48008 [3:48:02<3:02:34,  1.97it/s] 55%|█████▌    | 26466/48008 [3:48:03<3:01:49,  1.97it/s] 55%|█████▌    | 26467/48008 [3:48:03<2:58:46,  2.01it/s] 55%|█████▌    | 26468/48008 [3:48:04<2:59:03,  2.00it/s] 55%|█████▌    | 26469/48008 [3:48:04<2:59:45,  2.00it/s] 55%|█████▌    | 26470/48008 [3:48:05<2:58:10,  2.01it/s] 55%|█████▌    | 26471/48008 [3:48:05<2:56:18,  2.04it/s] 55%|█████▌    | 26472/48008 [3:48:06<2:59:25,  2.00it/s] 55%|█████▌    | 26473/48008 [3:48:06<2:56:52,  2.03it/s] 55%|█████▌    | 26474/48008 [3:48:07<3:00:03,  1.99it/s] 55%|█████▌    | 26475/48008 [3:48:07<2:50:54,  2.10it/s] 55%|█████▌    | 26476/48008 [3:48:08<2:44:38,  2.18it/s] 55%|█████▌    | 26477/48008 [3:48:08<2:49:27,  2.12it/s] 55%|█████▌    | 26478/48008 [3:48:09<2:52:49,  2.08it/s] 55%|█████▌    | 26479/48008 [3:48:09<2:54:42,  2.05it/s] 55%|█████▌    | 26480/48008 [3:48:10<2:58:11,  2.01it/s] 55%|█████▌    | 26481/48008 [3:48:10<2:56:22,  2.03it/s] 55%|█████▌    | 26482/48008 [3:48:11<2:59:34,  2.00it/s] 55%|█████▌    | 26483/48008 [3:48:11<2:57:36,  2.02it/s] 55%|█████▌    | 26484/48008 [3:48:12<2:56:30,  2.03it/s] 55%|█████▌    | 26485/48008 [3:48:12<2:59:35,  2.00it/s] 55%|█████▌    | 26486/48008 [3:48:13<2:51:03,  2.10it/s] 55%|█████▌    | 26487/48008 [3:48:14<4:14:47,  1.41it/s] 55%|█████▌    | 26488/48008 [3:48:14<3:43:05,  1.61it/s] 55%|█████▌    | 26489/48008 [3:48:15<3:28:12,  1.72it/s] 55%|█████▌    | 26490/48008 [3:48:15<3:16:48,  1.82it/s] 55%|█████▌    | 26491/48008 [3:48:16<3:09:58,  1.89it/s] 55%|█████▌    | 26492/48008 [3:48:16<3:04:54,  1.94it/s] 55%|█████▌    | 26493/48008 [3:48:17<3:07:21,  1.91it/s] 55%|█████▌    | 26494/48008 [3:48:17<3:02:39,  1.96it/s] 55%|█████▌    | 26495/48008 [3:48:18<3:02:02,  1.97it/s] 55%|█████▌    | 26496/48008 [3:48:18<2:58:50,  2.00it/s] 55%|█████▌    | 26497/48008 [3:48:19<2:59:36,  2.00it/s] 55%|█████▌    | 26498/48008 [3:48:19<3:03:52,  1.95it/s] 55%|█████▌    | 26499/48008 [3:48:20<3:01:06,  1.98it/s] 55%|█████▌    | 26500/48008 [3:48:20<2:58:58,  2.00it/s]                                                         {'loss': 4.2283, 'grad_norm': 0.15252329409122467, 'learning_rate': 8.960589901683052e-05, 'epoch': 0.55}
 55%|█████▌    | 26500/48008 [3:48:20<2:58:58,  2.00it/s] 55%|█████▌    | 26501/48008 [3:48:21<2:59:08,  2.00it/s] 55%|█████▌    | 26502/48008 [3:48:21<2:59:48,  1.99it/s] 55%|█████▌    | 26503/48008 [3:48:22<3:39:40,  1.63it/s] 55%|█████▌    | 26504/48008 [3:48:23<3:27:43,  1.73it/s] 55%|█████▌    | 26505/48008 [3:48:23<3:10:02,  1.89it/s] 55%|█████▌    | 26506/48008 [3:48:23<3:04:39,  1.94it/s] 55%|█████▌    | 26507/48008 [3:48:24<3:01:07,  1.98it/s] 55%|█████▌    | 26508/48008 [3:48:24<2:51:23,  2.09it/s] 55%|█████▌    | 26509/48008 [3:48:25<2:51:51,  2.08it/s] 55%|█████▌    | 26510/48008 [3:48:25<2:44:58,  2.17it/s] 55%|█████▌    | 26511/48008 [3:48:26<2:49:46,  2.11it/s] 55%|█████▌    | 26512/48008 [3:48:26<2:50:20,  2.10it/s] 55%|█████▌    | 26513/48008 [3:48:27<2:44:10,  2.18it/s] 55%|█████▌    | 26514/48008 [3:48:27<2:39:56,  2.24it/s] 55%|█████▌    | 26515/48008 [3:48:27<2:36:42,  2.29it/s] 55%|█████▌    | 26516/48008 [3:48:28<2:41:07,  2.22it/s] 55%|█████▌    | 26517/48008 [3:48:28<2:37:27,  2.27it/s] 55%|█████▌    | 26518/48008 [3:48:29<2:41:46,  2.21it/s] 55%|█████▌    | 26519/48008 [3:48:29<2:45:01,  2.17it/s] 55%|█████▌    | 26520/48008 [3:48:30<2:47:14,  2.14it/s] 55%|█████▌    | 26521/48008 [3:48:31<4:11:22,  1.42it/s] 55%|█████▌    | 26522/48008 [3:48:32<3:53:32,  1.53it/s] 55%|█████▌    | 26523/48008 [3:48:32<3:34:54,  1.67it/s] 55%|█████▌    | 26524/48008 [3:48:33<3:21:56,  1.77it/s] 55%|█████▌    | 26525/48008 [3:48:33<3:06:05,  1.92it/s] 55%|█████▌    | 26526/48008 [3:48:33<3:01:47,  1.97it/s] 55%|█████▌    | 26527/48008 [3:48:34<2:59:03,  2.00it/s] 55%|█████▌    | 26528/48008 [3:48:34<2:56:40,  2.03it/s] 55%|█████▌    | 26529/48008 [3:48:35<2:55:49,  2.04it/s] 55%|█████▌    | 26530/48008 [3:48:35<2:58:55,  2.00it/s] 55%|█████▌    | 26531/48008 [3:48:36<2:58:49,  2.00it/s] 55%|█████▌    | 26532/48008 [3:48:37<3:17:19,  1.81it/s] 55%|█████▌    | 26533/48008 [3:48:37<3:09:34,  1.89it/s] 55%|█████▌    | 26534/48008 [3:48:38<4:27:50,  1.34it/s] 55%|█████▌    | 26535/48008 [3:48:39<4:01:48,  1.48it/s] 55%|█████▌    | 26536/48008 [3:48:39<4:01:47,  1.48it/s] 55%|█████▌    | 26537/48008 [3:48:40<3:43:05,  1.60it/s] 55%|█████▌    | 26538/48008 [3:48:40<3:27:48,  1.72it/s] 55%|█████▌    | 26539/48008 [3:48:41<3:19:43,  1.79it/s] 55%|█████▌    | 26540/48008 [3:48:41<3:11:35,  1.87it/s] 55%|█████▌    | 26541/48008 [3:48:42<3:05:52,  1.92it/s] 55%|█████▌    | 26542/48008 [3:48:42<3:04:33,  1.94it/s] 55%|█████▌    | 26543/48008 [3:48:43<3:00:22,  1.98it/s] 55%|█████▌    | 26544/48008 [3:48:43<3:00:27,  1.98it/s] 55%|█████▌    | 26545/48008 [3:48:44<2:57:38,  2.01it/s] 55%|█████▌    | 26546/48008 [3:48:44<2:58:20,  2.01it/s] 55%|█████▌    | 26547/48008 [3:48:45<2:49:39,  2.11it/s] 55%|█████▌    | 26548/48008 [3:48:45<2:50:04,  2.10it/s] 55%|█████▌    | 26549/48008 [3:48:46<2:53:25,  2.06it/s] 55%|█████▌    | 26550/48008 [3:48:46<2:41:51,  2.21it/s]                                                         {'loss': 4.2249, 'grad_norm': 0.12025136500597, 'learning_rate': 8.939760039993334e-05, 'epoch': 0.55} 55%|█████▌    | 26550/48008 [3:48:46<2:41:51,  2.21it/s]
 55%|█████▌    | 26551/48008 [3:48:47<2:50:50,  2.09it/s] 55%|█████▌    | 26552/48008 [3:48:47<2:50:59,  2.09it/s] 55%|█████▌    | 26553/48008 [3:48:48<2:51:36,  2.08it/s] 55%|█████▌    | 26554/48008 [3:48:48<2:51:45,  2.08it/s] 55%|█████▌    | 26555/48008 [3:48:49<2:51:30,  2.08it/s] 55%|█████▌    | 26556/48008 [3:48:49<2:55:36,  2.04it/s] 55%|█████▌    | 26557/48008 [3:48:50<2:56:51,  2.02it/s] 55%|█████▌    | 26558/48008 [3:48:50<2:55:22,  2.04it/s] 55%|█████▌    | 26559/48008 [3:48:51<2:47:30,  2.13it/s] 55%|█████▌    | 26560/48008 [3:48:51<2:52:53,  2.07it/s] 55%|█████▌    | 26561/48008 [3:48:52<2:55:15,  2.04it/s] 55%|█████▌    | 26562/48008 [3:48:52<2:53:42,  2.06it/s] 55%|█████▌    | 26563/48008 [3:48:53<2:53:14,  2.06it/s] 55%|█████▌    | 26564/48008 [3:48:53<2:53:05,  2.06it/s] 55%|█████▌    | 26565/48008 [3:48:54<2:55:13,  2.04it/s] 55%|█████▌    | 26566/48008 [3:48:54<2:54:12,  2.05it/s] 55%|█████▌    | 26567/48008 [3:48:55<2:57:34,  2.01it/s] 55%|█████▌    | 26568/48008 [3:48:55<3:00:10,  1.98it/s] 55%|█████▌    | 26569/48008 [3:48:56<3:03:43,  1.94it/s] 55%|█████▌    | 26570/48008 [3:48:56<3:03:53,  1.94it/s] 55%|█████▌    | 26571/48008 [3:48:57<3:05:05,  1.93it/s] 55%|█████▌    | 26572/48008 [3:48:57<3:05:13,  1.93it/s] 55%|█████▌    | 26573/48008 [3:48:58<3:03:57,  1.94it/s] 55%|█████▌    | 26574/48008 [3:48:58<3:00:50,  1.98it/s] 55%|█████▌    | 26575/48008 [3:48:59<3:00:01,  1.98it/s] 55%|█████▌    | 26576/48008 [3:48:59<3:00:11,  1.98it/s] 55%|█████▌    | 26577/48008 [3:49:00<2:57:59,  2.01it/s] 55%|█████▌    | 26578/48008 [3:49:00<2:56:29,  2.02it/s] 55%|█████▌    | 26579/48008 [3:49:01<2:55:08,  2.04it/s] 55%|█████▌    | 26580/48008 [3:49:01<2:56:30,  2.02it/s] 55%|█████▌    | 26581/48008 [3:49:02<2:56:56,  2.02it/s] 55%|█████▌    | 26582/48008 [3:49:02<2:48:42,  2.12it/s] 55%|█████▌    | 26583/48008 [3:49:02<2:49:26,  2.11it/s] 55%|█████▌    | 26584/48008 [3:49:03<2:52:30,  2.07it/s] 55%|█████▌    | 26585/48008 [3:49:03<2:51:40,  2.08it/s] 55%|█████▌    | 26586/48008 [3:49:04<3:12:19,  1.86it/s] 55%|█████▌    | 26587/48008 [3:49:05<3:09:02,  1.89it/s] 55%|█████▌    | 26588/48008 [3:49:05<3:03:29,  1.95it/s] 55%|█████▌    | 26589/48008 [3:49:06<2:53:09,  2.06it/s] 55%|█████▌    | 26590/48008 [3:49:06<2:52:28,  2.07it/s] 55%|█████▌    | 26591/48008 [3:49:07<2:55:59,  2.03it/s] 55%|█████▌    | 26592/48008 [3:49:07<2:54:09,  2.05it/s] 55%|█████▌    | 26593/48008 [3:49:07<2:46:18,  2.15it/s] 55%|█████▌    | 26594/48008 [3:49:08<2:54:23,  2.05it/s] 55%|█████▌    | 26595/48008 [3:49:08<2:56:06,  2.03it/s] 55%|█████▌    | 26596/48008 [3:49:09<2:55:35,  2.03it/s] 55%|█████▌    | 26597/48008 [3:49:09<2:57:33,  2.01it/s] 55%|█████▌    | 26598/48008 [3:49:11<4:18:04,  1.38it/s] 55%|█████▌    | 26599/48008 [3:49:11<3:51:48,  1.54it/s] 55%|█████▌    | 26600/48008 [3:49:12<3:38:20,  1.63it/s]                                                         {'loss': 4.2983, 'grad_norm': 0.14819709956645966, 'learning_rate': 8.918930178303616e-05, 'epoch': 0.55}
 55%|█████▌    | 26600/48008 [3:49:12<3:38:20,  1.63it/s] 55%|█████▌    | 26601/48008 [3:49:12<3:24:40,  1.74it/s] 55%|█████▌    | 26602/48008 [3:49:13<3:15:11,  1.83it/s] 55%|█████▌    | 26603/48008 [3:49:13<3:10:30,  1.87it/s] 55%|█████▌    | 26604/48008 [3:49:14<3:05:09,  1.93it/s] 55%|█████▌    | 26605/48008 [3:49:14<2:54:02,  2.05it/s] 55%|█████▌    | 26606/48008 [3:49:15<2:46:24,  2.14it/s] 55%|█████▌    | 26607/48008 [3:49:15<2:47:59,  2.12it/s] 55%|█████▌    | 26608/48008 [3:49:16<2:53:31,  2.06it/s] 55%|█████▌    | 26609/48008 [3:49:16<2:53:19,  2.06it/s] 55%|█████▌    | 26610/48008 [3:49:17<2:57:07,  2.01it/s] 55%|█████▌    | 26611/48008 [3:49:17<3:15:49,  1.82it/s] 55%|█████▌    | 26612/48008 [3:49:18<3:08:21,  1.89it/s] 55%|█████▌    | 26613/48008 [3:49:18<3:23:47,  1.75it/s] 55%|█████▌    | 26614/48008 [3:49:19<3:06:47,  1.91it/s] 55%|█████▌    | 26615/48008 [3:49:19<3:05:02,  1.93it/s] 55%|█████▌    | 26616/48008 [3:49:21<4:22:56,  1.36it/s] 55%|█████▌    | 26617/48008 [3:49:21<4:00:12,  1.48it/s] 55%|█████▌    | 26618/48008 [3:49:22<3:39:47,  1.62it/s] 55%|█████▌    | 26619/48008 [3:49:22<3:25:24,  1.74it/s] 55%|█████▌    | 26620/48008 [3:49:22<3:08:15,  1.89it/s] 55%|█████▌    | 26621/48008 [3:49:23<3:03:32,  1.94it/s] 55%|█████▌    | 26622/48008 [3:49:24<3:21:17,  1.77it/s] 55%|█████▌    | 26623/48008 [3:49:24<3:12:22,  1.85it/s] 55%|█████▌    | 26624/48008 [3:49:25<3:10:31,  1.87it/s] 55%|█████▌    | 26625/48008 [3:49:25<3:04:57,  1.93it/s] 55%|█████▌    | 26626/48008 [3:49:26<3:00:22,  1.98it/s] 55%|█████▌    | 26627/48008 [3:49:26<2:50:47,  2.09it/s] 55%|█████▌    | 26628/48008 [3:49:26<2:51:26,  2.08it/s] 55%|█████▌    | 26629/48008 [3:49:27<2:57:20,  2.01it/s] 55%|█████▌    | 26630/48008 [3:49:27<2:55:53,  2.03it/s] 55%|█████▌    | 26631/48008 [3:49:28<2:47:16,  2.13it/s] 55%|█████▌    | 26632/48008 [3:49:28<2:52:57,  2.06it/s] 55%|█████▌    | 26633/48008 [3:49:29<2:52:00,  2.07it/s] 55%|█████▌    | 26634/48008 [3:49:29<2:51:52,  2.07it/s] 55%|█████▌    | 26635/48008 [3:49:30<2:58:28,  2.00it/s] 55%|█████▌    | 26636/48008 [3:49:30<2:49:13,  2.10it/s] 55%|█████▌    | 26637/48008 [3:49:31<2:54:09,  2.05it/s] 55%|█████▌    | 26638/48008 [3:49:31<2:53:25,  2.05it/s] 55%|█████▌    | 26639/48008 [3:49:32<2:52:39,  2.06it/s] 55%|█████▌    | 26640/48008 [3:49:32<2:52:40,  2.06it/s] 55%|█████▌    | 26641/48008 [3:49:33<2:58:51,  1.99it/s] 55%|█████▌    | 26642/48008 [3:49:33<2:56:44,  2.01it/s] 55%|█████▌    | 26643/48008 [3:49:34<2:55:14,  2.03it/s] 55%|█████▌    | 26644/48008 [3:49:34<2:55:57,  2.02it/s] 56%|█████▌    | 26645/48008 [3:49:35<2:57:26,  2.01it/s] 56%|█████▌    | 26646/48008 [3:49:35<2:55:18,  2.03it/s] 56%|█████▌    | 26647/48008 [3:49:36<2:54:22,  2.04it/s] 56%|█████▌    | 26648/48008 [3:49:36<2:57:56,  2.00it/s] 56%|█████▌    | 26649/48008 [3:49:37<2:48:21,  2.11it/s] 56%|█████▌    | 26650/48008 [3:49:37<2:51:40,  2.07it/s]                                                         {'loss': 4.2582, 'grad_norm': 0.1162392869591713, 'learning_rate': 8.898100316613898e-05, 'epoch': 0.56} 56%|█████▌    | 26650/48008 [3:49:37<2:51:40,  2.07it/s]
 56%|█████▌    | 26651/48008 [3:49:38<2:45:00,  2.16it/s] 56%|█████▌    | 26652/48008 [3:49:38<2:47:02,  2.13it/s] 56%|█████▌    | 26653/48008 [3:49:39<2:41:11,  2.21it/s] 56%|█████▌    | 26654/48008 [3:49:39<2:43:44,  2.17it/s] 56%|█████▌    | 26655/48008 [3:49:39<2:45:49,  2.15it/s] 56%|█████▌    | 26656/48008 [3:49:40<2:51:53,  2.07it/s] 56%|█████▌    | 26657/48008 [3:49:40<2:51:17,  2.08it/s] 56%|█████▌    | 26658/48008 [3:49:41<2:44:39,  2.16it/s] 56%|█████▌    | 26659/48008 [3:49:41<2:49:32,  2.10it/s] 56%|█████▌    | 26660/48008 [3:49:42<2:49:51,  2.09it/s] 56%|█████▌    | 26661/48008 [3:49:42<2:50:25,  2.09it/s] 56%|█████▌    | 26662/48008 [3:49:43<2:43:40,  2.17it/s] 56%|█████▌    | 26663/48008 [3:49:43<2:46:01,  2.14it/s] 56%|█████▌    | 26664/48008 [3:49:44<2:41:01,  2.21it/s] 56%|█████▌    | 26665/48008 [3:49:44<2:46:17,  2.14it/s] 56%|█████▌    | 26666/48008 [3:49:45<2:40:41,  2.21it/s] 56%|█████▌    | 26667/48008 [3:49:45<2:37:11,  2.26it/s] 56%|█████▌    | 26668/48008 [3:49:45<2:34:33,  2.30it/s] 56%|█████▌    | 26669/48008 [3:49:46<2:42:15,  2.19it/s] 56%|█████▌    | 26670/48008 [3:49:46<2:45:13,  2.15it/s] 56%|█████▌    | 26671/48008 [3:49:47<2:39:28,  2.23it/s] 56%|█████▌    | 26672/48008 [3:49:47<2:45:56,  2.14it/s] 56%|█████▌    | 26673/48008 [3:49:48<3:08:26,  1.89it/s] 56%|█████▌    | 26674/48008 [3:49:49<4:26:09,  1.34it/s] 56%|█████▌    | 26675/48008 [3:49:50<3:57:15,  1.50it/s] 56%|█████▌    | 26676/48008 [3:49:50<3:37:14,  1.64it/s] 56%|█████▌    | 26677/48008 [3:49:51<3:16:37,  1.81it/s] 56%|█████▌    | 26678/48008 [3:49:51<3:02:03,  1.95it/s] 56%|█████▌    | 26679/48008 [3:49:52<2:51:36,  2.07it/s] 56%|█████▌    | 26680/48008 [3:49:52<2:51:14,  2.08it/s] 56%|█████▌    | 26681/48008 [3:49:52<2:53:30,  2.05it/s] 56%|█████▌    | 26682/48008 [3:49:53<2:52:49,  2.06it/s] 56%|█████▌    | 26683/48008 [3:49:53<2:57:02,  2.01it/s] 56%|█████▌    | 26684/48008 [3:49:54<2:54:54,  2.03it/s] 56%|█████▌    | 26685/48008 [3:49:54<2:57:59,  2.00it/s] 56%|█████▌    | 26686/48008 [3:49:55<2:58:10,  1.99it/s] 56%|█████▌    | 26687/48008 [3:49:55<2:56:01,  2.02it/s] 56%|█████▌    | 26688/48008 [3:49:56<2:54:18,  2.04it/s] 56%|█████▌    | 26689/48008 [3:49:56<2:56:58,  2.01it/s] 56%|█████▌    | 26690/48008 [3:49:57<2:57:14,  2.00it/s] 56%|█████▌    | 26691/48008 [3:49:57<2:55:16,  2.03it/s] 56%|█████▌    | 26692/48008 [3:49:58<2:53:35,  2.05it/s] 56%|█████▌    | 26693/48008 [3:49:58<2:52:49,  2.06it/s] 56%|█████▌    | 26694/48008 [3:49:59<2:52:26,  2.06it/s] 56%|█████▌    | 26695/48008 [3:49:59<2:51:19,  2.07it/s] 56%|█████▌    | 26696/48008 [3:50:00<2:51:04,  2.08it/s] 56%|█████▌    | 26697/48008 [3:50:00<2:57:16,  2.00it/s] 56%|█████▌    | 26698/48008 [3:50:01<2:55:28,  2.02it/s] 56%|█████▌    | 26699/48008 [3:50:01<2:56:51,  2.01it/s] 56%|█████▌    | 26700/48008 [3:50:02<2:57:15,  2.00it/s]                                                         {'loss': 4.2347, 'grad_norm': 0.09835109859704971, 'learning_rate': 8.877270454924179e-05, 'epoch': 0.56}
 56%|█████▌    | 26700/48008 [3:50:02<2:57:15,  2.00it/s] 56%|█████▌    | 26701/48008 [3:50:02<2:55:22,  2.02it/s] 56%|█████▌    | 26702/48008 [3:50:03<2:59:58,  1.97it/s] 56%|█████▌    | 26703/48008 [3:50:03<2:57:03,  2.01it/s] 56%|█████▌    | 26704/48008 [3:50:04<2:48:21,  2.11it/s] 56%|█████▌    | 26705/48008 [3:50:04<2:51:07,  2.07it/s] 56%|█████▌    | 26706/48008 [3:50:05<2:50:42,  2.08it/s] 56%|█████▌    | 26707/48008 [3:50:05<2:50:48,  2.08it/s] 56%|█████▌    | 26708/48008 [3:50:06<2:53:45,  2.04it/s] 56%|█████▌    | 26709/48008 [3:50:06<2:45:47,  2.14it/s] 56%|█████▌    | 26710/48008 [3:50:07<2:47:13,  2.12it/s] 56%|█████▌    | 26711/48008 [3:50:07<3:08:48,  1.88it/s] 56%|█████▌    | 26712/48008 [3:50:08<3:02:56,  1.94it/s] 56%|█████▌    | 26713/48008 [3:50:08<2:59:09,  1.98it/s] 56%|█████▌    | 26714/48008 [3:50:09<3:02:24,  1.95it/s] 56%|█████▌    | 26715/48008 [3:50:09<2:58:41,  1.99it/s] 56%|█████▌    | 26716/48008 [3:50:10<2:56:37,  2.01it/s] 56%|█████▌    | 26717/48008 [3:50:10<2:54:46,  2.03it/s] 56%|█████▌    | 26718/48008 [3:50:11<2:53:49,  2.04it/s] 56%|█████▌    | 26719/48008 [3:50:11<2:46:18,  2.13it/s] 56%|█████▌    | 26720/48008 [3:50:12<2:51:57,  2.06it/s] 56%|█████▌    | 26721/48008 [3:50:12<2:57:23,  2.00it/s] 56%|█████▌    | 26722/48008 [3:50:13<2:59:44,  1.97it/s] 56%|█████▌    | 26723/48008 [3:50:13<2:57:11,  2.00it/s] 56%|█████▌    | 26724/48008 [3:50:14<2:55:04,  2.03it/s] 56%|█████▌    | 26725/48008 [3:50:14<2:46:41,  2.13it/s] 56%|█████▌    | 26726/48008 [3:50:15<3:08:31,  1.88it/s] 56%|█████▌    | 26727/48008 [3:50:15<3:03:04,  1.94it/s] 56%|█████▌    | 26728/48008 [3:50:16<2:52:17,  2.06it/s] 56%|█████▌    | 26729/48008 [3:50:16<2:51:39,  2.07it/s] 56%|█████▌    | 26730/48008 [3:50:17<2:51:07,  2.07it/s] 56%|█████▌    | 26731/48008 [3:50:17<2:53:14,  2.05it/s] 56%|█████▌    | 26732/48008 [3:50:18<2:52:26,  2.06it/s] 56%|█████▌    | 26733/48008 [3:50:18<2:44:38,  2.15it/s] 56%|█████▌    | 26734/48008 [3:50:19<2:46:04,  2.13it/s] 56%|█████▌    | 26735/48008 [3:50:19<2:49:35,  2.09it/s] 56%|█████▌    | 26736/48008 [3:50:20<2:54:07,  2.04it/s] 56%|█████▌    | 26737/48008 [3:50:21<4:14:38,  1.39it/s] 56%|█████▌    | 26738/48008 [3:50:21<3:53:16,  1.52it/s] 56%|█████▌    | 26739/48008 [3:50:22<3:37:07,  1.63it/s] 56%|█████▌    | 26740/48008 [3:50:23<3:43:52,  1.58it/s] 56%|█████▌    | 26741/48008 [3:50:23<3:20:44,  1.77it/s] 56%|█████▌    | 26742/48008 [3:50:23<3:04:40,  1.92it/s] 56%|█████▌    | 26743/48008 [3:50:24<3:00:28,  1.96it/s] 56%|█████▌    | 26744/48008 [3:50:24<2:59:50,  1.97it/s] 56%|█████▌    | 26745/48008 [3:50:25<2:59:19,  1.98it/s] 56%|█████▌    | 26746/48008 [3:50:25<2:56:42,  2.01it/s] 56%|█████▌    | 26747/48008 [3:50:26<2:57:21,  2.00it/s] 56%|█████▌    | 26748/48008 [3:50:26<2:54:59,  2.02it/s] 56%|█████▌    | 26749/48008 [3:50:27<2:53:44,  2.04it/s] 56%|█████▌    | 26750/48008 [3:50:27<2:56:40,  2.01it/s]                                                         {'loss': 4.2536, 'grad_norm': 0.10044992715120316, 'learning_rate': 8.856440593234462e-05, 'epoch': 0.56}
 56%|█████▌    | 26750/48008 [3:50:27<2:56:40,  2.01it/s] 56%|█████▌    | 26751/48008 [3:50:28<2:54:58,  2.02it/s] 56%|█████▌    | 26752/48008 [3:50:28<2:56:16,  2.01it/s] 56%|█████▌    | 26753/48008 [3:50:29<2:58:11,  1.99it/s] 56%|█████▌    | 26754/48008 [3:50:29<2:48:32,  2.10it/s] 56%|█████▌    | 26755/48008 [3:50:30<2:42:19,  2.18it/s] 56%|█████▌    | 26756/48008 [3:50:30<2:44:47,  2.15it/s] 56%|█████▌    | 26757/48008 [3:50:30<2:35:38,  2.28it/s] 56%|█████▌    | 26758/48008 [3:50:31<2:32:54,  2.32it/s] 56%|█████▌    | 26759/48008 [3:50:31<2:30:57,  2.35it/s] 56%|█████▌    | 26760/48008 [3:50:32<3:32:31,  1.67it/s] 56%|█████▌    | 26761/48008 [3:50:33<3:19:55,  1.77it/s] 56%|█████▌    | 26762/48008 [3:50:33<3:13:42,  1.83it/s] 56%|█████▌    | 26763/48008 [3:50:34<3:08:59,  1.87it/s] 56%|█████▌    | 26764/48008 [3:50:34<3:05:31,  1.91it/s] 56%|█████▌    | 26765/48008 [3:50:35<3:00:53,  1.96it/s] 56%|█████▌    | 26766/48008 [3:50:35<2:50:52,  2.07it/s] 56%|█████▌    | 26767/48008 [3:50:36<2:50:26,  2.08it/s] 56%|█████▌    | 26768/48008 [3:50:36<2:52:37,  2.05it/s] 56%|█████▌    | 26769/48008 [3:50:37<2:44:45,  2.15it/s] 56%|█████▌    | 26770/48008 [3:50:37<2:45:51,  2.13it/s] 56%|█████▌    | 26771/48008 [3:50:38<2:46:58,  2.12it/s] 56%|█████▌    | 26772/48008 [3:50:38<2:40:59,  2.20it/s] 56%|█████▌    | 26773/48008 [3:50:39<3:03:53,  1.92it/s] 56%|█████▌    | 26774/48008 [3:50:39<3:02:11,  1.94it/s] 56%|█████▌    | 26775/48008 [3:50:40<3:00:56,  1.96it/s] 56%|█████▌    | 26776/48008 [3:50:40<3:01:45,  1.95it/s] 56%|█████▌    | 26777/48008 [3:50:41<2:58:23,  1.98it/s] 56%|█████▌    | 26778/48008 [3:50:41<3:02:07,  1.94it/s] 56%|█████▌    | 26779/48008 [3:50:42<3:40:31,  1.60it/s] 56%|█████▌    | 26780/48008 [3:50:43<3:25:08,  1.72it/s] 56%|█████▌    | 26781/48008 [3:50:43<3:07:37,  1.89it/s] 56%|█████▌    | 26782/48008 [3:50:43<3:04:40,  1.92it/s] 56%|█████▌    | 26783/48008 [3:50:44<2:53:17,  2.04it/s] 56%|█████▌    | 26784/48008 [3:50:44<2:52:24,  2.05it/s] 56%|█████▌    | 26785/48008 [3:50:45<2:44:42,  2.15it/s] 56%|█████▌    | 26786/48008 [3:50:45<2:46:18,  2.13it/s] 56%|█████▌    | 26787/48008 [3:50:46<2:49:43,  2.08it/s] 56%|█████▌    | 26788/48008 [3:50:47<3:31:47,  1.67it/s] 56%|█████▌    | 26789/48008 [3:50:47<3:24:58,  1.73it/s] 56%|█████▌    | 26790/48008 [3:50:48<3:18:26,  1.78it/s] 56%|█████▌    | 26791/48008 [3:50:48<3:02:55,  1.93it/s] 56%|█████▌    | 26792/48008 [3:50:49<2:58:53,  1.98it/s] 56%|█████▌    | 26793/48008 [3:50:49<3:00:15,  1.96it/s] 56%|█████▌    | 26794/48008 [3:50:50<3:01:23,  1.95it/s] 56%|█████▌    | 26795/48008 [3:50:50<3:00:19,  1.96it/s] 56%|█████▌    | 26796/48008 [3:50:51<2:49:55,  2.08it/s] 56%|█████▌    | 26797/48008 [3:50:51<2:49:55,  2.08it/s] 56%|█████▌    | 26798/48008 [3:50:52<2:55:43,  2.01it/s] 56%|█████▌    | 26799/48008 [3:50:52<2:46:58,  2.12it/s] 56%|█████▌    | 26800/48008 [3:50:53<3:08:23,  1.88it/s]                                                         {'loss': 4.255, 'grad_norm': 0.08815757930278778, 'learning_rate': 8.835610731544743e-05, 'epoch': 0.56}
 56%|█████▌    | 26800/48008 [3:50:53<3:08:23,  1.88it/s] 56%|█████▌    | 26801/48008 [3:50:53<3:02:24,  1.94it/s] 56%|█████▌    | 26802/48008 [3:50:54<2:58:35,  1.98it/s] 56%|█████▌    | 26803/48008 [3:50:54<2:55:46,  2.01it/s] 56%|█████▌    | 26804/48008 [3:50:55<2:58:07,  1.98it/s] 56%|█████▌    | 26805/48008 [3:50:55<2:48:23,  2.10it/s] 56%|█████▌    | 26806/48008 [3:50:55<2:49:01,  2.09it/s] 56%|█████▌    | 26807/48008 [3:50:56<2:49:00,  2.09it/s] 56%|█████▌    | 26808/48008 [3:50:56<2:48:42,  2.09it/s] 56%|█████▌    | 26809/48008 [3:50:57<2:49:00,  2.09it/s] 56%|█████▌    | 26810/48008 [3:50:57<2:42:18,  2.18it/s] 56%|█████▌    | 26811/48008 [3:50:58<2:44:12,  2.15it/s] 56%|█████▌    | 26812/48008 [3:50:58<2:49:28,  2.08it/s] 56%|█████▌    | 26813/48008 [3:50:59<2:49:29,  2.08it/s] 56%|█████▌    | 26814/48008 [3:50:59<2:49:26,  2.08it/s] 56%|█████▌    | 26815/48008 [3:51:00<2:55:19,  2.01it/s] 56%|█████▌    | 26816/48008 [3:51:00<2:53:39,  2.03it/s] 56%|█████▌    | 26817/48008 [3:51:01<2:51:53,  2.05it/s] 56%|█████▌    | 26818/48008 [3:51:01<2:51:08,  2.06it/s] 56%|█████▌    | 26819/48008 [3:51:03<4:12:27,  1.40it/s] 56%|█████▌    | 26820/48008 [3:51:03<3:47:25,  1.55it/s] 56%|█████▌    | 26821/48008 [3:51:03<3:30:16,  1.68it/s] 56%|█████▌    | 26822/48008 [3:51:04<3:17:34,  1.79it/s] 56%|█████▌    | 26823/48008 [3:51:04<3:09:04,  1.87it/s] 56%|█████▌    | 26824/48008 [3:51:05<2:56:11,  2.00it/s] 56%|█████▌    | 26825/48008 [3:51:05<2:53:54,  2.03it/s] 56%|█████▌    | 26826/48008 [3:51:06<2:53:08,  2.04it/s] 56%|█████▌    | 26827/48008 [3:51:06<2:51:50,  2.05it/s] 56%|█████▌    | 26828/48008 [3:51:07<2:51:24,  2.06it/s] 56%|█████▌    | 26829/48008 [3:51:07<2:51:04,  2.06it/s] 56%|█████▌    | 26830/48008 [3:51:08<2:43:50,  2.15it/s] 56%|█████▌    | 26831/48008 [3:51:08<2:38:35,  2.23it/s] 56%|█████▌    | 26832/48008 [3:51:09<2:44:08,  2.15it/s] 56%|█████▌    | 26833/48008 [3:51:09<2:39:05,  2.22it/s] 56%|█████▌    | 26834/48008 [3:51:10<4:03:58,  1.45it/s] 56%|█████▌    | 26835/48008 [3:51:11<3:46:34,  1.56it/s] 56%|█████▌    | 26836/48008 [3:51:11<3:31:50,  1.67it/s] 56%|█████▌    | 26837/48008 [3:51:13<4:40:13,  1.26it/s] 56%|█████▌    | 26838/48008 [3:51:13<4:10:13,  1.41it/s] 56%|█████▌    | 26839/48008 [3:51:14<3:50:38,  1.53it/s] 56%|█████▌    | 26840/48008 [3:51:14<3:33:01,  1.66it/s] 56%|█████▌    | 26841/48008 [3:51:14<3:13:26,  1.82it/s] 56%|█████▌    | 26842/48008 [3:51:15<3:08:54,  1.87it/s] 56%|█████▌    | 26843/48008 [3:51:15<3:03:08,  1.93it/s] 56%|█████▌    | 26844/48008 [3:51:16<3:03:33,  1.92it/s] 56%|█████▌    | 26845/48008 [3:51:16<2:59:34,  1.96it/s] 56%|█████▌    | 26846/48008 [3:51:17<2:58:56,  1.97it/s] 56%|█████▌    | 26847/48008 [3:51:17<2:56:32,  2.00it/s] 56%|█████▌    | 26848/48008 [3:51:18<2:54:17,  2.02it/s] 56%|█████▌    | 26849/48008 [3:51:18<2:55:39,  2.01it/s] 56%|█████▌    | 26850/48008 [3:51:19<3:00:13,  1.96it/s]                                                         {'loss': 4.2544, 'grad_norm': 0.25157031416893005, 'learning_rate': 8.814780869855025e-05, 'epoch': 0.56}
 56%|█████▌    | 26850/48008 [3:51:19<3:00:13,  1.96it/s] 56%|█████▌    | 26851/48008 [3:51:20<3:17:40,  1.78it/s] 56%|█████▌    | 26852/48008 [3:51:20<3:29:23,  1.68it/s] 56%|█████▌    | 26853/48008 [3:51:21<3:17:55,  1.78it/s] 56%|█████▌    | 26854/48008 [3:51:21<3:15:41,  1.80it/s] 56%|█████▌    | 26855/48008 [3:51:22<3:07:41,  1.88it/s] 56%|█████▌    | 26856/48008 [3:51:22<3:04:37,  1.91it/s] 56%|█████▌    | 26857/48008 [3:51:23<2:53:19,  2.03it/s] 56%|█████▌    | 26858/48008 [3:51:23<2:52:20,  2.05it/s] 56%|█████▌    | 26859/48008 [3:51:24<2:53:43,  2.03it/s] 56%|█████▌    | 26860/48008 [3:51:24<2:52:24,  2.04it/s] 56%|█████▌    | 26861/48008 [3:51:25<2:51:34,  2.05it/s] 56%|█████▌    | 26862/48008 [3:51:25<2:55:06,  2.01it/s] 56%|█████▌    | 26863/48008 [3:51:26<2:59:40,  1.96it/s] 56%|█████▌    | 26864/48008 [3:51:26<2:56:39,  1.99it/s] 56%|█████▌    | 26865/48008 [3:51:27<2:43:51,  2.15it/s] 56%|█████▌    | 26866/48008 [3:51:27<2:50:05,  2.07it/s] 56%|█████▌    | 26867/48008 [3:51:28<2:42:51,  2.16it/s] 56%|█████▌    | 26868/48008 [3:51:28<2:44:41,  2.14it/s] 56%|█████▌    | 26869/48008 [3:51:29<2:48:34,  2.09it/s] 56%|█████▌    | 26870/48008 [3:51:29<2:51:41,  2.05it/s] 56%|█████▌    | 26871/48008 [3:51:30<2:53:38,  2.03it/s] 56%|█████▌    | 26872/48008 [3:51:30<2:54:57,  2.01it/s] 56%|█████▌    | 26873/48008 [3:51:31<2:55:41,  2.00it/s] 56%|█████▌    | 26874/48008 [3:51:31<2:57:46,  1.98it/s] 56%|█████▌    | 26875/48008 [3:51:32<2:55:24,  2.01it/s] 56%|█████▌    | 26876/48008 [3:51:32<2:59:15,  1.96it/s] 56%|█████▌    | 26877/48008 [3:51:33<3:02:23,  1.93it/s] 56%|█████▌    | 26878/48008 [3:51:33<3:01:54,  1.94it/s] 56%|█████▌    | 26879/48008 [3:51:34<3:02:07,  1.93it/s] 56%|█████▌    | 26880/48008 [3:51:34<2:58:25,  1.97it/s] 56%|█████▌    | 26881/48008 [3:51:35<2:59:29,  1.96it/s] 56%|█████▌    | 26882/48008 [3:51:37<5:20:09,  1.10it/s] 56%|█████▌    | 26883/48008 [3:51:37<4:28:19,  1.31it/s] 56%|█████▌    | 26884/48008 [3:51:37<3:58:53,  1.47it/s] 56%|█████▌    | 26885/48008 [3:51:38<3:41:59,  1.59it/s] 56%|█████▌    | 26886/48008 [3:51:38<3:29:50,  1.68it/s] 56%|█████▌    | 26887/48008 [3:51:39<3:22:28,  1.74it/s] 56%|█████▌    | 26888/48008 [3:51:40<4:52:56,  1.20it/s] 56%|█████▌    | 26889/48008 [3:51:41<4:15:32,  1.38it/s] 56%|█████▌    | 26890/48008 [3:51:41<3:49:56,  1.53it/s] 56%|█████▌    | 26891/48008 [3:51:42<3:24:54,  1.72it/s] 56%|█████▌    | 26892/48008 [3:51:42<3:06:49,  1.88it/s] 56%|█████▌    | 26893/48008 [3:51:43<3:03:52,  1.91it/s] 56%|█████▌    | 26894/48008 [3:51:44<4:33:16,  1.29it/s] 56%|█████▌    | 26895/48008 [3:51:45<4:04:50,  1.44it/s] 56%|█████▌    | 26896/48008 [3:51:45<3:42:07,  1.58it/s] 56%|█████▌    | 26897/48008 [3:51:45<3:19:40,  1.76it/s] 56%|█████▌    | 26898/48008 [3:51:46<3:03:50,  1.91it/s] 56%|█████▌    | 26899/48008 [3:51:46<3:02:07,  1.93it/s] 56%|█████▌    | 26900/48008 [3:51:47<3:58:48,  1.47it/s]                                                         {'loss': 4.2579, 'grad_norm': 0.10399050265550613, 'learning_rate': 8.793951008165306e-05, 'epoch': 0.56}
 56%|█████▌    | 26900/48008 [3:51:47<3:58:48,  1.47it/s] 56%|█████▌    | 26901/48008 [3:51:48<3:38:18,  1.61it/s] 56%|█████▌    | 26902/48008 [3:51:48<3:23:17,  1.73it/s] 56%|█████▌    | 26903/48008 [3:51:49<3:06:06,  1.89it/s] 56%|█████▌    | 26904/48008 [3:51:49<3:03:56,  1.91it/s] 56%|█████▌    | 26905/48008 [3:51:50<2:59:32,  1.96it/s] 56%|█████▌    | 26906/48008 [3:51:50<2:58:39,  1.97it/s] 56%|█████▌    | 26907/48008 [3:51:51<2:55:52,  2.00it/s] 56%|█████▌    | 26908/48008 [3:51:51<2:47:05,  2.10it/s] 56%|█████▌    | 26909/48008 [3:51:52<2:50:39,  2.06it/s] 56%|█████▌    | 26910/48008 [3:51:52<2:52:53,  2.03it/s] 56%|█████▌    | 26911/48008 [3:51:53<2:52:01,  2.04it/s] 56%|█████▌    | 26912/48008 [3:51:53<2:51:41,  2.05it/s] 56%|█████▌    | 26913/48008 [3:51:54<4:12:50,  1.39it/s] 56%|█████▌    | 26914/48008 [3:51:55<3:50:10,  1.53it/s] 56%|█████▌    | 26915/48008 [3:51:55<3:24:55,  1.72it/s] 56%|█████▌    | 26916/48008 [3:51:56<3:13:47,  1.81it/s] 56%|█████▌    | 26917/48008 [3:51:56<3:06:36,  1.88it/s] 56%|█████▌    | 26918/48008 [3:51:57<3:01:37,  1.94it/s] 56%|█████▌    | 26919/48008 [3:51:57<2:57:48,  1.98it/s] 56%|█████▌    | 26920/48008 [3:51:58<2:58:55,  1.96it/s] 56%|█████▌    | 26921/48008 [3:51:58<2:55:39,  2.00it/s] 56%|█████▌    | 26922/48008 [3:51:59<2:46:27,  2.11it/s] 56%|█████▌    | 26923/48008 [3:51:59<2:47:16,  2.10it/s] 56%|█████▌    | 26924/48008 [3:52:00<2:50:22,  2.06it/s] 56%|█████▌    | 26925/48008 [3:52:00<2:52:10,  2.04it/s] 56%|█████▌    | 26926/48008 [3:52:01<2:57:38,  1.98it/s] 56%|█████▌    | 26927/48008 [3:52:01<2:55:22,  2.00it/s] 56%|█████▌    | 26928/48008 [3:52:02<2:55:21,  2.00it/s] 56%|█████▌    | 26929/48008 [3:52:02<3:14:03,  1.81it/s] 56%|█████▌    | 26930/48008 [3:52:03<3:13:05,  1.82it/s] 56%|█████▌    | 26931/48008 [3:52:03<2:58:56,  1.96it/s] 56%|█████▌    | 26932/48008 [3:52:04<2:49:15,  2.08it/s] 56%|█████▌    | 26933/48008 [3:52:04<3:09:43,  1.85it/s] 56%|█████▌    | 26934/48008 [3:52:05<3:07:10,  1.88it/s] 56%|█████▌    | 26935/48008 [3:52:05<2:51:17,  2.05it/s] 56%|█████▌    | 26936/48008 [3:52:06<2:52:56,  2.03it/s] 56%|█████▌    | 26937/48008 [3:52:06<2:44:55,  2.13it/s] 56%|█████▌    | 26938/48008 [3:52:07<2:48:44,  2.08it/s] 56%|█████▌    | 26939/48008 [3:52:07<2:48:52,  2.08it/s] 56%|█████▌    | 26940/48008 [3:52:09<4:09:18,  1.41it/s] 56%|█████▌    | 26941/48008 [3:52:09<3:34:41,  1.64it/s] 56%|█████▌    | 26942/48008 [3:52:09<3:22:55,  1.73it/s] 56%|█████▌    | 26943/48008 [3:52:10<3:13:04,  1.82it/s] 56%|█████▌    | 26944/48008 [3:52:11<3:25:51,  1.71it/s] 56%|█████▌    | 26945/48008 [3:52:11<3:18:27,  1.77it/s] 56%|█████▌    | 26946/48008 [3:52:12<3:09:29,  1.85it/s] 56%|█████▌    | 26947/48008 [3:52:12<2:56:42,  1.99it/s] 56%|█████▌    | 26948/48008 [3:52:12<2:54:47,  2.01it/s] 56%|█████▌    | 26949/48008 [3:52:13<2:53:01,  2.03it/s] 56%|█████▌    | 26950/48008 [3:52:13<2:51:08,  2.05it/s]                                                         {'loss': 4.2649, 'grad_norm': 0.10059887915849686, 'learning_rate': 8.773121146475588e-05, 'epoch': 0.56}
 56%|█████▌    | 26950/48008 [3:52:13<2:51:08,  2.05it/s] 56%|█████▌    | 26951/48008 [3:52:14<2:50:08,  2.06it/s] 56%|█████▌    | 26952/48008 [3:52:14<2:43:05,  2.15it/s] 56%|█████▌    | 26953/48008 [3:52:15<2:49:27,  2.07it/s] 56%|█████▌    | 26954/48008 [3:52:15<2:48:49,  2.08it/s] 56%|█████▌    | 26955/48008 [3:52:17<4:09:39,  1.41it/s] 56%|█████▌    | 26956/48008 [3:52:17<3:52:06,  1.51it/s] 56%|█████▌    | 26957/48008 [3:52:18<3:39:06,  1.60it/s] 56%|█████▌    | 26958/48008 [3:52:18<3:16:49,  1.78it/s] 56%|█████▌    | 26959/48008 [3:52:19<3:08:43,  1.86it/s] 56%|█████▌    | 26960/48008 [3:52:19<3:03:06,  1.92it/s] 56%|█████▌    | 26961/48008 [3:52:20<3:02:29,  1.92it/s] 56%|█████▌    | 26962/48008 [3:52:20<2:58:33,  1.96it/s] 56%|█████▌    | 26963/48008 [3:52:21<2:57:32,  1.98it/s] 56%|█████▌    | 26964/48008 [3:52:21<2:48:17,  2.08it/s] 56%|█████▌    | 26965/48008 [3:52:21<2:41:20,  2.17it/s] 56%|█████▌    | 26966/48008 [3:52:22<2:43:34,  2.14it/s] 56%|█████▌    | 26967/48008 [3:52:22<2:48:40,  2.08it/s] 56%|█████▌    | 26968/48008 [3:52:23<2:41:53,  2.17it/s] 56%|█████▌    | 26969/48008 [3:52:23<2:44:04,  2.14it/s] 56%|█████▌    | 26970/48008 [3:52:24<2:49:07,  2.07it/s] 56%|█████▌    | 26971/48008 [3:52:24<2:49:25,  2.07it/s] 56%|█████▌    | 26972/48008 [3:52:25<2:51:39,  2.04it/s] 56%|█████▌    | 26973/48008 [3:52:25<2:51:18,  2.05it/s] 56%|█████▌    | 26974/48008 [3:52:26<2:50:50,  2.05it/s] 56%|█████▌    | 26975/48008 [3:52:26<2:50:13,  2.06it/s] 56%|█████▌    | 26976/48008 [3:52:27<3:09:48,  1.85it/s] 56%|█████▌    | 26977/48008 [3:52:27<3:03:44,  1.91it/s] 56%|█████▌    | 26978/48008 [3:52:28<3:01:42,  1.93it/s] 56%|█████▌    | 26979/48008 [3:52:28<2:59:40,  1.95it/s] 56%|█████▌    | 26980/48008 [3:52:29<2:56:20,  1.99it/s] 56%|█████▌    | 26981/48008 [3:52:29<2:54:05,  2.01it/s] 56%|█████▌    | 26982/48008 [3:52:30<2:45:29,  2.12it/s] 56%|█████▌    | 26983/48008 [3:52:30<2:50:34,  2.05it/s] 56%|█████▌    | 26984/48008 [3:52:31<2:49:57,  2.06it/s] 56%|█████▌    | 26985/48008 [3:52:31<2:56:05,  1.99it/s] 56%|█████▌    | 26986/48008 [3:52:32<3:13:38,  1.81it/s] 56%|█████▌    | 26987/48008 [3:52:32<3:08:57,  1.85it/s] 56%|█████▌    | 26988/48008 [3:52:33<3:02:52,  1.92it/s] 56%|█████▌    | 26989/48008 [3:52:33<2:51:49,  2.04it/s] 56%|█████▌    | 26990/48008 [3:52:34<2:53:24,  2.02it/s] 56%|█████▌    | 26991/48008 [3:52:34<2:54:28,  2.01it/s] 56%|█████▌    | 26992/48008 [3:52:35<2:45:59,  2.11it/s] 56%|█████▌    | 26993/48008 [3:52:35<2:49:18,  2.07it/s] 56%|█████▌    | 26994/48008 [3:52:36<3:09:24,  1.85it/s] 56%|█████▌    | 26995/48008 [3:52:37<3:23:10,  1.72it/s] 56%|█████▌    | 26996/48008 [3:52:37<3:13:08,  1.81it/s] 56%|█████▌    | 26997/48008 [3:52:38<2:58:11,  1.97it/s] 56%|█████▌    | 26998/48008 [3:52:38<3:37:31,  1.61it/s] 56%|█████▌    | 26999/48008 [3:52:39<3:16:09,  1.78it/s] 56%|█████▌    | 27000/48008 [3:52:39<3:08:22,  1.86it/s]                                                         {'loss': 4.226, 'grad_norm': 0.11113637685775757, 'learning_rate': 8.75229128478587e-05, 'epoch': 0.56}
 56%|█████▌    | 27000/48008 [3:52:39<3:08:22,  1.86it/s] 56%|█████▌    | 27001/48008 [3:52:40<3:02:32,  1.92it/s] 56%|█████▌    | 27002/48008 [3:52:40<3:02:20,  1.92it/s] 56%|█████▌    | 27003/48008 [3:52:41<2:58:18,  1.96it/s] 56%|█████▌    | 27004/48008 [3:52:41<2:57:36,  1.97it/s] 56%|█████▋    | 27005/48008 [3:52:42<2:55:27,  2.00it/s] 56%|█████▋    | 27006/48008 [3:52:42<2:53:36,  2.02it/s] 56%|█████▋    | 27007/48008 [3:52:43<2:52:08,  2.03it/s] 56%|█████▋    | 27008/48008 [3:52:43<2:51:20,  2.04it/s] 56%|█████▋    | 27009/48008 [3:52:44<2:43:49,  2.14it/s] 56%|█████▋    | 27010/48008 [3:52:44<2:38:39,  2.21it/s] 56%|█████▋    | 27011/48008 [3:52:45<2:44:25,  2.13it/s] 56%|█████▋    | 27012/48008 [3:52:45<2:51:32,  2.04it/s] 56%|█████▋    | 27013/48008 [3:52:46<2:43:53,  2.13it/s] 56%|█████▋    | 27014/48008 [3:52:46<2:45:21,  2.12it/s] 56%|█████▋    | 27015/48008 [3:52:47<2:50:50,  2.05it/s] 56%|█████▋    | 27016/48008 [3:52:47<2:50:03,  2.06it/s] 56%|█████▋    | 27017/48008 [3:52:48<2:49:56,  2.06it/s] 56%|█████▋    | 27018/48008 [3:52:48<2:54:01,  2.01it/s] 56%|█████▋    | 27019/48008 [3:52:49<2:52:00,  2.03it/s] 56%|█████▋    | 27020/48008 [3:52:49<3:32:17,  1.65it/s] 56%|█████▋    | 27021/48008 [3:52:50<3:11:58,  1.82it/s] 56%|█████▋    | 27022/48008 [3:52:50<3:05:16,  1.89it/s] 56%|█████▋    | 27023/48008 [3:52:51<3:02:38,  1.91it/s] 56%|█████▋    | 27024/48008 [3:52:51<3:00:07,  1.94it/s] 56%|█████▋    | 27025/48008 [3:52:52<3:02:12,  1.92it/s] 56%|█████▋    | 27026/48008 [3:52:52<3:00:08,  1.94it/s] 56%|█████▋    | 27027/48008 [3:52:53<2:56:49,  1.98it/s] 56%|█████▋    | 27028/48008 [3:52:53<3:00:47,  1.93it/s] 56%|█████▋    | 27029/48008 [3:52:54<2:57:03,  1.97it/s] 56%|█████▋    | 27030/48008 [3:52:54<2:57:52,  1.97it/s] 56%|█████▋    | 27031/48008 [3:52:55<2:58:20,  1.96it/s] 56%|█████▋    | 27032/48008 [3:52:55<2:55:36,  1.99it/s] 56%|█████▋    | 27033/48008 [3:52:56<2:53:04,  2.02it/s] 56%|█████▋    | 27034/48008 [3:52:56<2:44:24,  2.13it/s] 56%|█████▋    | 27035/48008 [3:52:57<2:45:38,  2.11it/s] 56%|█████▋    | 27036/48008 [3:52:57<2:39:58,  2.18it/s] 56%|█████▋    | 27037/48008 [3:52:58<2:45:01,  2.12it/s] 56%|█████▋    | 27038/48008 [3:52:58<2:46:22,  2.10it/s] 56%|█████▋    | 27039/48008 [3:52:59<2:53:09,  2.02it/s] 56%|█████▋    | 27040/48008 [3:52:59<2:53:28,  2.01it/s] 56%|█████▋    | 27041/48008 [3:53:00<2:52:14,  2.03it/s] 56%|█████▋    | 27042/48008 [3:53:00<2:54:52,  2.00it/s] 56%|█████▋    | 27043/48008 [3:53:01<2:52:33,  2.02it/s] 56%|█████▋    | 27044/48008 [3:53:01<2:44:29,  2.12it/s] 56%|█████▋    | 27045/48008 [3:53:02<2:47:45,  2.08it/s] 56%|█████▋    | 27046/48008 [3:53:02<3:08:29,  1.85it/s] 56%|█████▋    | 27047/48008 [3:53:03<3:06:37,  1.87it/s] 56%|█████▋    | 27048/48008 [3:53:03<3:03:39,  1.90it/s] 56%|█████▋    | 27049/48008 [3:53:04<2:58:26,  1.96it/s] 56%|█████▋    | 27050/48008 [3:53:04<3:01:27,  1.92it/s]                                                         {'loss': 4.263, 'grad_norm': 0.12060751765966415, 'learning_rate': 8.731461423096151e-05, 'epoch': 0.56} 56%|█████▋    | 27050/48008 [3:53:04<3:01:27,  1.92it/s]
 56%|█████▋    | 27051/48008 [3:53:05<2:57:03,  1.97it/s] 56%|█████▋    | 27052/48008 [3:53:05<2:56:12,  1.98it/s] 56%|█████▋    | 27053/48008 [3:53:06<2:57:37,  1.97it/s] 56%|█████▋    | 27054/48008 [3:53:06<2:58:46,  1.95it/s] 56%|█████▋    | 27055/48008 [3:53:07<2:57:55,  1.96it/s] 56%|█████▋    | 27056/48008 [3:53:07<2:44:33,  2.12it/s] 56%|█████▋    | 27057/48008 [3:53:08<2:50:07,  2.05it/s] 56%|█████▋    | 27058/48008 [3:53:08<2:49:15,  2.06it/s] 56%|█████▋    | 27059/48008 [3:53:09<2:48:31,  2.07it/s] 56%|█████▋    | 27060/48008 [3:53:09<2:41:45,  2.16it/s] 56%|█████▋    | 27061/48008 [3:53:10<2:46:30,  2.10it/s] 56%|█████▋    | 27062/48008 [3:53:10<3:27:59,  1.68it/s] 56%|█████▋    | 27063/48008 [3:53:11<3:19:30,  1.75it/s] 56%|█████▋    | 27064/48008 [3:53:11<3:10:20,  1.83it/s] 56%|█████▋    | 27065/48008 [3:53:12<2:56:56,  1.97it/s] 56%|█████▋    | 27066/48008 [3:53:12<2:47:40,  2.08it/s] 56%|█████▋    | 27067/48008 [3:53:13<2:47:32,  2.08it/s] 56%|█████▋    | 27068/48008 [3:53:13<2:49:36,  2.06it/s] 56%|█████▋    | 27069/48008 [3:53:14<2:48:26,  2.07it/s] 56%|█████▋    | 27070/48008 [3:53:14<3:08:42,  1.85it/s] 56%|█████▋    | 27071/48008 [3:53:15<3:02:51,  1.91it/s] 56%|█████▋    | 27072/48008 [3:53:15<2:58:36,  1.95it/s] 56%|█████▋    | 27073/48008 [3:53:16<2:55:26,  1.99it/s] 56%|█████▋    | 27074/48008 [3:53:16<2:54:57,  1.99it/s] 56%|█████▋    | 27075/48008 [3:53:17<2:46:24,  2.10it/s] 56%|█████▋    | 27076/48008 [3:53:17<2:46:14,  2.10it/s] 56%|█████▋    | 27077/48008 [3:53:18<2:46:45,  2.09it/s] 56%|█████▋    | 27078/48008 [3:53:18<2:51:35,  2.03it/s] 56%|█████▋    | 27079/48008 [3:53:19<2:50:46,  2.04it/s] 56%|█████▋    | 27080/48008 [3:53:20<3:32:00,  1.65it/s] 56%|█████▋    | 27081/48008 [3:53:20<3:18:33,  1.76it/s] 56%|█████▋    | 27082/48008 [3:53:21<3:13:27,  1.80it/s] 56%|█████▋    | 27083/48008 [3:53:21<3:09:44,  1.84it/s] 56%|█████▋    | 27084/48008 [3:53:22<2:56:20,  1.98it/s] 56%|█████▋    | 27085/48008 [3:53:22<2:59:37,  1.94it/s] 56%|█████▋    | 27086/48008 [3:53:23<4:16:52,  1.36it/s] 56%|█████▋    | 27087/48008 [3:53:24<3:43:25,  1.56it/s] 56%|█████▋    | 27088/48008 [3:53:24<3:20:07,  1.74it/s] 56%|█████▋    | 27089/48008 [3:53:25<3:03:49,  1.90it/s] 56%|█████▋    | 27090/48008 [3:53:25<3:02:04,  1.91it/s] 56%|█████▋    | 27091/48008 [3:53:26<3:01:30,  1.92it/s] 56%|█████▋    | 27092/48008 [3:53:26<2:56:56,  1.97it/s] 56%|█████▋    | 27093/48008 [3:53:27<2:56:24,  1.98it/s] 56%|█████▋    | 27094/48008 [3:53:27<2:54:13,  2.00it/s] 56%|█████▋    | 27095/48008 [3:53:28<2:52:34,  2.02it/s] 56%|█████▋    | 27096/48008 [3:53:28<2:51:26,  2.03it/s] 56%|█████▋    | 27097/48008 [3:53:29<2:50:41,  2.04it/s] 56%|█████▋    | 27098/48008 [3:53:29<2:43:01,  2.14it/s] 56%|█████▋    | 27099/48008 [3:53:30<2:47:07,  2.09it/s] 56%|█████▋    | 27100/48008 [3:53:30<2:51:08,  2.04it/s]                                                         {'loss': 4.2967, 'grad_norm': 0.38906556367874146, 'learning_rate': 8.710631561406433e-05, 'epoch': 0.56}
 56%|█████▋    | 27100/48008 [3:53:30<2:51:08,  2.04it/s] 56%|█████▋    | 27101/48008 [3:53:31<2:54:28,  2.00it/s] 56%|█████▋    | 27102/48008 [3:53:31<2:52:12,  2.02it/s] 56%|█████▋    | 27103/48008 [3:53:32<2:56:58,  1.97it/s] 56%|█████▋    | 27104/48008 [3:53:32<2:54:18,  2.00it/s] 56%|█████▋    | 27105/48008 [3:53:33<2:52:14,  2.02it/s] 56%|█████▋    | 27106/48008 [3:53:33<2:51:15,  2.03it/s] 56%|█████▋    | 27107/48008 [3:53:34<2:50:36,  2.04it/s] 56%|█████▋    | 27108/48008 [3:53:34<2:52:11,  2.02it/s] 56%|█████▋    | 27109/48008 [3:53:35<3:10:42,  1.83it/s] 56%|█████▋    | 27110/48008 [3:53:35<3:06:02,  1.87it/s] 56%|█████▋    | 27111/48008 [3:53:36<3:00:47,  1.93it/s] 56%|█████▋    | 27112/48008 [3:53:36<2:57:02,  1.97it/s] 56%|█████▋    | 27113/48008 [3:53:37<2:47:27,  2.08it/s] 56%|█████▋    | 27114/48008 [3:53:37<2:47:56,  2.07it/s] 56%|█████▋    | 27115/48008 [3:53:38<2:54:01,  2.00it/s] 56%|█████▋    | 27116/48008 [3:53:38<2:54:02,  2.00it/s] 56%|█████▋    | 27117/48008 [3:53:39<2:51:38,  2.03it/s] 56%|█████▋    | 27118/48008 [3:53:39<3:32:33,  1.64it/s] 56%|█████▋    | 27119/48008 [3:53:40<3:20:54,  1.73it/s] 56%|█████▋    | 27120/48008 [3:53:40<3:11:15,  1.82it/s] 56%|█████▋    | 27121/48008 [3:53:41<3:04:15,  1.89it/s] 56%|█████▋    | 27122/48008 [3:53:41<2:58:58,  1.95it/s] 56%|█████▋    | 27123/48008 [3:53:42<2:58:29,  1.95it/s] 56%|█████▋    | 27124/48008 [3:53:42<2:48:36,  2.06it/s] 57%|█████▋    | 27125/48008 [3:53:43<2:41:26,  2.16it/s] 57%|█████▋    | 27126/48008 [3:53:43<2:43:33,  2.13it/s] 57%|█████▋    | 27127/48008 [3:53:44<2:44:31,  2.12it/s] 57%|█████▋    | 27128/48008 [3:53:44<2:38:49,  2.19it/s] 57%|█████▋    | 27129/48008 [3:53:45<2:41:01,  2.16it/s] 57%|█████▋    | 27130/48008 [3:53:45<2:36:26,  2.22it/s] 57%|█████▋    | 27131/48008 [3:53:46<4:00:53,  1.44it/s] 57%|█████▋    | 27132/48008 [3:53:47<3:32:05,  1.64it/s] 57%|█████▋    | 27133/48008 [3:53:47<3:18:50,  1.75it/s] 57%|█████▋    | 27134/48008 [3:53:48<3:11:18,  1.82it/s] 57%|█████▋    | 27135/48008 [3:53:48<3:06:52,  1.86it/s] 57%|█████▋    | 27136/48008 [3:53:49<3:03:20,  1.90it/s] 57%|█████▋    | 27137/48008 [3:53:49<3:02:43,  1.90it/s] 57%|█████▋    | 27138/48008 [3:53:50<2:57:43,  1.96it/s] 57%|█████▋    | 27139/48008 [3:53:50<2:47:49,  2.07it/s] 57%|█████▋    | 27140/48008 [3:53:51<2:41:03,  2.16it/s] 57%|█████▋    | 27141/48008 [3:53:51<3:24:51,  1.70it/s] 57%|█████▋    | 27142/48008 [3:53:52<3:13:48,  1.79it/s] 57%|█████▋    | 27143/48008 [3:53:52<3:06:05,  1.87it/s] 57%|█████▋    | 27144/48008 [3:53:53<3:07:03,  1.86it/s] 57%|█████▋    | 27145/48008 [3:53:53<3:04:58,  1.88it/s] 57%|█████▋    | 27146/48008 [3:53:54<3:40:36,  1.58it/s] 57%|█████▋    | 27147/48008 [3:53:55<3:24:22,  1.70it/s] 57%|█████▋    | 27148/48008 [3:53:55<3:19:48,  1.74it/s] 57%|█████▋    | 27149/48008 [3:53:56<3:10:33,  1.82it/s] 57%|█████▋    | 27150/48008 [3:53:56<3:03:34,  1.89it/s]                                                         {'loss': 4.2957, 'grad_norm': 0.15340209007263184, 'learning_rate': 8.689801699716714e-05, 'epoch': 0.57}
 57%|█████▋    | 27150/48008 [3:53:56<3:03:34,  1.89it/s] 57%|█████▋    | 27151/48008 [3:53:57<2:58:27,  1.95it/s] 57%|█████▋    | 27152/48008 [3:53:57<2:57:11,  1.96it/s] 57%|█████▋    | 27153/48008 [3:53:58<2:56:56,  1.96it/s] 57%|█████▋    | 27154/48008 [3:53:58<2:53:53,  2.00it/s] 57%|█████▋    | 27155/48008 [3:53:59<2:52:24,  2.02it/s] 57%|█████▋    | 27156/48008 [3:53:59<2:51:17,  2.03it/s] 57%|█████▋    | 27157/48008 [3:54:00<2:49:50,  2.05it/s] 57%|█████▋    | 27158/48008 [3:54:00<2:49:12,  2.05it/s] 57%|█████▋    | 27159/48008 [3:54:01<2:49:02,  2.06it/s] 57%|█████▋    | 27160/48008 [3:54:01<2:48:42,  2.06it/s] 57%|█████▋    | 27161/48008 [3:54:02<2:54:31,  1.99it/s] 57%|█████▋    | 27162/48008 [3:54:02<2:56:42,  1.97it/s] 57%|█████▋    | 27163/48008 [3:54:03<2:57:51,  1.95it/s] 57%|█████▋    | 27164/48008 [3:54:03<2:59:21,  1.94it/s] 57%|█████▋    | 27165/48008 [3:54:04<2:55:11,  1.98it/s] 57%|█████▋    | 27166/48008 [3:54:04<2:52:22,  2.02it/s] 57%|█████▋    | 27167/48008 [3:54:05<2:50:37,  2.04it/s] 57%|█████▋    | 27168/48008 [3:54:05<2:49:39,  2.05it/s] 57%|█████▋    | 27169/48008 [3:54:06<4:08:43,  1.40it/s] 57%|█████▋    | 27170/48008 [3:54:07<3:47:45,  1.52it/s] 57%|█████▋    | 27171/48008 [3:54:08<4:50:42,  1.19it/s] 57%|█████▋    | 27172/48008 [3:54:09<4:06:51,  1.41it/s] 57%|█████▋    | 27173/48008 [3:54:09<3:45:19,  1.54it/s] 57%|█████▋    | 27174/48008 [3:54:10<3:31:44,  1.64it/s] 57%|█████▋    | 27175/48008 [3:54:10<3:20:26,  1.73it/s] 57%|█████▋    | 27176/48008 [3:54:11<3:13:49,  1.79it/s] 57%|█████▋    | 27177/48008 [3:54:11<3:09:41,  1.83it/s] 57%|█████▋    | 27178/48008 [3:54:12<3:05:23,  1.87it/s] 57%|█████▋    | 27179/48008 [3:54:12<3:04:09,  1.89it/s] 57%|█████▋    | 27180/48008 [3:54:13<3:01:08,  1.92it/s] 57%|█████▋    | 27181/48008 [3:54:13<2:57:26,  1.96it/s] 57%|█████▋    | 27182/48008 [3:54:14<3:15:00,  1.78it/s] 57%|█████▋    | 27183/48008 [3:54:14<3:11:12,  1.82it/s] 57%|█████▋    | 27184/48008 [3:54:15<3:06:55,  1.86it/s] 57%|█████▋    | 27185/48008 [3:54:15<3:02:50,  1.90it/s] 57%|█████▋    | 27186/48008 [3:54:16<2:58:17,  1.95it/s] 57%|█████▋    | 27187/48008 [3:54:16<2:54:49,  1.99it/s] 57%|█████▋    | 27188/48008 [3:54:17<2:52:40,  2.01it/s] 57%|█████▋    | 27189/48008 [3:54:17<2:50:38,  2.03it/s] 57%|█████▋    | 27190/48008 [3:54:18<2:53:59,  1.99it/s] 57%|█████▋    | 27191/48008 [3:54:18<2:41:31,  2.15it/s] 57%|█████▋    | 27192/48008 [3:54:19<2:36:37,  2.22it/s] 57%|█████▋    | 27193/48008 [3:54:19<2:39:15,  2.18it/s] 57%|█████▋    | 27194/48008 [3:54:20<2:44:25,  2.11it/s] 57%|█████▋    | 27195/48008 [3:54:20<2:37:54,  2.20it/s] 57%|█████▋    | 27196/48008 [3:54:21<2:40:41,  2.16it/s] 57%|█████▋    | 27197/48008 [3:54:21<2:35:55,  2.22it/s] 57%|█████▋    | 27198/48008 [3:54:21<2:41:18,  2.15it/s] 57%|█████▋    | 27199/48008 [3:54:22<2:36:24,  2.22it/s] 57%|█████▋    | 27200/48008 [3:54:22<2:45:50,  2.09it/s]                                                         {'loss': 4.2622, 'grad_norm': 0.15285524725914001, 'learning_rate': 8.668971838026995e-05, 'epoch': 0.57}
 57%|█████▋    | 27200/48008 [3:54:22<2:45:50,  2.09it/s] 57%|█████▋    | 27201/48008 [3:54:23<2:48:22,  2.06it/s] 57%|█████▋    | 27202/48008 [3:54:23<2:48:20,  2.06it/s] 57%|█████▋    | 27203/48008 [3:54:24<3:07:52,  1.85it/s] 57%|█████▋    | 27204/48008 [3:54:25<3:04:09,  1.88it/s] 57%|█████▋    | 27205/48008 [3:54:25<2:59:18,  1.93it/s] 57%|█████▋    | 27206/48008 [3:54:26<2:59:59,  1.93it/s] 57%|█████▋    | 27207/48008 [3:54:26<2:56:19,  1.97it/s] 57%|█████▋    | 27208/48008 [3:54:27<2:53:51,  1.99it/s] 57%|█████▋    | 27209/48008 [3:54:27<2:44:54,  2.10it/s] 57%|█████▋    | 27210/48008 [3:54:28<2:47:50,  2.07it/s] 57%|█████▋    | 27211/48008 [3:54:28<2:40:45,  2.16it/s] 57%|█████▋    | 27212/48008 [3:54:28<2:35:41,  2.23it/s] 57%|█████▋    | 27213/48008 [3:54:29<2:32:16,  2.28it/s] 57%|█████▋    | 27214/48008 [3:54:29<2:36:50,  2.21it/s] 57%|█████▋    | 27215/48008 [3:54:30<2:39:46,  2.17it/s] 57%|█████▋    | 27216/48008 [3:54:30<2:42:07,  2.14it/s] 57%|█████▋    | 27217/48008 [3:54:31<2:43:46,  2.12it/s] 57%|█████▋    | 27218/48008 [3:54:31<2:44:22,  2.11it/s] 57%|█████▋    | 27219/48008 [3:54:32<2:46:51,  2.08it/s] 57%|█████▋    | 27220/48008 [3:54:32<2:49:15,  2.05it/s] 57%|█████▋    | 27221/48008 [3:54:33<2:54:54,  1.98it/s] 57%|█████▋    | 27222/48008 [3:54:33<2:52:25,  2.01it/s] 57%|█████▋    | 27223/48008 [3:54:34<2:50:26,  2.03it/s] 57%|█████▋    | 27224/48008 [3:54:34<2:49:38,  2.04it/s] 57%|█████▋    | 27225/48008 [3:54:35<2:49:15,  2.05it/s] 57%|█████▋    | 27226/48008 [3:54:35<2:50:54,  2.03it/s] 57%|█████▋    | 27227/48008 [3:54:36<2:49:49,  2.04it/s] 57%|█████▋    | 27228/48008 [3:54:36<2:49:05,  2.05it/s] 57%|█████▋    | 27229/48008 [3:54:37<2:41:37,  2.14it/s] 57%|█████▋    | 27230/48008 [3:54:37<2:43:02,  2.12it/s] 57%|█████▋    | 27231/48008 [3:54:38<2:48:31,  2.05it/s] 57%|█████▋    | 27232/48008 [3:54:38<3:08:32,  1.84it/s] 57%|█████▋    | 27233/48008 [3:54:39<3:22:26,  1.71it/s] 57%|█████▋    | 27234/48008 [3:54:39<3:13:57,  1.79it/s] 57%|█████▋    | 27235/48008 [3:54:40<3:05:52,  1.86it/s] 57%|█████▋    | 27236/48008 [3:54:40<3:06:26,  1.86it/s] 57%|█████▋    | 27237/48008 [3:54:41<3:05:59,  1.86it/s] 57%|█████▋    | 27238/48008 [3:54:41<2:53:39,  1.99it/s] 57%|█████▋    | 27239/48008 [3:54:42<2:54:08,  1.99it/s] 57%|█████▋    | 27240/48008 [3:54:42<2:45:23,  2.09it/s] 57%|█████▋    | 27241/48008 [3:54:43<2:49:51,  2.04it/s] 57%|█████▋    | 27242/48008 [3:54:43<2:50:51,  2.03it/s] 57%|█████▋    | 27243/48008 [3:54:44<2:42:53,  2.12it/s] 57%|█████▋    | 27244/48008 [3:54:44<2:44:20,  2.11it/s] 57%|█████▋    | 27245/48008 [3:54:45<3:25:46,  1.68it/s] 57%|█████▋    | 27246/48008 [3:54:46<3:07:35,  1.84it/s] 57%|█████▋    | 27247/48008 [3:54:46<3:01:48,  1.90it/s] 57%|█████▋    | 27248/48008 [3:54:46<2:57:19,  1.95it/s] 57%|█████▋    | 27249/48008 [3:54:47<2:58:08,  1.94it/s] 57%|█████▋    | 27250/48008 [3:54:47<2:54:24,  1.98it/s]                                                         {'loss': 4.2596, 'grad_norm': 0.30058547854423523, 'learning_rate': 8.648141976337277e-05, 'epoch': 0.57} 57%|█████▋    | 27250/48008 [3:54:47<2:54:24,  1.98it/s]
 57%|█████▋    | 27251/48008 [3:54:48<2:58:08,  1.94it/s] 57%|█████▋    | 27252/48008 [3:54:48<2:54:49,  1.98it/s] 57%|█████▋    | 27253/48008 [3:54:49<3:12:01,  1.80it/s] 57%|█████▋    | 27254/48008 [3:54:50<3:04:12,  1.88it/s] 57%|█████▋    | 27255/48008 [3:54:50<2:48:32,  2.05it/s] 57%|█████▋    | 27256/48008 [3:54:51<2:47:59,  2.06it/s] 57%|█████▋    | 27257/48008 [3:54:51<2:49:38,  2.04it/s] 57%|█████▋    | 27258/48008 [3:54:52<2:52:43,  2.00it/s] 57%|█████▋    | 27259/48008 [3:54:52<2:56:34,  1.96it/s] 57%|█████▋    | 27260/48008 [3:54:52<2:46:47,  2.07it/s] 57%|█████▋    | 27261/48008 [3:54:53<2:49:17,  2.04it/s] 57%|█████▋    | 27262/48008 [3:54:54<2:51:07,  2.02it/s] 57%|█████▋    | 27263/48008 [3:54:54<3:09:47,  1.82it/s] 57%|█████▋    | 27264/48008 [3:54:55<3:03:10,  1.89it/s] 57%|█████▋    | 27265/48008 [3:54:55<2:57:54,  1.94it/s] 57%|█████▋    | 27266/48008 [3:54:56<2:58:27,  1.94it/s] 57%|█████▋    | 27267/48008 [3:54:56<3:14:44,  1.78it/s] 57%|█████▋    | 27268/48008 [3:54:57<2:59:10,  1.93it/s] 57%|█████▋    | 27269/48008 [3:54:57<2:55:48,  1.97it/s] 57%|█████▋    | 27270/48008 [3:54:58<2:55:43,  1.97it/s] 57%|█████▋    | 27271/48008 [3:54:58<2:46:24,  2.08it/s] 57%|█████▋    | 27272/48008 [3:54:59<2:45:50,  2.08it/s] 57%|█████▋    | 27273/48008 [3:54:59<2:46:00,  2.08it/s] 57%|█████▋    | 27274/48008 [3:55:00<2:45:56,  2.08it/s] 57%|█████▋    | 27275/48008 [3:55:00<2:46:19,  2.08it/s] 57%|█████▋    | 27276/48008 [3:55:01<2:48:03,  2.06it/s] 57%|█████▋    | 27277/48008 [3:55:01<2:40:42,  2.15it/s] 57%|█████▋    | 27278/48008 [3:55:01<2:44:44,  2.10it/s] 57%|█████▋    | 27279/48008 [3:55:02<2:47:14,  2.07it/s] 57%|█████▋    | 27280/48008 [3:55:02<2:47:03,  2.07it/s] 57%|█████▋    | 27281/48008 [3:55:03<2:48:39,  2.05it/s] 57%|█████▋    | 27282/48008 [3:55:03<2:47:44,  2.06it/s] 57%|█████▋    | 27283/48008 [3:55:04<2:49:45,  2.03it/s] 57%|█████▋    | 27284/48008 [3:55:04<2:53:03,  2.00it/s] 57%|█████▋    | 27285/48008 [3:55:05<2:44:14,  2.10it/s] 57%|█████▋    | 27286/48008 [3:55:05<2:47:20,  2.06it/s] 57%|█████▋    | 27287/48008 [3:55:06<3:27:44,  1.66it/s] 57%|█████▋    | 27288/48008 [3:55:07<3:15:22,  1.77it/s] 57%|█████▋    | 27289/48008 [3:55:07<3:10:27,  1.81it/s] 57%|█████▋    | 27290/48008 [3:55:08<2:56:40,  1.95it/s] 57%|█████▋    | 27291/48008 [3:55:08<2:55:12,  1.97it/s] 57%|█████▋    | 27292/48008 [3:55:09<2:52:56,  2.00it/s] 57%|█████▋    | 27293/48008 [3:55:09<3:10:41,  1.81it/s] 57%|█████▋    | 27294/48008 [3:55:10<3:44:15,  1.54it/s] 57%|█████▋    | 27295/48008 [3:55:11<3:29:01,  1.65it/s] 57%|█████▋    | 27296/48008 [3:55:11<3:15:46,  1.76it/s] 57%|█████▋    | 27297/48008 [3:55:12<3:07:20,  1.84it/s] 57%|█████▋    | 27298/48008 [3:55:12<3:01:49,  1.90it/s] 57%|█████▋    | 27299/48008 [3:55:13<3:03:11,  1.88it/s] 57%|█████▋    | 27300/48008 [3:55:13<2:58:52,  1.93it/s]                                                         {'loss': 4.2541, 'grad_norm': 0.3377652168273926, 'learning_rate': 8.627312114647559e-05, 'epoch': 0.57} 57%|█████▋    | 27300/48008 [3:55:13<2:58:52,  1.93it/s]
 57%|█████▋    | 27301/48008 [3:55:14<2:48:50,  2.04it/s] 57%|█████▋    | 27302/48008 [3:55:14<2:41:26,  2.14it/s] 57%|█████▋    | 27303/48008 [3:55:15<2:46:32,  2.07it/s] 57%|█████▋    | 27304/48008 [3:55:15<2:39:47,  2.16it/s] 57%|█████▋    | 27305/48008 [3:55:15<2:41:44,  2.13it/s] 57%|█████▋    | 27306/48008 [3:55:16<2:43:08,  2.11it/s] 57%|█████▋    | 27307/48008 [3:55:16<2:44:29,  2.10it/s] 57%|█████▋    | 27308/48008 [3:55:17<2:46:57,  2.07it/s] 57%|█████▋    | 27309/48008 [3:55:17<2:46:34,  2.07it/s] 57%|█████▋    | 27310/48008 [3:55:18<2:46:27,  2.07it/s] 57%|█████▋    | 27311/48008 [3:55:18<2:46:33,  2.07it/s] 57%|█████▋    | 27312/48008 [3:55:19<3:27:58,  1.66it/s] 57%|█████▋    | 27313/48008 [3:55:20<3:35:07,  1.60it/s] 57%|█████▋    | 27314/48008 [3:55:20<3:22:24,  1.70it/s] 57%|█████▋    | 27315/48008 [3:55:21<3:11:19,  1.80it/s] 57%|█████▋    | 27316/48008 [3:55:21<3:03:21,  1.88it/s] 57%|█████▋    | 27317/48008 [3:55:22<2:58:07,  1.94it/s] 57%|█████▋    | 27318/48008 [3:55:22<2:54:27,  1.98it/s] 57%|█████▋    | 27319/48008 [3:55:23<2:57:38,  1.94it/s] 57%|█████▋    | 27320/48008 [3:55:23<2:56:49,  1.95it/s] 57%|█████▋    | 27321/48008 [3:55:24<2:46:49,  2.07it/s] 57%|█████▋    | 27322/48008 [3:55:24<2:52:35,  2.00it/s] 57%|█████▋    | 27323/48008 [3:55:25<2:50:55,  2.02it/s] 57%|█████▋    | 27324/48008 [3:55:25<2:49:24,  2.03it/s] 57%|█████▋    | 27325/48008 [3:55:26<2:48:39,  2.04it/s] 57%|█████▋    | 27326/48008 [3:55:26<2:50:28,  2.02it/s] 57%|█████▋    | 27327/48008 [3:55:27<2:53:00,  1.99it/s] 57%|█████▋    | 27328/48008 [3:55:27<2:53:31,  1.99it/s] 57%|█████▋    | 27329/48008 [3:55:28<2:51:27,  2.01it/s] 57%|█████▋    | 27330/48008 [3:55:28<2:50:03,  2.03it/s] 57%|█████▋    | 27331/48008 [3:55:30<4:09:11,  1.38it/s] 57%|█████▋    | 27332/48008 [3:55:30<3:44:42,  1.53it/s] 57%|█████▋    | 27333/48008 [3:55:31<3:27:14,  1.66it/s] 57%|█████▋    | 27334/48008 [3:55:31<3:08:22,  1.83it/s] 57%|█████▋    | 27335/48008 [3:55:31<3:03:20,  1.88it/s] 57%|█████▋    | 27336/48008 [3:55:32<2:58:26,  1.93it/s] 57%|█████▋    | 27337/48008 [3:55:32<2:58:54,  1.93it/s] 57%|█████▋    | 27338/48008 [3:55:33<2:55:11,  1.97it/s] 57%|█████▋    | 27339/48008 [3:55:33<2:58:04,  1.93it/s] 57%|█████▋    | 27340/48008 [3:55:34<2:44:04,  2.10it/s] 57%|█████▋    | 27341/48008 [3:55:34<2:47:06,  2.06it/s] 57%|█████▋    | 27342/48008 [3:55:35<2:46:58,  2.06it/s] 57%|█████▋    | 27343/48008 [3:55:35<2:46:47,  2.06it/s] 57%|█████▋    | 27344/48008 [3:55:36<3:26:49,  1.67it/s] 57%|█████▋    | 27345/48008 [3:55:37<3:14:14,  1.77it/s] 57%|█████▋    | 27346/48008 [3:55:37<3:05:47,  1.85it/s] 57%|█████▋    | 27347/48008 [3:55:38<3:20:17,  1.72it/s] 57%|█████▋    | 27348/48008 [3:55:39<4:30:23,  1.27it/s] 57%|█████▋    | 27349/48008 [3:55:40<3:58:43,  1.44it/s] 57%|█████▋    | 27350/48008 [3:55:40<3:37:21,  1.58it/s]                                                         {'loss': 4.3008, 'grad_norm': 0.25290051102638245, 'learning_rate': 8.60648225295784e-05, 'epoch': 0.57}
 57%|█████▋    | 27350/48008 [3:55:40<3:37:21,  1.58it/s] 57%|█████▋    | 27351/48008 [3:55:41<3:22:00,  1.70it/s] 57%|█████▋    | 27352/48008 [3:55:41<3:17:30,  1.74it/s] 57%|█████▋    | 27353/48008 [3:55:42<3:10:03,  1.81it/s] 57%|█████▋    | 27354/48008 [3:55:42<3:02:39,  1.88it/s] 57%|█████▋    | 27355/48008 [3:55:43<2:50:29,  2.02it/s] 57%|█████▋    | 27356/48008 [3:55:43<2:49:32,  2.03it/s] 57%|█████▋    | 27357/48008 [3:55:43<2:48:03,  2.05it/s] 57%|█████▋    | 27358/48008 [3:55:44<2:50:59,  2.01it/s] 57%|█████▋    | 27359/48008 [3:55:44<2:41:51,  2.13it/s] 57%|█████▋    | 27360/48008 [3:55:45<2:36:17,  2.20it/s] 57%|█████▋    | 27361/48008 [3:55:45<2:41:47,  2.13it/s] 57%|█████▋    | 27362/48008 [3:55:46<2:42:37,  2.12it/s] 57%|█████▋    | 27363/48008 [3:55:46<3:03:00,  1.88it/s] 57%|█████▋    | 27364/48008 [3:55:47<2:57:51,  1.93it/s] 57%|█████▋    | 27365/48008 [3:55:47<2:47:23,  2.06it/s] 57%|█████▋    | 27366/48008 [3:55:48<2:46:44,  2.06it/s] 57%|█████▋    | 27367/48008 [3:55:49<3:05:58,  1.85it/s] 57%|█████▋    | 27368/48008 [3:55:49<3:00:23,  1.91it/s] 57%|█████▋    | 27369/48008 [3:55:49<2:49:19,  2.03it/s] 57%|█████▋    | 27370/48008 [3:55:50<2:54:20,  1.97it/s] 57%|█████▋    | 27371/48008 [3:55:50<2:54:42,  1.97it/s] 57%|█████▋    | 27372/48008 [3:55:51<2:51:48,  2.00it/s] 57%|█████▋    | 27373/48008 [3:55:51<2:43:18,  2.11it/s] 57%|█████▋    | 27374/48008 [3:55:52<2:47:54,  2.05it/s] 57%|█████▋    | 27375/48008 [3:55:52<2:47:17,  2.06it/s] 57%|█████▋    | 27376/48008 [3:55:53<2:46:46,  2.06it/s] 57%|█████▋    | 27377/48008 [3:55:53<2:52:40,  1.99it/s] 57%|█████▋    | 27378/48008 [3:55:54<2:49:51,  2.02it/s] 57%|█████▋    | 27379/48008 [3:55:54<2:54:09,  1.97it/s] 57%|█████▋    | 27380/48008 [3:55:55<3:32:20,  1.62it/s] 57%|█████▋    | 27381/48008 [3:55:56<3:24:03,  1.68it/s] 57%|█████▋    | 27382/48008 [3:55:56<3:05:43,  1.85it/s] 57%|█████▋    | 27383/48008 [3:55:57<2:59:04,  1.92it/s] 57%|█████▋    | 27384/48008 [3:55:57<3:14:43,  1.77it/s] 57%|█████▋    | 27385/48008 [3:55:58<3:06:19,  1.84it/s] 57%|█████▋    | 27386/48008 [3:55:58<2:53:45,  1.98it/s] 57%|█████▋    | 27387/48008 [3:55:59<3:11:23,  1.80it/s] 57%|█████▋    | 27388/48008 [3:55:59<2:56:47,  1.94it/s] 57%|█████▋    | 27389/48008 [3:56:00<2:57:26,  1.94it/s] 57%|█████▋    | 27390/48008 [3:56:00<3:00:16,  1.91it/s] 57%|█████▋    | 27391/48008 [3:56:01<2:55:34,  1.96it/s] 57%|█████▋    | 27392/48008 [3:56:01<2:56:54,  1.94it/s] 57%|█████▋    | 27393/48008 [3:56:02<2:46:58,  2.06it/s] 57%|█████▋    | 27394/48008 [3:56:02<2:46:57,  2.06it/s] 57%|█████▋    | 27395/48008 [3:56:03<2:39:33,  2.15it/s] 57%|█████▋    | 27396/48008 [3:56:03<2:44:16,  2.09it/s] 57%|█████▋    | 27397/48008 [3:56:04<2:44:10,  2.09it/s] 57%|█████▋    | 27398/48008 [3:56:05<4:04:01,  1.41it/s] 57%|█████▋    | 27399/48008 [3:56:06<3:44:14,  1.53it/s] 57%|█████▋    | 27400/48008 [3:56:06<3:26:14,  1.67it/s]                                                         {'loss': 4.2547, 'grad_norm': 0.15644462406635284, 'learning_rate': 8.585652391268122e-05, 'epoch': 0.57} 57%|█████▋    | 27400/48008 [3:56:06<3:26:14,  1.67it/s]
 57%|█████▋    | 27401/48008 [3:56:07<3:33:55,  1.61it/s] 57%|█████▋    | 27402/48008 [3:56:07<3:19:33,  1.72it/s] 57%|█████▋    | 27403/48008 [3:56:08<3:09:00,  1.82it/s] 57%|█████▋    | 27404/48008 [3:56:08<3:01:11,  1.90it/s] 57%|█████▋    | 27405/48008 [3:56:09<2:56:10,  1.95it/s] 57%|█████▋    | 27406/48008 [3:56:09<2:57:01,  1.94it/s] 57%|█████▋    | 27407/48008 [3:56:10<2:53:37,  1.98it/s] 57%|█████▋    | 27408/48008 [3:56:10<2:55:30,  1.96it/s] 57%|█████▋    | 27409/48008 [3:56:11<3:33:13,  1.61it/s] 57%|█████▋    | 27410/48008 [3:56:11<3:12:27,  1.78it/s] 57%|█████▋    | 27411/48008 [3:56:12<3:06:29,  1.84it/s] 57%|█████▋    | 27412/48008 [3:56:12<2:59:59,  1.91it/s] 57%|█████▋    | 27413/48008 [3:56:13<2:48:49,  2.03it/s] 57%|█████▋    | 27414/48008 [3:56:13<2:47:39,  2.05it/s] 57%|█████▋    | 27415/48008 [3:56:14<2:47:09,  2.05it/s] 57%|█████▋    | 27416/48008 [3:56:14<2:50:45,  2.01it/s] 57%|█████▋    | 27417/48008 [3:56:15<2:48:22,  2.04it/s] 57%|█████▋    | 27418/48008 [3:56:15<2:49:10,  2.03it/s] 57%|█████▋    | 27419/48008 [3:56:16<2:53:49,  1.97it/s] 57%|█████▋    | 27420/48008 [3:56:16<2:44:33,  2.09it/s] 57%|█████▋    | 27421/48008 [3:56:17<2:37:58,  2.17it/s] 57%|█████▋    | 27422/48008 [3:56:17<2:39:46,  2.15it/s] 57%|█████▋    | 27423/48008 [3:56:18<2:41:50,  2.12it/s] 57%|█████▋    | 27424/48008 [3:56:18<2:47:09,  2.05it/s] 57%|█████▋    | 27425/48008 [3:56:19<2:49:09,  2.03it/s] 57%|█████▋    | 27426/48008 [3:56:19<2:50:36,  2.01it/s] 57%|█████▋    | 27427/48008 [3:56:20<2:51:02,  2.01it/s] 57%|█████▋    | 27428/48008 [3:56:20<2:49:02,  2.03it/s] 57%|█████▋    | 27429/48008 [3:56:21<2:41:12,  2.13it/s] 57%|█████▋    | 27430/48008 [3:56:21<2:44:46,  2.08it/s] 57%|█████▋    | 27431/48008 [3:56:22<2:45:13,  2.08it/s] 57%|█████▋    | 27432/48008 [3:56:22<2:50:59,  2.01it/s] 57%|█████▋    | 27433/48008 [3:56:23<2:49:11,  2.03it/s] 57%|█████▋    | 27434/48008 [3:56:23<2:47:18,  2.05it/s] 57%|█████▋    | 27435/48008 [3:56:24<2:48:57,  2.03it/s] 57%|█████▋    | 27436/48008 [3:56:24<2:40:44,  2.13it/s] 57%|█████▋    | 27437/48008 [3:56:24<2:46:12,  2.06it/s] 57%|█████▋    | 27438/48008 [3:56:25<2:48:02,  2.04it/s] 57%|█████▋    | 27439/48008 [3:56:25<2:49:15,  2.03it/s] 57%|█████▋    | 27440/48008 [3:56:26<2:50:12,  2.01it/s] 57%|█████▋    | 27441/48008 [3:56:27<2:54:30,  1.96it/s] 57%|█████▋    | 27442/48008 [3:56:27<2:55:58,  1.95it/s] 57%|█████▋    | 27443/48008 [3:56:28<2:54:48,  1.96it/s] 57%|█████▋    | 27444/48008 [3:56:28<2:44:53,  2.08it/s] 57%|█████▋    | 27445/48008 [3:56:28<2:44:19,  2.09it/s] 57%|█████▋    | 27446/48008 [3:56:29<2:44:09,  2.09it/s] 57%|█████▋    | 27447/48008 [3:56:29<2:46:18,  2.06it/s] 57%|█████▋    | 27448/48008 [3:56:30<2:46:02,  2.06it/s] 57%|█████▋    | 27449/48008 [3:56:30<2:45:35,  2.07it/s] 57%|█████▋    | 27450/48008 [3:56:31<2:49:19,  2.02it/s]                                                         {'loss': 4.2412, 'grad_norm': 0.23523220419883728, 'learning_rate': 8.564822529578404e-05, 'epoch': 0.57}
 57%|█████▋    | 27450/48008 [3:56:31<2:49:19,  2.02it/s] 57%|█████▋    | 27451/48008 [3:56:31<2:41:03,  2.13it/s] 57%|█████▋    | 27452/48008 [3:56:32<2:46:07,  2.06it/s] 57%|█████▋    | 27453/48008 [3:56:32<2:46:06,  2.06it/s] 57%|█████▋    | 27454/48008 [3:56:34<4:04:51,  1.40it/s] 57%|█████▋    | 27455/48008 [3:56:34<3:40:54,  1.55it/s] 57%|█████▋    | 27456/48008 [3:56:35<3:24:03,  1.68it/s] 57%|█████▋    | 27457/48008 [3:56:35<3:12:30,  1.78it/s] 57%|█████▋    | 27458/48008 [3:56:35<2:57:37,  1.93it/s] 57%|█████▋    | 27459/48008 [3:56:36<2:59:43,  1.91it/s] 57%|█████▋    | 27460/48008 [3:56:36<2:57:31,  1.93it/s] 57%|█████▋    | 27461/48008 [3:56:37<2:55:48,  1.95it/s] 57%|█████▋    | 27462/48008 [3:56:37<2:45:47,  2.07it/s] 57%|█████▋    | 27463/48008 [3:56:38<2:51:27,  2.00it/s] 57%|█████▋    | 27464/48008 [3:56:38<2:49:49,  2.02it/s] 57%|█████▋    | 27465/48008 [3:56:39<3:07:59,  1.82it/s] 57%|█████▋    | 27466/48008 [3:56:40<3:00:38,  1.90it/s] 57%|█████▋    | 27467/48008 [3:56:40<2:49:10,  2.02it/s] 57%|█████▋    | 27468/48008 [3:56:40<2:49:56,  2.01it/s] 57%|█████▋    | 27469/48008 [3:56:41<2:54:15,  1.96it/s] 57%|█████▋    | 27470/48008 [3:56:42<2:51:28,  2.00it/s] 57%|█████▋    | 27471/48008 [3:56:42<2:49:16,  2.02it/s] 57%|█████▋    | 27472/48008 [3:56:42<2:47:55,  2.04it/s] 57%|█████▋    | 27473/48008 [3:56:43<2:50:29,  2.01it/s] 57%|█████▋    | 27474/48008 [3:56:44<2:54:42,  1.96it/s] 57%|█████▋    | 27475/48008 [3:56:44<2:44:22,  2.08it/s] 57%|█████▋    | 27476/48008 [3:56:44<2:37:57,  2.17it/s] 57%|█████▋    | 27477/48008 [3:56:45<2:43:53,  2.09it/s] 57%|█████▋    | 27478/48008 [3:56:45<2:43:55,  2.09it/s] 57%|█████▋    | 27479/48008 [3:56:46<2:37:13,  2.18it/s] 57%|█████▋    | 27480/48008 [3:56:46<2:38:52,  2.15it/s] 57%|█████▋    | 27481/48008 [3:56:47<2:33:26,  2.23it/s] 57%|█████▋    | 27482/48008 [3:56:47<2:36:14,  2.19it/s] 57%|█████▋    | 27483/48008 [3:56:48<2:42:30,  2.10it/s] 57%|█████▋    | 27484/48008 [3:56:48<2:45:40,  2.06it/s] 57%|█████▋    | 27485/48008 [3:56:49<2:47:11,  2.05it/s] 57%|█████▋    | 27486/48008 [3:56:49<2:35:57,  2.19it/s] 57%|█████▋    | 27487/48008 [3:56:50<2:38:24,  2.16it/s] 57%|█████▋    | 27488/48008 [3:56:50<2:42:48,  2.10it/s] 57%|█████▋    | 27489/48008 [3:56:51<2:47:10,  2.05it/s] 57%|█████▋    | 27490/48008 [3:56:51<2:39:43,  2.14it/s] 57%|█████▋    | 27491/48008 [3:56:51<2:47:22,  2.04it/s] 57%|█████▋    | 27492/48008 [3:56:52<2:45:49,  2.06it/s] 57%|█████▋    | 27493/48008 [3:56:52<2:44:58,  2.07it/s] 57%|█████▋    | 27494/48008 [3:56:53<2:46:31,  2.05it/s] 57%|█████▋    | 27495/48008 [3:56:54<3:27:11,  1.65it/s] 57%|█████▋    | 27496/48008 [3:56:54<3:18:24,  1.72it/s] 57%|█████▋    | 27497/48008 [3:56:55<3:07:32,  1.82it/s] 57%|█████▋    | 27498/48008 [3:56:55<2:53:55,  1.97it/s] 57%|█████▋    | 27499/48008 [3:56:56<2:54:51,  1.95it/s] 57%|█████▋    | 27500/48008 [3:56:56<2:51:57,  1.99it/s]                                                         {'loss': 4.2461, 'grad_norm': 0.31663668155670166, 'learning_rate': 8.543992667888686e-05, 'epoch': 0.57}
 57%|█████▋    | 27500/48008 [3:56:56<2:51:57,  1.99it/s] 57%|█████▋    | 27501/48008 [3:56:57<2:52:00,  1.99it/s] 57%|█████▋    | 27502/48008 [3:56:57<2:43:18,  2.09it/s] 57%|█████▋    | 27503/48008 [3:56:58<2:45:46,  2.06it/s] 57%|█████▋    | 27504/48008 [3:56:58<2:47:06,  2.04it/s] 57%|█████▋    | 27505/48008 [3:56:59<2:50:09,  2.01it/s] 57%|█████▋    | 27506/48008 [3:56:59<2:41:41,  2.11it/s] 57%|█████▋    | 27507/48008 [3:57:00<2:42:51,  2.10it/s] 57%|█████▋    | 27508/48008 [3:57:00<2:43:26,  2.09it/s] 57%|█████▋    | 27509/48008 [3:57:01<2:45:52,  2.06it/s] 57%|█████▋    | 27510/48008 [3:57:01<2:44:59,  2.07it/s] 57%|█████▋    | 27511/48008 [3:57:02<2:47:10,  2.04it/s] 57%|█████▋    | 27512/48008 [3:57:02<2:46:41,  2.05it/s] 57%|█████▋    | 27513/48008 [3:57:03<2:45:40,  2.06it/s] 57%|█████▋    | 27514/48008 [3:57:03<2:45:35,  2.06it/s] 57%|█████▋    | 27515/48008 [3:57:03<2:38:15,  2.16it/s] 57%|█████▋    | 27516/48008 [3:57:04<2:39:50,  2.14it/s] 57%|█████▋    | 27517/48008 [3:57:04<2:43:23,  2.09it/s] 57%|█████▋    | 27518/48008 [3:57:05<2:43:45,  2.09it/s] 57%|█████▋    | 27519/48008 [3:57:05<2:43:39,  2.09it/s] 57%|█████▋    | 27520/48008 [3:57:06<2:37:15,  2.17it/s] 57%|█████▋    | 27521/48008 [3:57:06<2:39:14,  2.14it/s] 57%|█████▋    | 27522/48008 [3:57:07<2:40:15,  2.13it/s] 57%|█████▋    | 27523/48008 [3:57:07<2:46:54,  2.05it/s] 57%|█████▋    | 27524/48008 [3:57:08<2:39:41,  2.14it/s] 57%|█████▋    | 27525/48008 [3:57:08<2:41:01,  2.12it/s] 57%|█████▋    | 27526/48008 [3:57:09<2:45:52,  2.06it/s] 57%|█████▋    | 27527/48008 [3:57:09<3:05:13,  1.84it/s] 57%|█████▋    | 27528/48008 [3:57:10<3:00:42,  1.89it/s] 57%|█████▋    | 27529/48008 [3:57:10<2:55:47,  1.94it/s] 57%|█████▋    | 27530/48008 [3:57:11<2:54:33,  1.96it/s] 57%|█████▋    | 27531/48008 [3:57:12<4:31:37,  1.26it/s] 57%|█████▋    | 27532/48008 [3:57:13<3:59:45,  1.42it/s] 57%|█████▋    | 27533/48008 [3:57:14<4:18:02,  1.32it/s] 57%|█████▋    | 27534/48008 [3:57:14<3:51:39,  1.47it/s] 57%|█████▋    | 27535/48008 [3:57:15<3:24:36,  1.67it/s] 57%|█████▋    | 27536/48008 [3:57:15<3:11:53,  1.78it/s] 57%|█████▋    | 27537/48008 [3:57:16<4:42:18,  1.21it/s] 57%|█████▋    | 27538/48008 [3:57:17<4:00:31,  1.42it/s] 57%|█████▋    | 27539/48008 [3:57:17<3:36:59,  1.57it/s] 57%|█████▋    | 27540/48008 [3:57:18<3:21:23,  1.69it/s] 57%|█████▋    | 27541/48008 [3:57:18<3:10:30,  1.79it/s] 57%|█████▋    | 27542/48008 [3:57:19<3:05:19,  1.84it/s] 57%|█████▋    | 27543/48008 [3:57:20<4:29:15,  1.27it/s] 57%|█████▋    | 27544/48008 [3:57:21<4:00:18,  1.42it/s] 57%|█████▋    | 27545/48008 [3:57:21<3:37:43,  1.57it/s] 57%|█████▋    | 27546/48008 [3:57:22<3:21:40,  1.69it/s] 57%|█████▋    | 27547/48008 [3:57:22<3:10:34,  1.79it/s] 57%|█████▋    | 27548/48008 [3:57:23<3:06:53,  1.82it/s] 57%|█████▋    | 27549/48008 [3:57:24<3:59:44,  1.42it/s] 57%|█████▋    | 27550/48008 [3:57:24<3:56:19,  1.44it/s]                                                         {'loss': 4.266, 'grad_norm': 0.2498023957014084, 'learning_rate': 8.523162806198967e-05, 'epoch': 0.57}
 57%|█████▋    | 27550/48008 [3:57:24<3:56:19,  1.44it/s] 57%|█████▋    | 27551/48008 [3:57:25<3:40:45,  1.54it/s] 57%|█████▋    | 27552/48008 [3:57:25<3:23:51,  1.67it/s] 57%|█████▋    | 27553/48008 [3:57:26<3:11:27,  1.78it/s] 57%|█████▋    | 27554/48008 [3:57:27<3:44:17,  1.52it/s] 57%|█████▋    | 27555/48008 [3:57:27<3:32:32,  1.60it/s] 57%|█████▋    | 27556/48008 [3:57:28<3:18:38,  1.72it/s] 57%|█████▋    | 27557/48008 [3:57:28<3:08:26,  1.81it/s] 57%|█████▋    | 27558/48008 [3:57:29<3:00:55,  1.88it/s] 57%|█████▋    | 27559/48008 [3:57:29<2:49:17,  2.01it/s] 57%|█████▋    | 27560/48008 [3:57:30<2:48:04,  2.03it/s] 57%|█████▋    | 27561/48008 [3:57:30<2:52:42,  1.97it/s] 57%|█████▋    | 27562/48008 [3:57:31<3:10:23,  1.79it/s] 57%|█████▋    | 27563/48008 [3:57:32<3:21:55,  1.69it/s] 57%|█████▋    | 27564/48008 [3:57:32<3:10:23,  1.79it/s] 57%|█████▋    | 27565/48008 [3:57:33<3:02:54,  1.86it/s] 57%|█████▋    | 27566/48008 [3:57:33<2:57:17,  1.92it/s] 57%|█████▋    | 27567/48008 [3:57:34<2:53:05,  1.97it/s] 57%|█████▋    | 27568/48008 [3:57:34<2:50:39,  2.00it/s] 57%|█████▋    | 27569/48008 [3:57:34<2:42:17,  2.10it/s] 57%|█████▋    | 27570/48008 [3:57:35<2:42:42,  2.09it/s] 57%|█████▋    | 27571/48008 [3:57:35<2:45:05,  2.06it/s] 57%|█████▋    | 27572/48008 [3:57:36<2:44:44,  2.07it/s] 57%|█████▋    | 27573/48008 [3:57:36<2:44:47,  2.07it/s] 57%|█████▋    | 27574/48008 [3:57:37<2:38:02,  2.15it/s] 57%|█████▋    | 27575/48008 [3:57:37<3:00:02,  1.89it/s] 57%|█████▋    | 27576/48008 [3:57:38<2:55:19,  1.94it/s] 57%|█████▋    | 27577/48008 [3:57:38<2:53:43,  1.96it/s] 57%|█████▋    | 27578/48008 [3:57:39<2:53:36,  1.96it/s] 57%|█████▋    | 27579/48008 [3:57:39<2:50:50,  1.99it/s] 57%|█████▋    | 27580/48008 [3:57:40<2:49:16,  2.01it/s] 57%|█████▋    | 27581/48008 [3:57:40<2:52:02,  1.98it/s] 57%|█████▋    | 27582/48008 [3:57:41<2:52:38,  1.97it/s] 57%|█████▋    | 27583/48008 [3:57:42<3:09:42,  1.79it/s] 57%|█████▋    | 27584/48008 [3:57:42<3:08:08,  1.81it/s] 57%|█████▋    | 27585/48008 [3:57:43<3:01:02,  1.88it/s] 57%|█████▋    | 27586/48008 [3:57:43<2:49:23,  2.01it/s] 57%|█████▋    | 27587/48008 [3:57:44<2:51:48,  1.98it/s] 57%|█████▋    | 27588/48008 [3:57:44<2:48:46,  2.02it/s] 57%|█████▋    | 27589/48008 [3:57:45<2:49:23,  2.01it/s] 57%|█████▋    | 27590/48008 [3:57:45<2:47:51,  2.03it/s] 57%|█████▋    | 27591/48008 [3:57:46<2:46:42,  2.04it/s] 57%|█████▋    | 27592/48008 [3:57:46<2:49:26,  2.01it/s] 57%|█████▋    | 27593/48008 [3:57:46<2:41:13,  2.11it/s] 57%|█████▋    | 27594/48008 [3:57:47<2:41:41,  2.10it/s] 57%|█████▋    | 27595/48008 [3:57:47<2:35:50,  2.18it/s] 57%|█████▋    | 27596/48008 [3:57:48<2:31:21,  2.25it/s] 57%|█████▋    | 27597/48008 [3:57:48<2:35:12,  2.19it/s] 57%|█████▋    | 27598/48008 [3:57:49<3:18:42,  1.71it/s] 57%|█████▋    | 27599/48008 [3:57:50<3:01:34,  1.87it/s] 57%|█████▋    | 27600/48008 [3:57:50<2:56:26,  1.93it/s]                                                         {'loss': 4.2194, 'grad_norm': 0.18719229102134705, 'learning_rate': 8.502332944509249e-05, 'epoch': 0.57}
 57%|█████▋    | 27600/48008 [3:57:50<2:56:26,  1.93it/s] 57%|█████▋    | 27601/48008 [3:57:50<2:46:03,  2.05it/s] 57%|█████▋    | 27602/48008 [3:57:51<2:47:14,  2.03it/s] 57%|█████▋    | 27603/48008 [3:57:51<2:49:36,  2.01it/s] 57%|█████▋    | 27604/48008 [3:57:52<2:47:34,  2.03it/s] 58%|█████▊    | 27605/48008 [3:57:52<2:46:43,  2.04it/s] 58%|█████▊    | 27606/48008 [3:57:53<2:38:43,  2.14it/s] 58%|█████▊    | 27607/48008 [3:57:53<2:39:56,  2.13it/s] 58%|█████▊    | 27608/48008 [3:57:54<2:43:00,  2.09it/s] 58%|█████▊    | 27609/48008 [3:57:54<2:43:39,  2.08it/s] 58%|█████▊    | 27610/48008 [3:57:55<2:45:59,  2.05it/s] 58%|█████▊    | 27611/48008 [3:57:55<2:49:27,  2.01it/s] 58%|█████▊    | 27612/48008 [3:57:56<2:47:45,  2.03it/s] 58%|█████▊    | 27613/48008 [3:57:56<2:46:39,  2.04it/s] 58%|█████▊    | 27614/48008 [3:57:57<3:05:58,  1.83it/s] 58%|█████▊    | 27615/48008 [3:57:58<3:03:15,  1.85it/s] 58%|█████▊    | 27616/48008 [3:57:58<3:01:32,  1.87it/s] 58%|█████▊    | 27617/48008 [3:57:59<2:56:28,  1.93it/s] 58%|█████▊    | 27618/48008 [3:57:59<2:53:01,  1.96it/s] 58%|█████▊    | 27619/48008 [3:58:00<2:56:32,  1.92it/s] 58%|█████▊    | 27620/48008 [3:58:00<2:46:06,  2.05it/s] 58%|█████▊    | 27621/48008 [3:58:00<2:45:01,  2.06it/s] 58%|█████▊    | 27622/48008 [3:58:01<2:37:55,  2.15it/s] 58%|█████▊    | 27623/48008 [3:58:02<2:59:03,  1.90it/s] 58%|█████▊    | 27624/48008 [3:58:02<2:54:41,  1.94it/s] 58%|█████▊    | 27625/48008 [3:58:03<2:51:25,  1.98it/s] 58%|█████▊    | 27626/48008 [3:58:03<2:42:47,  2.09it/s] 58%|█████▊    | 27627/48008 [3:58:03<2:45:11,  2.06it/s] 58%|█████▊    | 27628/48008 [3:58:04<2:44:31,  2.06it/s] 58%|█████▊    | 27629/48008 [3:58:04<2:44:22,  2.07it/s] 58%|█████▊    | 27630/48008 [3:58:05<2:48:32,  2.02it/s] 58%|█████▊    | 27631/48008 [3:58:05<2:49:18,  2.01it/s] 58%|█████▊    | 27632/48008 [3:58:06<2:47:31,  2.03it/s] 58%|█████▊    | 27633/48008 [3:58:06<2:46:01,  2.05it/s] 58%|█████▊    | 27634/48008 [3:58:07<2:45:41,  2.05it/s] 58%|█████▊    | 27635/48008 [3:58:07<2:48:30,  2.02it/s] 58%|█████▊    | 27636/48008 [3:58:08<2:53:22,  1.96it/s] 58%|█████▊    | 27637/48008 [3:58:08<2:52:56,  1.96it/s] 58%|█████▊    | 27638/48008 [3:58:09<2:50:04,  2.00it/s] 58%|█████▊    | 27639/48008 [3:58:09<2:48:21,  2.02it/s] 58%|█████▊    | 27640/48008 [3:58:10<2:47:01,  2.03it/s] 58%|█████▊    | 27641/48008 [3:58:10<2:51:34,  1.98it/s] 58%|█████▊    | 27642/48008 [3:58:11<2:49:07,  2.01it/s] 58%|█████▊    | 27643/48008 [3:58:11<2:40:55,  2.11it/s] 58%|█████▊    | 27644/48008 [3:58:12<3:01:46,  1.87it/s] 58%|█████▊    | 27645/48008 [3:58:13<2:58:01,  1.91it/s] 58%|█████▊    | 27646/48008 [3:58:13<2:53:52,  1.95it/s] 58%|█████▊    | 27647/48008 [3:58:13<2:44:13,  2.07it/s] 58%|█████▊    | 27648/48008 [3:58:14<2:43:35,  2.07it/s] 58%|█████▊    | 27649/48008 [3:58:14<2:36:34,  2.17it/s] 58%|█████▊    | 27650/48008 [3:58:15<2:32:07,  2.23it/s]                                                         {'loss': 4.2279, 'grad_norm': 0.1626552790403366, 'learning_rate': 8.481503082819531e-05, 'epoch': 0.58}
 58%|█████▊    | 27650/48008 [3:58:15<2:32:07,  2.23it/s] 58%|█████▊    | 27651/48008 [3:58:15<2:37:49,  2.15it/s] 58%|█████▊    | 27652/48008 [3:58:16<2:39:47,  2.12it/s] 58%|█████▊    | 27653/48008 [3:58:16<2:40:40,  2.11it/s] 58%|█████▊    | 27654/48008 [3:58:17<2:41:19,  2.10it/s] 58%|█████▊    | 27655/48008 [3:58:18<3:22:50,  1.67it/s] 58%|█████▊    | 27656/48008 [3:58:18<3:13:12,  1.76it/s] 58%|█████▊    | 27657/48008 [3:58:19<3:44:58,  1.51it/s] 58%|█████▊    | 27658/48008 [3:58:19<3:26:18,  1.64it/s] 58%|█████▊    | 27659/48008 [3:58:20<3:15:07,  1.74it/s] 58%|█████▊    | 27660/48008 [3:58:20<3:05:10,  1.83it/s] 58%|█████▊    | 27661/48008 [3:58:21<3:00:21,  1.88it/s] 58%|█████▊    | 27662/48008 [3:58:21<2:55:19,  1.93it/s] 58%|█████▊    | 27663/48008 [3:58:22<2:45:04,  2.05it/s] 58%|█████▊    | 27664/48008 [3:58:22<2:38:00,  2.15it/s] 58%|█████▊    | 27665/48008 [3:58:23<2:39:45,  2.12it/s] 58%|█████▊    | 27666/48008 [3:58:23<2:44:51,  2.06it/s] 58%|█████▊    | 27667/48008 [3:58:24<2:46:41,  2.03it/s] 58%|█████▊    | 27668/48008 [3:58:24<2:49:12,  2.00it/s] 58%|█████▊    | 27669/48008 [3:58:25<2:40:48,  2.11it/s] 58%|█████▊    | 27670/48008 [3:58:25<2:41:54,  2.09it/s] 58%|█████▊    | 27671/48008 [3:58:26<2:41:51,  2.09it/s] 58%|█████▊    | 27672/48008 [3:58:26<2:41:55,  2.09it/s] 58%|█████▊    | 27673/48008 [3:58:27<2:45:04,  2.05it/s] 58%|█████▊    | 27674/48008 [3:58:27<2:44:07,  2.06it/s] 58%|█████▊    | 27675/48008 [3:58:28<2:43:54,  2.07it/s] 58%|█████▊    | 27676/48008 [3:58:28<2:47:46,  2.02it/s] 58%|█████▊    | 27677/48008 [3:58:29<4:05:18,  1.38it/s] 58%|█████▊    | 27678/48008 [3:58:30<3:44:48,  1.51it/s] 58%|█████▊    | 27679/48008 [3:58:30<3:29:15,  1.62it/s] 58%|█████▊    | 27680/48008 [3:58:31<3:15:36,  1.73it/s] 58%|█████▊    | 27681/48008 [3:58:31<3:06:19,  1.82it/s] 58%|█████▊    | 27682/48008 [3:58:32<2:59:15,  1.89it/s] 58%|█████▊    | 27683/48008 [3:58:32<2:56:24,  1.92it/s] 58%|█████▊    | 27684/48008 [3:58:33<2:55:08,  1.93it/s] 58%|█████▊    | 27685/48008 [3:58:33<2:51:32,  1.97it/s] 58%|█████▊    | 27686/48008 [3:58:34<2:49:09,  2.00it/s] 58%|█████▊    | 27687/48008 [3:58:34<2:40:59,  2.10it/s] 58%|█████▊    | 27688/48008 [3:58:35<2:35:01,  2.18it/s] 58%|█████▊    | 27689/48008 [3:58:35<2:39:49,  2.12it/s] 58%|█████▊    | 27690/48008 [3:58:36<2:34:11,  2.20it/s] 58%|█████▊    | 27691/48008 [3:58:36<2:39:09,  2.13it/s] 58%|█████▊    | 27692/48008 [3:58:37<2:46:15,  2.04it/s] 58%|█████▊    | 27693/48008 [3:58:37<2:47:38,  2.02it/s] 58%|█████▊    | 27694/48008 [3:58:38<2:48:40,  2.01it/s] 58%|█████▊    | 27695/48008 [3:58:38<2:49:15,  2.00it/s] 58%|█████▊    | 27696/48008 [3:58:39<2:40:51,  2.10it/s] 58%|█████▊    | 27697/48008 [3:58:39<2:44:08,  2.06it/s] 58%|█████▊    | 27698/48008 [3:58:40<2:44:06,  2.06it/s] 58%|█████▊    | 27699/48008 [3:58:40<3:02:52,  1.85it/s] 58%|█████▊    | 27700/48008 [3:58:41<2:57:01,  1.91it/s]                                                         {'loss': 4.2566, 'grad_norm': 0.1462598443031311, 'learning_rate': 8.460673221129813e-05, 'epoch': 0.58} 58%|█████▊    | 27700/48008 [3:58:41<2:57:01,  1.91it/s]
 58%|█████▊    | 27701/48008 [3:58:41<2:55:22,  1.93it/s] 58%|█████▊    | 27702/48008 [3:58:42<2:53:22,  1.95it/s] 58%|█████▊    | 27703/48008 [3:58:42<2:50:19,  1.99it/s] 58%|█████▊    | 27704/48008 [3:58:43<2:48:08,  2.01it/s] 58%|█████▊    | 27705/48008 [3:58:43<2:48:52,  2.00it/s] 58%|█████▊    | 27706/48008 [3:58:44<2:40:35,  2.11it/s] 58%|█████▊    | 27707/48008 [3:58:44<2:43:21,  2.07it/s] 58%|█████▊    | 27708/48008 [3:58:44<2:32:51,  2.21it/s] 58%|█████▊    | 27709/48008 [3:58:45<2:29:04,  2.27it/s] 58%|█████▊    | 27710/48008 [3:58:45<2:35:34,  2.17it/s] 58%|█████▊    | 27711/48008 [3:58:46<2:44:05,  2.06it/s] 58%|█████▊    | 27712/48008 [3:58:46<2:46:33,  2.03it/s] 58%|█████▊    | 27713/48008 [3:58:47<2:47:58,  2.01it/s] 58%|█████▊    | 27714/48008 [3:58:47<2:46:17,  2.03it/s] 58%|█████▊    | 27715/48008 [3:58:48<2:38:31,  2.13it/s] 58%|█████▊    | 27716/48008 [3:58:48<2:42:18,  2.08it/s] 58%|█████▊    | 27717/48008 [3:58:49<2:42:06,  2.09it/s] 58%|█████▊    | 27718/48008 [3:58:49<2:46:04,  2.04it/s] 58%|█████▊    | 27719/48008 [3:58:50<3:04:18,  1.83it/s] 58%|█████▊    | 27720/48008 [3:58:51<3:17:38,  1.71it/s] 58%|█████▊    | 27721/48008 [3:58:51<3:07:25,  1.80it/s] 58%|█████▊    | 27722/48008 [3:58:52<2:53:20,  1.95it/s] 58%|█████▊    | 27723/48008 [3:58:52<2:50:12,  1.99it/s] 58%|█████▊    | 27724/48008 [3:58:53<2:50:51,  1.98it/s] 58%|█████▊    | 27725/48008 [3:58:53<2:48:42,  2.00it/s] 58%|█████▊    | 27726/48008 [3:58:54<2:49:10,  2.00it/s] 58%|█████▊    | 27727/48008 [3:58:54<2:47:27,  2.02it/s] 58%|█████▊    | 27728/48008 [3:58:55<2:46:26,  2.03it/s] 58%|█████▊    | 27729/48008 [3:58:55<2:51:13,  1.97it/s] 58%|█████▊    | 27730/48008 [3:58:56<2:48:30,  2.01it/s] 58%|█████▊    | 27731/48008 [3:58:56<2:46:45,  2.03it/s] 58%|█████▊    | 27732/48008 [3:58:57<2:47:56,  2.01it/s] 58%|█████▊    | 27733/48008 [3:58:57<2:46:44,  2.03it/s] 58%|█████▊    | 27734/48008 [3:58:57<2:45:27,  2.04it/s] 58%|█████▊    | 27735/48008 [3:58:58<2:37:52,  2.14it/s] 58%|█████▊    | 27736/48008 [3:58:58<2:41:13,  2.10it/s] 58%|█████▊    | 27737/48008 [3:58:59<2:41:33,  2.09it/s] 58%|█████▊    | 27738/48008 [3:58:59<2:42:12,  2.08it/s] 58%|█████▊    | 27739/48008 [3:59:00<2:42:33,  2.08it/s] 58%|█████▊    | 27740/48008 [3:59:00<2:42:01,  2.08it/s] 58%|█████▊    | 27741/48008 [3:59:01<2:42:09,  2.08it/s] 58%|█████▊    | 27742/48008 [3:59:01<2:35:58,  2.17it/s] 58%|█████▊    | 27743/48008 [3:59:02<2:37:38,  2.14it/s] 58%|█████▊    | 27744/48008 [3:59:02<2:42:02,  2.08it/s] 58%|█████▊    | 27745/48008 [3:59:03<3:01:23,  1.86it/s] 58%|█████▊    | 27746/48008 [3:59:03<2:58:32,  1.89it/s] 58%|█████▊    | 27747/48008 [3:59:04<2:59:52,  1.88it/s] 58%|█████▊    | 27748/48008 [3:59:04<2:48:09,  2.01it/s] 58%|█████▊    | 27749/48008 [3:59:05<2:40:11,  2.11it/s] 58%|█████▊    | 27750/48008 [3:59:05<2:41:02,  2.10it/s]                                                         {'loss': 4.2241, 'grad_norm': 0.11338072270154953, 'learning_rate': 8.439843359440094e-05, 'epoch': 0.58}
 58%|█████▊    | 27750/48008 [3:59:05<2:41:02,  2.10it/s] 58%|█████▊    | 27751/48008 [3:59:06<2:45:21,  2.04it/s] 58%|█████▊    | 27752/48008 [3:59:06<2:44:40,  2.05it/s] 58%|█████▊    | 27753/48008 [3:59:07<2:46:20,  2.03it/s] 58%|█████▊    | 27754/48008 [3:59:07<2:44:59,  2.05it/s] 58%|█████▊    | 27755/48008 [3:59:08<2:46:31,  2.03it/s] 58%|█████▊    | 27756/48008 [3:59:08<2:49:32,  1.99it/s] 58%|█████▊    | 27757/48008 [3:59:09<2:51:03,  1.97it/s] 58%|█████▊    | 27758/48008 [3:59:09<2:48:33,  2.00it/s] 58%|█████▊    | 27759/48008 [3:59:10<2:46:29,  2.03it/s] 58%|█████▊    | 27760/48008 [3:59:10<2:48:07,  2.01it/s] 58%|█████▊    | 27761/48008 [3:59:11<2:48:13,  2.01it/s] 58%|█████▊    | 27762/48008 [3:59:11<2:49:21,  1.99it/s] 58%|█████▊    | 27763/48008 [3:59:12<2:47:09,  2.02it/s] 58%|█████▊    | 27764/48008 [3:59:12<2:48:09,  2.01it/s] 58%|█████▊    | 27765/48008 [3:59:13<2:49:53,  1.99it/s] 58%|█████▊    | 27766/48008 [3:59:13<2:48:02,  2.01it/s] 58%|█████▊    | 27767/48008 [3:59:14<2:52:46,  1.95it/s] 58%|█████▊    | 27768/48008 [3:59:14<2:43:20,  2.07it/s] 58%|█████▊    | 27769/48008 [3:59:15<2:43:06,  2.07it/s] 58%|█████▊    | 27770/48008 [3:59:15<2:36:29,  2.16it/s] 58%|█████▊    | 27771/48008 [3:59:16<2:43:25,  2.06it/s] 58%|█████▊    | 27772/48008 [3:59:16<2:36:44,  2.15it/s] 58%|█████▊    | 27773/48008 [3:59:17<2:41:04,  2.09it/s] 58%|█████▊    | 27774/48008 [3:59:17<2:45:50,  2.03it/s] 58%|█████▊    | 27775/48008 [3:59:18<2:37:38,  2.14it/s] 58%|█████▊    | 27776/48008 [3:59:18<2:39:21,  2.12it/s] 58%|█████▊    | 27777/48008 [3:59:19<3:00:15,  1.87it/s] 58%|█████▊    | 27778/48008 [3:59:19<2:57:36,  1.90it/s] 58%|█████▊    | 27779/48008 [3:59:20<2:55:19,  1.92it/s] 58%|█████▊    | 27780/48008 [3:59:21<3:32:08,  1.59it/s] 58%|█████▊    | 27781/48008 [3:59:21<3:17:03,  1.71it/s] 58%|█████▊    | 27782/48008 [3:59:22<3:09:07,  1.78it/s] 58%|█████▊    | 27783/48008 [3:59:22<3:02:47,  1.84it/s] 58%|█████▊    | 27784/48008 [3:59:22<2:49:52,  1.98it/s] 58%|█████▊    | 27785/48008 [3:59:23<2:47:23,  2.01it/s] 58%|█████▊    | 27786/48008 [3:59:23<2:39:30,  2.11it/s] 58%|█████▊    | 27787/48008 [3:59:24<2:33:29,  2.20it/s] 58%|█████▊    | 27788/48008 [3:59:24<2:29:29,  2.25it/s] 58%|█████▊    | 27789/48008 [3:59:25<2:33:36,  2.19it/s] 58%|█████▊    | 27790/48008 [3:59:25<2:36:09,  2.16it/s] 58%|█████▊    | 27791/48008 [3:59:26<2:38:11,  2.13it/s] 58%|█████▊    | 27792/48008 [3:59:26<2:43:10,  2.06it/s] 58%|█████▊    | 27793/48008 [3:59:27<2:45:12,  2.04it/s] 58%|█████▊    | 27794/48008 [3:59:27<2:46:51,  2.02it/s] 58%|█████▊    | 27795/48008 [3:59:28<2:45:38,  2.03it/s] 58%|█████▊    | 27796/48008 [3:59:28<2:38:15,  2.13it/s] 58%|█████▊    | 27797/48008 [3:59:29<2:39:33,  2.11it/s] 58%|█████▊    | 27798/48008 [3:59:29<2:40:17,  2.10it/s] 58%|█████▊    | 27799/48008 [3:59:30<2:40:27,  2.10it/s] 58%|█████▊    | 27800/48008 [3:59:30<2:41:04,  2.09it/s]                                                         {'loss': 4.2594, 'grad_norm': 0.10858795791864395, 'learning_rate': 8.419013497750375e-05, 'epoch': 0.58}
 58%|█████▊    | 27800/48008 [3:59:30<2:41:04,  2.09it/s] 58%|█████▊    | 27801/48008 [3:59:30<2:41:20,  2.09it/s] 58%|█████▊    | 27802/48008 [3:59:31<2:34:57,  2.17it/s] 58%|█████▊    | 27803/48008 [3:59:31<2:39:18,  2.11it/s] 58%|█████▊    | 27804/48008 [3:59:32<2:33:19,  2.20it/s] 58%|█████▊    | 27805/48008 [3:59:32<2:29:18,  2.26it/s] 58%|█████▊    | 27806/48008 [3:59:33<2:32:59,  2.20it/s] 58%|█████▊    | 27807/48008 [3:59:33<2:35:28,  2.17it/s] 58%|█████▊    | 27808/48008 [3:59:34<2:56:50,  1.90it/s] 58%|█████▊    | 27809/48008 [3:59:34<2:52:28,  1.95it/s] 58%|█████▊    | 27810/48008 [3:59:35<2:49:18,  1.99it/s] 58%|█████▊    | 27811/48008 [3:59:35<2:47:10,  2.01it/s] 58%|█████▊    | 27812/48008 [3:59:36<2:46:10,  2.03it/s] 58%|█████▊    | 27813/48008 [3:59:36<2:50:29,  1.97it/s] 58%|█████▊    | 27814/48008 [3:59:37<2:48:23,  2.00it/s] 58%|█████▊    | 27815/48008 [3:59:37<2:45:55,  2.03it/s] 58%|█████▊    | 27816/48008 [3:59:38<2:46:54,  2.02it/s] 58%|█████▊    | 27817/48008 [3:59:38<2:38:56,  2.12it/s] 58%|█████▊    | 27818/48008 [3:59:39<2:42:31,  2.07it/s] 58%|█████▊    | 27819/48008 [3:59:39<2:42:08,  2.08it/s] 58%|█████▊    | 27820/48008 [3:59:40<3:01:37,  1.85it/s] 58%|█████▊    | 27821/48008 [3:59:40<3:00:23,  1.87it/s] 58%|█████▊    | 27822/48008 [3:59:41<2:48:29,  2.00it/s] 58%|█████▊    | 27823/48008 [3:59:41<2:49:30,  1.98it/s] 58%|█████▊    | 27824/48008 [3:59:42<2:47:09,  2.01it/s] 58%|█████▊    | 27825/48008 [3:59:42<2:45:05,  2.04it/s] 58%|█████▊    | 27826/48008 [3:59:43<2:48:41,  1.99it/s] 58%|█████▊    | 27827/48008 [3:59:43<2:46:50,  2.02it/s] 58%|█████▊    | 27828/48008 [3:59:44<2:45:36,  2.03it/s] 58%|█████▊    | 27829/48008 [3:59:44<2:47:06,  2.01it/s] 58%|█████▊    | 27830/48008 [3:59:45<2:45:34,  2.03it/s] 58%|█████▊    | 27831/48008 [3:59:45<2:44:09,  2.05it/s] 58%|█████▊    | 27832/48008 [3:59:46<2:36:58,  2.14it/s] 58%|█████▊    | 27833/48008 [3:59:47<3:56:20,  1.42it/s] 58%|█████▊    | 27834/48008 [3:59:47<3:36:25,  1.55it/s] 58%|█████▊    | 27835/48008 [3:59:48<3:20:03,  1.68it/s] 58%|█████▊    | 27836/48008 [3:59:49<4:27:14,  1.26it/s] 58%|█████▊    | 27837/48008 [3:59:50<3:55:56,  1.42it/s] 58%|█████▊    | 27838/48008 [3:59:50<3:35:45,  1.56it/s] 58%|█████▊    | 27839/48008 [3:59:51<3:13:09,  1.74it/s] 58%|█████▊    | 27840/48008 [3:59:51<3:04:04,  1.83it/s] 58%|█████▊    | 27841/48008 [3:59:52<2:57:36,  1.89it/s] 58%|█████▊    | 27842/48008 [3:59:52<2:56:21,  1.91it/s] 58%|█████▊    | 27843/48008 [3:59:53<2:56:27,  1.90it/s] 58%|█████▊    | 27844/48008 [3:59:53<2:54:27,  1.93it/s] 58%|█████▊    | 27845/48008 [3:59:54<2:50:56,  1.97it/s] 58%|█████▊    | 27846/48008 [3:59:54<2:50:28,  1.97it/s] 58%|█████▊    | 27847/48008 [3:59:55<2:50:20,  1.97it/s] 58%|█████▊    | 27848/48008 [3:59:55<3:07:13,  1.79it/s] 58%|█████▊    | 27849/48008 [3:59:56<3:00:00,  1.87it/s] 58%|█████▊    | 27850/48008 [3:59:56<2:54:51,  1.92it/s]                                                         {'loss': 4.2422, 'grad_norm': 0.19956903159618378, 'learning_rate': 8.398183636060657e-05, 'epoch': 0.58}
 58%|█████▊    | 27850/48008 [3:59:56<2:54:51,  1.92it/s] 58%|█████▊    | 27851/48008 [3:59:57<4:09:10,  1.35it/s] 58%|█████▊    | 27852/48008 [3:59:58<3:36:41,  1.55it/s] 58%|█████▊    | 27853/48008 [3:59:58<3:20:20,  1.68it/s] 58%|█████▊    | 27854/48008 [3:59:59<3:09:20,  1.77it/s] 58%|█████▊    | 27855/48008 [3:59:59<2:54:30,  1.92it/s] 58%|█████▊    | 27856/48008 [4:00:00<2:50:07,  1.97it/s] 58%|█████▊    | 27857/48008 [4:00:00<2:47:12,  2.01it/s] 58%|█████▊    | 27858/48008 [4:00:01<2:45:42,  2.03it/s] 58%|█████▊    | 27859/48008 [4:00:01<2:44:20,  2.04it/s] 58%|█████▊    | 27860/48008 [4:00:02<3:03:23,  1.83it/s] 58%|█████▊    | 27861/48008 [4:00:02<3:02:12,  1.84it/s] 58%|█████▊    | 27862/48008 [4:00:03<3:02:17,  1.84it/s] 58%|█████▊    | 27863/48008 [4:00:03<3:00:14,  1.86it/s] 58%|█████▊    | 27864/48008 [4:00:04<2:48:19,  1.99it/s] 58%|█████▊    | 27865/48008 [4:00:04<2:49:11,  1.98it/s] 58%|█████▊    | 27866/48008 [4:00:05<2:49:18,  1.98it/s] 58%|█████▊    | 27867/48008 [4:00:05<2:51:02,  1.96it/s] 58%|█████▊    | 27868/48008 [4:00:06<2:41:56,  2.07it/s] 58%|█████▊    | 27869/48008 [4:00:06<2:46:02,  2.02it/s] 58%|█████▊    | 27870/48008 [4:00:07<2:45:11,  2.03it/s] 58%|█████▊    | 27871/48008 [4:00:07<2:48:19,  1.99it/s] 58%|█████▊    | 27872/48008 [4:00:08<2:39:55,  2.10it/s] 58%|█████▊    | 27873/48008 [4:00:08<2:40:04,  2.10it/s] 58%|█████▊    | 27874/48008 [4:00:09<2:43:24,  2.05it/s] 58%|█████▊    | 27875/48008 [4:00:09<2:36:11,  2.15it/s] 58%|█████▊    | 27876/48008 [4:00:10<2:40:33,  2.09it/s] 58%|█████▊    | 27877/48008 [4:00:10<2:34:16,  2.17it/s] 58%|█████▊    | 27878/48008 [4:00:11<2:38:38,  2.11it/s] 58%|█████▊    | 27879/48008 [4:00:11<2:39:38,  2.10it/s] 58%|█████▊    | 27880/48008 [4:00:12<2:40:22,  2.09it/s] 58%|█████▊    | 27881/48008 [4:00:12<2:40:05,  2.10it/s] 58%|█████▊    | 27882/48008 [4:00:13<2:40:29,  2.09it/s] 58%|█████▊    | 27883/48008 [4:00:13<2:34:20,  2.17it/s] 58%|█████▊    | 27884/48008 [4:00:14<3:54:51,  1.43it/s] 58%|█████▊    | 27885/48008 [4:00:15<3:33:03,  1.57it/s] 58%|█████▊    | 27886/48008 [4:00:15<3:20:45,  1.67it/s] 58%|█████▊    | 27887/48008 [4:00:16<3:09:33,  1.77it/s] 58%|█████▊    | 27888/48008 [4:00:16<3:03:23,  1.83it/s] 58%|█████▊    | 27889/48008 [4:00:17<2:56:50,  1.90it/s] 58%|█████▊    | 27890/48008 [4:00:17<2:54:31,  1.92it/s] 58%|█████▊    | 27891/48008 [4:00:18<2:43:32,  2.05it/s] 58%|█████▊    | 27892/48008 [4:00:18<2:37:06,  2.13it/s] 58%|█████▊    | 27893/48008 [4:00:18<2:32:19,  2.20it/s] 58%|█████▊    | 27894/48008 [4:00:19<2:35:52,  2.15it/s] 58%|█████▊    | 27895/48008 [4:00:19<2:37:22,  2.13it/s] 58%|█████▊    | 27896/48008 [4:00:20<2:39:04,  2.11it/s] 58%|█████▊    | 27897/48008 [4:00:20<2:40:09,  2.09it/s] 58%|█████▊    | 27898/48008 [4:00:21<2:34:07,  2.17it/s] 58%|█████▊    | 27899/48008 [4:00:21<2:36:32,  2.14it/s] 58%|█████▊    | 27900/48008 [4:00:22<2:38:19,  2.12it/s]                                                         {'loss': 4.2221, 'grad_norm': 0.09577997773885727, 'learning_rate': 8.377353774370938e-05, 'epoch': 0.58}
 58%|█████▊    | 27900/48008 [4:00:22<2:38:19,  2.12it/s] 58%|█████▊    | 27901/48008 [4:00:22<2:43:36,  2.05it/s] 58%|█████▊    | 27902/48008 [4:00:23<2:42:55,  2.06it/s] 58%|█████▊    | 27903/48008 [4:00:23<2:42:32,  2.06it/s] 58%|█████▊    | 27904/48008 [4:00:24<2:42:15,  2.07it/s] 58%|█████▊    | 27905/48008 [4:00:24<2:46:05,  2.02it/s] 58%|█████▊    | 27906/48008 [4:00:25<3:41:20,  1.51it/s] 58%|█████▊    | 27907/48008 [4:00:26<3:27:33,  1.61it/s] 58%|█████▊    | 27908/48008 [4:00:26<3:13:48,  1.73it/s] 58%|█████▊    | 27909/48008 [4:00:27<2:57:49,  1.88it/s] 58%|█████▊    | 27910/48008 [4:00:27<2:55:42,  1.91it/s] 58%|█████▊    | 27911/48008 [4:00:28<2:51:36,  1.95it/s] 58%|█████▊    | 27912/48008 [4:00:28<2:52:55,  1.94it/s] 58%|█████▊    | 27913/48008 [4:00:29<2:52:05,  1.95it/s] 58%|█████▊    | 27914/48008 [4:00:29<2:51:27,  1.95it/s] 58%|█████▊    | 27915/48008 [4:00:30<2:48:28,  1.99it/s] 58%|█████▊    | 27916/48008 [4:00:30<2:46:26,  2.01it/s] 58%|█████▊    | 27917/48008 [4:00:31<2:45:03,  2.03it/s] 58%|█████▊    | 27918/48008 [4:00:31<2:43:47,  2.04it/s] 58%|█████▊    | 27919/48008 [4:00:32<2:36:25,  2.14it/s] 58%|█████▊    | 27920/48008 [4:00:33<3:55:59,  1.42it/s] 58%|█████▊    | 27921/48008 [4:00:33<3:33:36,  1.57it/s] 58%|█████▊    | 27922/48008 [4:00:34<3:17:53,  1.69it/s] 58%|█████▊    | 27923/48008 [4:00:34<3:00:33,  1.85it/s] 58%|█████▊    | 27924/48008 [4:00:35<2:54:19,  1.92it/s] 58%|█████▊    | 27925/48008 [4:00:35<2:50:43,  1.96it/s] 58%|█████▊    | 27926/48008 [4:00:36<2:47:57,  1.99it/s] 58%|█████▊    | 27927/48008 [4:00:36<2:49:14,  1.98it/s] 58%|█████▊    | 27928/48008 [4:00:37<2:46:55,  2.00it/s] 58%|█████▊    | 27929/48008 [4:00:37<2:45:20,  2.02it/s] 58%|█████▊    | 27930/48008 [4:00:38<2:46:26,  2.01it/s] 58%|█████▊    | 27931/48008 [4:00:38<2:47:28,  2.00it/s] 58%|█████▊    | 27932/48008 [4:00:39<2:45:39,  2.02it/s] 58%|█████▊    | 27933/48008 [4:00:39<2:37:48,  2.12it/s] 58%|█████▊    | 27934/48008 [4:00:40<2:45:06,  2.03it/s] 58%|█████▊    | 27935/48008 [4:00:41<3:24:09,  1.64it/s] 58%|█████▊    | 27936/48008 [4:00:42<4:28:46,  1.24it/s] 58%|█████▊    | 27937/48008 [4:00:42<3:57:00,  1.41it/s] 58%|█████▊    | 27938/48008 [4:00:43<3:34:35,  1.56it/s] 58%|█████▊    | 27939/48008 [4:00:43<3:22:12,  1.65it/s] 58%|█████▊    | 27940/48008 [4:00:44<3:10:14,  1.76it/s] 58%|█████▊    | 27941/48008 [4:00:44<3:02:05,  1.84it/s] 58%|█████▊    | 27942/48008 [4:00:45<2:45:58,  2.01it/s] 58%|█████▊    | 27943/48008 [4:00:45<2:44:28,  2.03it/s] 58%|█████▊    | 27944/48008 [4:00:46<2:37:06,  2.13it/s] 58%|█████▊    | 27945/48008 [4:00:46<2:37:51,  2.12it/s] 58%|█████▊    | 27946/48008 [4:00:47<2:41:25,  2.07it/s] 58%|█████▊    | 27947/48008 [4:00:47<2:41:31,  2.07it/s] 58%|█████▊    | 27948/48008 [4:00:48<2:41:45,  2.07it/s] 58%|█████▊    | 27949/48008 [4:00:48<2:41:47,  2.07it/s] 58%|█████▊    | 27950/48008 [4:00:48<2:42:06,  2.06it/s]                                                         {'loss': 4.2361, 'grad_norm': 0.10412184149026871, 'learning_rate': 8.35652391268122e-05, 'epoch': 0.58}
 58%|█████▊    | 27950/48008 [4:00:48<2:42:06,  2.06it/s] 58%|█████▊    | 27951/48008 [4:00:49<2:42:27,  2.06it/s] 58%|█████▊    | 27952/48008 [4:00:49<2:35:30,  2.15it/s] 58%|█████▊    | 27953/48008 [4:00:50<2:40:49,  2.08it/s] 58%|█████▊    | 27954/48008 [4:00:50<2:44:27,  2.03it/s] 58%|█████▊    | 27955/48008 [4:00:51<2:43:37,  2.04it/s] 58%|█████▊    | 27956/48008 [4:00:51<2:42:57,  2.05it/s] 58%|█████▊    | 27957/48008 [4:00:52<2:42:16,  2.06it/s] 58%|█████▊    | 27958/48008 [4:00:52<2:43:30,  2.04it/s] 58%|█████▊    | 27959/48008 [4:00:53<2:36:00,  2.14it/s] 58%|█████▊    | 27960/48008 [4:00:53<2:40:09,  2.09it/s] 58%|█████▊    | 27961/48008 [4:00:54<2:42:44,  2.05it/s] 58%|█████▊    | 27962/48008 [4:00:54<2:42:33,  2.06it/s] 58%|█████▊    | 27963/48008 [4:00:55<2:44:46,  2.03it/s] 58%|█████▊    | 27964/48008 [4:00:55<2:43:56,  2.04it/s] 58%|█████▊    | 27965/48008 [4:00:56<2:45:42,  2.02it/s] 58%|█████▊    | 27966/48008 [4:00:56<2:44:17,  2.03it/s] 58%|█████▊    | 27967/48008 [4:00:57<2:47:08,  2.00it/s] 58%|█████▊    | 27968/48008 [4:00:57<2:47:27,  1.99it/s] 58%|█████▊    | 27969/48008 [4:00:58<2:45:28,  2.02it/s] 58%|█████▊    | 27970/48008 [4:00:58<3:03:28,  1.82it/s] 58%|█████▊    | 27971/48008 [4:00:59<2:56:51,  1.89it/s] 58%|█████▊    | 27972/48008 [4:01:00<3:31:13,  1.58it/s] 58%|█████▊    | 27973/48008 [4:01:00<3:35:50,  1.55it/s] 58%|█████▊    | 27974/48008 [4:01:01<3:21:51,  1.65it/s] 58%|█████▊    | 27975/48008 [4:01:01<3:10:08,  1.76it/s] 58%|█████▊    | 27976/48008 [4:01:02<3:01:32,  1.84it/s] 58%|█████▊    | 27977/48008 [4:01:03<3:14:49,  1.71it/s] 58%|█████▊    | 27978/48008 [4:01:03<3:08:25,  1.77it/s] 58%|█████▊    | 27979/48008 [4:01:04<2:53:35,  1.92it/s] 58%|█████▊    | 27980/48008 [4:01:04<2:43:31,  2.04it/s] 58%|█████▊    | 27981/48008 [4:01:05<2:44:24,  2.03it/s] 58%|█████▊    | 27982/48008 [4:01:05<2:36:51,  2.13it/s] 58%|█████▊    | 27983/48008 [4:01:05<2:31:46,  2.20it/s] 58%|█████▊    | 27984/48008 [4:01:06<2:34:33,  2.16it/s] 58%|█████▊    | 27985/48008 [4:01:06<2:35:54,  2.14it/s] 58%|█████▊    | 27986/48008 [4:01:07<2:37:40,  2.12it/s] 58%|█████▊    | 27987/48008 [4:01:07<2:32:13,  2.19it/s] 58%|█████▊    | 27988/48008 [4:01:08<2:41:00,  2.07it/s] 58%|█████▊    | 27989/48008 [4:01:08<2:41:32,  2.07it/s] 58%|█████▊    | 27990/48008 [4:01:09<2:44:21,  2.03it/s] 58%|█████▊    | 27991/48008 [4:01:09<2:46:15,  2.01it/s] 58%|█████▊    | 27992/48008 [4:01:10<3:04:31,  1.81it/s] 58%|█████▊    | 27993/48008 [4:01:10<2:57:40,  1.88it/s] 58%|█████▊    | 27994/48008 [4:01:11<2:55:21,  1.90it/s] 58%|█████▊    | 27995/48008 [4:01:11<2:44:29,  2.03it/s] 58%|█████▊    | 27996/48008 [4:01:12<2:49:31,  1.97it/s] 58%|█████▊    | 27997/48008 [4:01:12<2:51:13,  1.95it/s] 58%|█████▊    | 27998/48008 [4:01:13<2:48:19,  1.98it/s] 58%|█████▊    | 27999/48008 [4:01:13<2:39:50,  2.09it/s] 58%|█████▊    | 28000/48008 [4:01:14<2:42:18,  2.05it/s]                                                         {'loss': 4.254, 'grad_norm': 0.09227026253938675, 'learning_rate': 8.335694050991502e-05, 'epoch': 0.58}
 58%|█████▊    | 28000/48008 [4:01:14<2:42:18,  2.05it/s] 58%|█████▊    | 28001/48008 [4:01:14<2:35:44,  2.14it/s] 58%|█████▊    | 28002/48008 [4:01:15<2:39:46,  2.09it/s] 58%|█████▊    | 28003/48008 [4:01:15<2:59:27,  1.86it/s] 58%|█████▊    | 28004/48008 [4:01:16<2:47:14,  1.99it/s] 58%|█████▊    | 28005/48008 [4:01:17<3:04:06,  1.81it/s] 58%|█████▊    | 28006/48008 [4:01:17<2:56:42,  1.89it/s] 58%|█████▊    | 28007/48008 [4:01:17<2:51:54,  1.94it/s] 58%|█████▊    | 28008/48008 [4:01:18<2:48:35,  1.98it/s] 58%|█████▊    | 28009/48008 [4:01:18<2:48:24,  1.98it/s] 58%|█████▊    | 28010/48008 [4:01:20<4:03:47,  1.37it/s] 58%|█████▊    | 28011/48008 [4:01:20<3:41:11,  1.51it/s] 58%|█████▊    | 28012/48008 [4:01:21<3:25:46,  1.62it/s] 58%|█████▊    | 28013/48008 [4:01:21<3:15:33,  1.70it/s] 58%|█████▊    | 28014/48008 [4:01:22<3:05:33,  1.80it/s] 58%|█████▊    | 28015/48008 [4:01:22<3:04:34,  1.81it/s] 58%|█████▊    | 28016/48008 [4:01:23<2:57:50,  1.87it/s] 58%|█████▊    | 28017/48008 [4:01:23<3:12:20,  1.73it/s] 58%|█████▊    | 28018/48008 [4:01:24<3:02:48,  1.82it/s] 58%|█████▊    | 28019/48008 [4:01:24<2:56:11,  1.89it/s] 58%|█████▊    | 28020/48008 [4:01:25<2:55:00,  1.90it/s] 58%|█████▊    | 28021/48008 [4:01:25<2:53:14,  1.92it/s] 58%|█████▊    | 28022/48008 [4:01:26<2:49:57,  1.96it/s] 58%|█████▊    | 28023/48008 [4:01:26<2:51:08,  1.95it/s] 58%|█████▊    | 28024/48008 [4:01:27<2:51:31,  1.94it/s] 58%|█████▊    | 28025/48008 [4:01:27<2:48:14,  1.98it/s] 58%|█████▊    | 28026/48008 [4:01:28<2:47:50,  1.98it/s] 58%|█████▊    | 28027/48008 [4:01:28<2:45:28,  2.01it/s] 58%|█████▊    | 28028/48008 [4:01:29<2:44:08,  2.03it/s] 58%|█████▊    | 28029/48008 [4:01:29<2:36:37,  2.13it/s] 58%|█████▊    | 28030/48008 [4:01:30<2:31:20,  2.20it/s] 58%|█████▊    | 28031/48008 [4:01:30<2:35:45,  2.14it/s] 58%|█████▊    | 28032/48008 [4:01:31<2:36:38,  2.13it/s] 58%|█████▊    | 28033/48008 [4:01:31<2:31:27,  2.20it/s] 58%|█████▊    | 28034/48008 [4:01:32<2:28:04,  2.25it/s] 58%|█████▊    | 28035/48008 [4:01:32<2:32:06,  2.19it/s] 58%|█████▊    | 28036/48008 [4:01:33<2:36:51,  2.12it/s] 58%|█████▊    | 28037/48008 [4:01:33<2:38:27,  2.10it/s] 58%|█████▊    | 28038/48008 [4:01:34<2:41:22,  2.06it/s] 58%|█████▊    | 28039/48008 [4:01:34<2:40:58,  2.07it/s] 58%|█████▊    | 28040/48008 [4:01:35<2:40:54,  2.07it/s] 58%|█████▊    | 28041/48008 [4:01:35<2:40:08,  2.08it/s] 58%|█████▊    | 28042/48008 [4:01:36<3:19:42,  1.67it/s] 58%|█████▊    | 28043/48008 [4:01:36<3:07:41,  1.77it/s] 58%|█████▊    | 28044/48008 [4:01:37<3:03:18,  1.82it/s] 58%|█████▊    | 28045/48008 [4:01:37<3:00:05,  1.85it/s] 58%|█████▊    | 28046/48008 [4:01:38<2:53:38,  1.92it/s] 58%|█████▊    | 28047/48008 [4:01:38<2:51:47,  1.94it/s] 58%|█████▊    | 28048/48008 [4:01:39<3:08:18,  1.77it/s] 58%|█████▊    | 28049/48008 [4:01:40<3:03:44,  1.81it/s] 58%|█████▊    | 28050/48008 [4:01:40<2:57:39,  1.87it/s]                                                         {'loss': 4.2584, 'grad_norm': 0.09802678972482681, 'learning_rate': 8.314864189301783e-05, 'epoch': 0.58}
 58%|█████▊    | 28050/48008 [4:01:40<2:57:39,  1.87it/s] 58%|█████▊    | 28051/48008 [4:01:41<3:11:36,  1.74it/s] 58%|█████▊    | 28052/48008 [4:01:41<3:03:58,  1.81it/s] 58%|█████▊    | 28053/48008 [4:01:42<2:59:03,  1.86it/s] 58%|█████▊    | 28054/48008 [4:01:42<2:53:38,  1.92it/s] 58%|█████▊    | 28055/48008 [4:01:43<3:10:01,  1.75it/s] 58%|█████▊    | 28056/48008 [4:01:43<3:07:02,  1.78it/s] 58%|█████▊    | 28057/48008 [4:01:44<2:52:44,  1.92it/s] 58%|█████▊    | 28058/48008 [4:01:44<2:42:50,  2.04it/s] 58%|█████▊    | 28059/48008 [4:01:45<2:44:23,  2.02it/s] 58%|█████▊    | 28060/48008 [4:01:45<2:36:37,  2.12it/s] 58%|█████▊    | 28061/48008 [4:01:46<2:37:18,  2.11it/s] 58%|█████▊    | 28062/48008 [4:01:46<2:40:26,  2.07it/s] 58%|█████▊    | 28063/48008 [4:01:47<2:33:51,  2.16it/s] 58%|█████▊    | 28064/48008 [4:01:47<2:38:11,  2.10it/s] 58%|█████▊    | 28065/48008 [4:01:48<2:39:21,  2.09it/s] 58%|█████▊    | 28066/48008 [4:01:48<2:29:46,  2.22it/s] 58%|█████▊    | 28067/48008 [4:01:48<2:33:10,  2.17it/s] 58%|█████▊    | 28068/48008 [4:01:49<2:38:35,  2.10it/s] 58%|█████▊    | 28069/48008 [4:01:49<2:39:09,  2.09it/s] 58%|█████▊    | 28070/48008 [4:01:50<2:32:57,  2.17it/s] 58%|█████▊    | 28071/48008 [4:01:50<2:37:39,  2.11it/s] 58%|█████▊    | 28072/48008 [4:01:51<2:42:26,  2.05it/s] 58%|█████▊    | 28073/48008 [4:01:51<2:41:37,  2.06it/s] 58%|█████▊    | 28074/48008 [4:01:52<2:35:07,  2.14it/s] 58%|█████▊    | 28075/48008 [4:01:52<2:37:02,  2.12it/s] 58%|█████▊    | 28076/48008 [4:01:53<2:38:08,  2.10it/s] 58%|█████▊    | 28077/48008 [4:01:53<2:38:36,  2.09it/s] 58%|█████▊    | 28078/48008 [4:01:54<2:42:36,  2.04it/s] 58%|█████▊    | 28079/48008 [4:01:54<2:35:26,  2.14it/s] 58%|█████▊    | 28080/48008 [4:01:55<2:30:50,  2.20it/s] 58%|█████▊    | 28081/48008 [4:01:55<2:32:55,  2.17it/s] 58%|█████▊    | 28082/48008 [4:01:56<2:35:01,  2.14it/s] 58%|█████▊    | 28083/48008 [4:01:56<2:30:20,  2.21it/s] 58%|█████▊    | 28084/48008 [4:01:56<2:33:38,  2.16it/s] 59%|█████▊    | 28085/48008 [4:01:57<2:38:25,  2.10it/s] 59%|█████▊    | 28086/48008 [4:01:57<2:39:19,  2.08it/s] 59%|█████▊    | 28087/48008 [4:01:58<2:41:52,  2.05it/s] 59%|█████▊    | 28088/48008 [4:01:59<2:44:12,  2.02it/s] 59%|█████▊    | 28089/48008 [4:01:59<2:45:42,  2.00it/s] 59%|█████▊    | 28090/48008 [4:02:00<2:44:12,  2.02it/s] 59%|█████▊    | 28091/48008 [4:02:00<2:44:38,  2.02it/s] 59%|█████▊    | 28092/48008 [4:02:01<2:45:46,  2.00it/s] 59%|█████▊    | 28093/48008 [4:02:01<2:44:49,  2.01it/s] 59%|█████▊    | 28094/48008 [4:02:02<2:45:49,  2.00it/s] 59%|█████▊    | 28095/48008 [4:02:02<3:23:33,  1.63it/s] 59%|█████▊    | 28096/48008 [4:02:03<3:10:21,  1.74it/s] 59%|█████▊    | 28097/48008 [4:02:03<3:03:56,  1.80it/s] 59%|█████▊    | 28098/48008 [4:02:04<2:56:38,  1.88it/s] 59%|█████▊    | 28099/48008 [4:02:04<2:55:51,  1.89it/s] 59%|█████▊    | 28100/48008 [4:02:05<2:51:07,  1.94it/s]                                                         {'loss': 4.259, 'grad_norm': 0.1073903813958168, 'learning_rate': 8.294034327612065e-05, 'epoch': 0.59}
 59%|█████▊    | 28100/48008 [4:02:05<2:51:07,  1.94it/s] 59%|█████▊    | 28101/48008 [4:02:05<2:50:21,  1.95it/s] 59%|█████▊    | 28102/48008 [4:02:06<3:06:27,  1.78it/s] 59%|█████▊    | 28103/48008 [4:02:07<3:01:41,  1.83it/s] 59%|█████▊    | 28104/48008 [4:02:07<2:49:18,  1.96it/s] 59%|█████▊    | 28105/48008 [4:02:07<2:39:57,  2.07it/s] 59%|█████▊    | 28106/48008 [4:02:08<2:40:10,  2.07it/s] 59%|█████▊    | 28107/48008 [4:02:08<2:45:31,  2.00it/s] 59%|█████▊    | 28108/48008 [4:02:09<2:46:11,  2.00it/s] 59%|█████▊    | 28109/48008 [4:02:10<3:24:04,  1.63it/s] 59%|█████▊    | 28110/48008 [4:02:10<3:12:50,  1.72it/s] 59%|█████▊    | 28111/48008 [4:02:11<3:05:11,  1.79it/s] 59%|█████▊    | 28112/48008 [4:02:11<2:57:22,  1.87it/s] 59%|█████▊    | 28113/48008 [4:02:12<2:52:19,  1.92it/s] 59%|█████▊    | 28114/48008 [4:02:12<2:50:24,  1.95it/s] 59%|█████▊    | 28115/48008 [4:02:13<2:47:27,  1.98it/s] 59%|█████▊    | 28116/48008 [4:02:13<2:44:29,  2.02it/s] 59%|█████▊    | 28117/48008 [4:02:14<2:46:55,  1.99it/s] 59%|█████▊    | 28118/48008 [4:02:15<3:23:33,  1.63it/s] 59%|█████▊    | 28119/48008 [4:02:15<3:09:45,  1.75it/s] 59%|█████▊    | 28120/48008 [4:02:15<2:50:58,  1.94it/s] 59%|█████▊    | 28121/48008 [4:02:16<2:47:51,  1.97it/s] 59%|█████▊    | 28122/48008 [4:02:16<2:47:44,  1.98it/s] 59%|█████▊    | 28123/48008 [4:02:17<3:24:32,  1.62it/s] 59%|█████▊    | 28124/48008 [4:02:18<3:04:47,  1.79it/s] 59%|█████▊    | 28125/48008 [4:02:18<2:57:33,  1.87it/s] 59%|█████▊    | 28126/48008 [4:02:19<2:56:57,  1.87it/s] 59%|█████▊    | 28127/48008 [4:02:19<2:54:43,  1.90it/s] 59%|█████▊    | 28128/48008 [4:02:20<2:50:32,  1.94it/s] 59%|█████▊    | 28129/48008 [4:02:20<2:47:16,  1.98it/s] 59%|█████▊    | 28130/48008 [4:02:21<2:38:02,  2.10it/s] 59%|█████▊    | 28131/48008 [4:02:21<2:38:34,  2.09it/s] 59%|█████▊    | 28132/48008 [4:02:22<2:38:51,  2.09it/s] 59%|█████▊    | 28133/48008 [4:02:22<2:40:42,  2.06it/s] 59%|█████▊    | 28134/48008 [4:02:23<2:40:38,  2.06it/s] 59%|█████▊    | 28135/48008 [4:02:23<2:45:56,  2.00it/s] 59%|█████▊    | 28136/48008 [4:02:24<2:46:26,  1.99it/s] 59%|█████▊    | 28137/48008 [4:02:24<2:37:43,  2.10it/s] 59%|█████▊    | 28138/48008 [4:02:25<3:55:32,  1.41it/s] 59%|█████▊    | 28139/48008 [4:02:26<3:36:29,  1.53it/s] 59%|█████▊    | 28140/48008 [4:02:26<3:19:17,  1.66it/s] 59%|█████▊    | 28141/48008 [4:02:27<3:09:07,  1.75it/s] 59%|█████▊    | 28142/48008 [4:02:27<3:00:14,  1.84it/s] 59%|█████▊    | 28143/48008 [4:02:28<2:54:03,  1.90it/s] 59%|█████▊    | 28144/48008 [4:02:28<2:49:52,  1.95it/s] 59%|█████▊    | 28145/48008 [4:02:29<2:52:30,  1.92it/s] 59%|█████▊    | 28146/48008 [4:02:29<2:54:31,  1.90it/s] 59%|█████▊    | 28147/48008 [4:02:30<2:49:52,  1.95it/s] 59%|█████▊    | 28148/48008 [4:02:30<2:40:12,  2.07it/s] 59%|█████▊    | 28149/48008 [4:02:31<2:39:51,  2.07it/s] 59%|█████▊    | 28150/48008 [4:02:31<2:39:46,  2.07it/s]                                                         {'loss': 4.2432, 'grad_norm': 0.09919119626283646, 'learning_rate': 8.273204465922346e-05, 'epoch': 0.59} 59%|█████▊    | 28150/48008 [4:02:31<2:39:46,  2.07it/s]
 59%|█████▊    | 28151/48008 [4:02:32<2:39:35,  2.07it/s] 59%|█████▊    | 28152/48008 [4:02:32<2:43:04,  2.03it/s] 59%|█████▊    | 28153/48008 [4:02:33<2:47:07,  1.98it/s] 59%|█████▊    | 28154/48008 [4:02:33<2:44:37,  2.01it/s] 59%|█████▊    | 28155/48008 [4:02:34<2:36:42,  2.11it/s] 59%|█████▊    | 28156/48008 [4:02:34<2:39:52,  2.07it/s] 59%|█████▊    | 28157/48008 [4:02:35<2:42:23,  2.04it/s] 59%|█████▊    | 28158/48008 [4:02:35<2:45:25,  2.00it/s] 59%|█████▊    | 28159/48008 [4:02:36<2:43:58,  2.02it/s] 59%|█████▊    | 28160/48008 [4:02:36<2:46:25,  1.99it/s] 59%|█████▊    | 28161/48008 [4:02:37<2:38:01,  2.09it/s] 59%|█████▊    | 28162/48008 [4:02:37<2:32:01,  2.18it/s] 59%|█████▊    | 28163/48008 [4:02:38<2:53:38,  1.90it/s] 59%|█████▊    | 28164/48008 [4:02:38<2:49:29,  1.95it/s] 59%|█████▊    | 28165/48008 [4:02:39<4:02:46,  1.36it/s] 59%|█████▊    | 28166/48008 [4:02:40<3:37:43,  1.52it/s] 59%|█████▊    | 28167/48008 [4:02:40<3:13:47,  1.71it/s] 59%|█████▊    | 28168/48008 [4:02:41<2:56:48,  1.87it/s] 59%|█████▊    | 28169/48008 [4:02:41<2:54:03,  1.90it/s] 59%|█████▊    | 28170/48008 [4:02:42<2:49:19,  1.95it/s] 59%|█████▊    | 28171/48008 [4:02:42<2:46:14,  1.99it/s] 59%|█████▊    | 28172/48008 [4:02:43<2:46:28,  1.99it/s] 59%|█████▊    | 28173/48008 [4:02:43<2:34:14,  2.14it/s] 59%|█████▊    | 28174/48008 [4:02:44<2:35:42,  2.12it/s] 59%|█████▊    | 28175/48008 [4:02:44<2:42:31,  2.03it/s] 59%|█████▊    | 28176/48008 [4:02:45<2:45:17,  2.00it/s] 59%|█████▊    | 28177/48008 [4:02:45<2:36:56,  2.11it/s] 59%|█████▊    | 28178/48008 [4:02:46<3:53:18,  1.42it/s] 59%|█████▊    | 28179/48008 [4:02:48<4:47:23,  1.15it/s] 59%|█████▊    | 28180/48008 [4:02:48<4:08:53,  1.33it/s] 59%|█████▊    | 28181/48008 [4:02:49<3:42:07,  1.49it/s] 59%|█████▊    | 28182/48008 [4:02:49<3:22:37,  1.63it/s] 59%|█████▊    | 28183/48008 [4:02:50<3:12:06,  1.72it/s] 59%|█████▊    | 28184/48008 [4:02:50<2:55:40,  1.88it/s] 59%|█████▊    | 28185/48008 [4:02:50<2:56:39,  1.87it/s] 59%|█████▊    | 28186/48008 [4:02:51<2:51:36,  1.93it/s] 59%|█████▊    | 28187/48008 [4:02:51<2:47:11,  1.98it/s] 59%|█████▊    | 28188/48008 [4:02:52<2:44:44,  2.01it/s] 59%|█████▊    | 28189/48008 [4:02:53<3:02:07,  1.81it/s] 59%|█████▊    | 28190/48008 [4:02:53<2:55:02,  1.89it/s] 59%|█████▊    | 28191/48008 [4:02:54<2:50:18,  1.94it/s] 59%|█████▊    | 28192/48008 [4:02:54<2:51:10,  1.93it/s] 59%|█████▊    | 28193/48008 [4:02:54<2:37:28,  2.10it/s] 59%|█████▊    | 28194/48008 [4:02:55<2:31:32,  2.18it/s] 59%|█████▊    | 28195/48008 [4:02:55<2:27:16,  2.24it/s] 59%|█████▊    | 28196/48008 [4:02:56<2:36:52,  2.10it/s] 59%|█████▊    | 28197/48008 [4:02:57<3:53:28,  1.41it/s] 59%|█████▊    | 28198/48008 [4:02:58<3:33:46,  1.54it/s] 59%|█████▊    | 28199/48008 [4:02:58<3:17:55,  1.67it/s] 59%|█████▊    | 28200/48008 [4:02:59<3:08:53,  1.75it/s]                                                         {'loss': 4.2562, 'grad_norm': 0.10647284984588623, 'learning_rate': 8.252374604232627e-05, 'epoch': 0.59}
 59%|█████▊    | 28200/48008 [4:02:59<3:08:53,  1.75it/s] 59%|█████▊    | 28201/48008 [4:02:59<3:00:34,  1.83it/s] 59%|█████▊    | 28202/48008 [4:02:59<2:48:00,  1.96it/s] 59%|█████▊    | 28203/48008 [4:03:00<2:45:35,  1.99it/s] 59%|█████▊    | 28204/48008 [4:03:00<2:46:55,  1.98it/s] 59%|█████▉    | 28205/48008 [4:03:01<2:47:02,  1.98it/s] 59%|█████▉    | 28206/48008 [4:03:02<4:01:47,  1.36it/s] 59%|█████▉    | 28207/48008 [4:03:03<3:30:41,  1.57it/s] 59%|█████▉    | 28208/48008 [4:03:03<3:08:37,  1.75it/s] 59%|█████▉    | 28209/48008 [4:03:04<3:02:43,  1.81it/s] 59%|█████▉    | 28210/48008 [4:03:04<2:55:34,  1.88it/s] 59%|█████▉    | 28211/48008 [4:03:05<3:09:41,  1.74it/s] 59%|█████▉    | 28212/48008 [4:03:05<3:03:07,  1.80it/s] 59%|█████▉    | 28213/48008 [4:03:06<3:01:27,  1.82it/s] 59%|█████▉    | 28214/48008 [4:03:06<2:54:36,  1.89it/s] 59%|█████▉    | 28215/48008 [4:03:07<2:49:38,  1.94it/s] 59%|█████▉    | 28216/48008 [4:03:08<4:02:36,  1.36it/s] 59%|█████▉    | 28217/48008 [4:03:09<4:16:28,  1.29it/s] 59%|█████▉    | 28218/48008 [4:03:09<3:47:20,  1.45it/s] 59%|█████▉    | 28219/48008 [4:03:10<3:30:01,  1.57it/s] 59%|█████▉    | 28220/48008 [4:03:10<3:15:00,  1.69it/s] 59%|█████▉    | 28221/48008 [4:03:11<3:06:23,  1.77it/s] 59%|█████▉    | 28222/48008 [4:03:11<2:51:34,  1.92it/s] 59%|█████▉    | 28223/48008 [4:03:12<2:41:15,  2.04it/s] 59%|█████▉    | 28224/48008 [4:03:12<2:33:56,  2.14it/s] 59%|█████▉    | 28225/48008 [4:03:13<2:37:51,  2.09it/s] 59%|█████▉    | 28226/48008 [4:03:13<2:38:33,  2.08it/s] 59%|█████▉    | 28227/48008 [4:03:14<2:42:38,  2.03it/s] 59%|█████▉    | 28228/48008 [4:03:14<2:41:16,  2.04it/s] 59%|█████▉    | 28229/48008 [4:03:15<2:41:25,  2.04it/s] 59%|█████▉    | 28230/48008 [4:03:15<2:47:11,  1.97it/s] 59%|█████▉    | 28231/48008 [4:03:16<2:44:00,  2.01it/s] 59%|█████▉    | 28232/48008 [4:03:16<2:42:14,  2.03it/s] 59%|█████▉    | 28233/48008 [4:03:17<2:41:27,  2.04it/s] 59%|█████▉    | 28234/48008 [4:03:17<2:40:46,  2.05it/s] 59%|█████▉    | 28235/48008 [4:03:18<2:41:03,  2.05it/s] 59%|█████▉    | 28236/48008 [4:03:18<2:40:29,  2.05it/s] 59%|█████▉    | 28237/48008 [4:03:19<2:39:58,  2.06it/s] 59%|█████▉    | 28238/48008 [4:03:19<2:42:39,  2.03it/s] 59%|█████▉    | 28239/48008 [4:03:20<2:41:00,  2.05it/s] 59%|█████▉    | 28240/48008 [4:03:20<2:40:53,  2.05it/s] 59%|█████▉    | 28241/48008 [4:03:21<3:56:21,  1.39it/s] 59%|█████▉    | 28242/48008 [4:03:22<3:33:34,  1.54it/s] 59%|█████▉    | 28243/48008 [4:03:22<3:17:38,  1.67it/s] 59%|█████▉    | 28244/48008 [4:03:23<2:58:45,  1.84it/s] 59%|█████▉    | 28245/48008 [4:03:23<2:54:25,  1.89it/s] 59%|█████▉    | 28246/48008 [4:03:24<2:43:34,  2.01it/s] 59%|█████▉    | 28247/48008 [4:03:24<2:42:09,  2.03it/s] 59%|█████▉    | 28248/48008 [4:03:24<2:35:09,  2.12it/s] 59%|█████▉    | 28249/48008 [4:03:25<2:36:30,  2.10it/s] 59%|█████▉    | 28250/48008 [4:03:25<2:30:54,  2.18it/s]                                                         {'loss': 4.2028, 'grad_norm': 0.10141987353563309, 'learning_rate': 8.23154474254291e-05, 'epoch': 0.59}
 59%|█████▉    | 28250/48008 [4:03:25<2:30:54,  2.18it/s] 59%|█████▉    | 28251/48008 [4:03:26<2:27:04,  2.24it/s] 59%|█████▉    | 28252/48008 [4:03:26<2:32:11,  2.16it/s] 59%|█████▉    | 28253/48008 [4:03:27<2:39:19,  2.07it/s] 59%|█████▉    | 28254/48008 [4:03:27<2:44:39,  2.00it/s] 59%|█████▉    | 28255/48008 [4:03:28<2:45:29,  1.99it/s] 59%|█████▉    | 28256/48008 [4:03:28<2:43:32,  2.01it/s] 59%|█████▉    | 28257/48008 [4:03:29<2:41:48,  2.03it/s] 59%|█████▉    | 28258/48008 [4:03:29<2:44:05,  2.01it/s] 59%|█████▉    | 28259/48008 [4:03:30<2:41:46,  2.03it/s] 59%|█████▉    | 28260/48008 [4:03:30<2:41:46,  2.03it/s] 59%|█████▉    | 28261/48008 [4:03:31<2:42:35,  2.02it/s] 59%|█████▉    | 28262/48008 [4:03:31<2:34:51,  2.13it/s] 59%|█████▉    | 28263/48008 [4:03:32<2:36:17,  2.11it/s] 59%|█████▉    | 28264/48008 [4:03:32<2:41:17,  2.04it/s] 59%|█████▉    | 28265/48008 [4:03:33<2:45:40,  1.99it/s] 59%|█████▉    | 28266/48008 [4:03:33<2:44:07,  2.00it/s] 59%|█████▉    | 28267/48008 [4:03:34<2:42:54,  2.02it/s] 59%|█████▉    | 28268/48008 [4:03:34<2:44:11,  2.00it/s] 59%|█████▉    | 28269/48008 [4:03:35<2:45:06,  1.99it/s] 59%|█████▉    | 28270/48008 [4:03:35<2:42:59,  2.02it/s] 59%|█████▉    | 28271/48008 [4:03:36<2:41:52,  2.03it/s] 59%|█████▉    | 28272/48008 [4:03:36<2:42:48,  2.02it/s] 59%|█████▉    | 28273/48008 [4:03:37<2:41:51,  2.03it/s] 59%|█████▉    | 28274/48008 [4:03:37<2:43:24,  2.01it/s] 59%|█████▉    | 28275/48008 [4:03:39<3:58:36,  1.38it/s] 59%|█████▉    | 28276/48008 [4:03:39<3:34:57,  1.53it/s] 59%|█████▉    | 28277/48008 [4:03:39<3:11:33,  1.72it/s] 59%|█████▉    | 28278/48008 [4:03:40<3:07:26,  1.75it/s] 59%|█████▉    | 28279/48008 [4:03:40<2:59:10,  1.84it/s] 59%|█████▉    | 28280/48008 [4:03:41<2:52:48,  1.90it/s] 59%|█████▉    | 28281/48008 [4:03:41<2:52:25,  1.91it/s] 59%|█████▉    | 28282/48008 [4:03:42<2:41:53,  2.03it/s] 59%|█████▉    | 28283/48008 [4:03:42<2:34:31,  2.13it/s] 59%|█████▉    | 28284/48008 [4:03:43<2:34:59,  2.12it/s] 59%|█████▉    | 28285/48008 [4:03:44<3:51:12,  1.42it/s] 59%|█████▉    | 28286/48008 [4:03:44<3:31:15,  1.56it/s] 59%|█████▉    | 28287/48008 [4:03:45<3:09:27,  1.73it/s] 59%|█████▉    | 28288/48008 [4:03:45<3:02:38,  1.80it/s] 59%|█████▉    | 28289/48008 [4:03:46<2:49:38,  1.94it/s] 59%|█████▉    | 28290/48008 [4:03:46<2:39:56,  2.05it/s] 59%|█████▉    | 28291/48008 [4:03:47<2:39:21,  2.06it/s] 59%|█████▉    | 28292/48008 [4:03:47<2:39:11,  2.06it/s] 59%|█████▉    | 28293/48008 [4:03:48<2:57:59,  1.85it/s] 59%|█████▉    | 28294/48008 [4:03:48<2:55:43,  1.87it/s] 59%|█████▉    | 28295/48008 [4:03:49<2:50:04,  1.93it/s] 59%|█████▉    | 28296/48008 [4:03:49<2:48:17,  1.95it/s] 59%|█████▉    | 28297/48008 [4:03:50<2:47:52,  1.96it/s] 59%|█████▉    | 28298/48008 [4:03:51<3:23:57,  1.61it/s] 59%|█████▉    | 28299/48008 [4:03:51<3:10:13,  1.73it/s] 59%|█████▉    | 28300/48008 [4:03:52<3:02:47,  1.80it/s]                                                         {'loss': 4.2762, 'grad_norm': 0.09600451588630676, 'learning_rate': 8.210714880853192e-05, 'epoch': 0.59}
 59%|█████▉    | 28300/48008 [4:03:52<3:02:47,  1.80it/s] 59%|█████▉    | 28301/48008 [4:03:52<2:55:36,  1.87it/s] 59%|█████▉    | 28302/48008 [4:03:53<2:50:42,  1.92it/s] 59%|█████▉    | 28303/48008 [4:03:53<2:40:30,  2.05it/s] 59%|█████▉    | 28304/48008 [4:03:54<2:33:15,  2.14it/s] 59%|█████▉    | 28305/48008 [4:03:54<2:34:36,  2.12it/s] 59%|█████▉    | 28306/48008 [4:03:55<2:35:40,  2.11it/s] 59%|█████▉    | 28307/48008 [4:03:55<2:36:28,  2.10it/s] 59%|█████▉    | 28308/48008 [4:03:56<2:43:03,  2.01it/s] 59%|█████▉    | 28309/48008 [4:03:56<2:45:57,  1.98it/s] 59%|█████▉    | 28310/48008 [4:03:57<2:43:55,  2.00it/s] 59%|█████▉    | 28311/48008 [4:03:57<2:45:06,  1.99it/s] 59%|█████▉    | 28312/48008 [4:03:58<2:44:51,  1.99it/s] 59%|█████▉    | 28313/48008 [4:03:58<2:46:18,  1.97it/s] 59%|█████▉    | 28314/48008 [4:03:59<2:46:21,  1.97it/s] 59%|█████▉    | 28315/48008 [4:03:59<2:46:24,  1.97it/s] 59%|█████▉    | 28316/48008 [4:04:00<2:48:56,  1.94it/s] 59%|█████▉    | 28317/48008 [4:04:00<2:47:52,  1.95it/s] 59%|█████▉    | 28318/48008 [4:04:01<2:48:51,  1.94it/s] 59%|█████▉    | 28319/48008 [4:04:01<2:45:32,  1.98it/s] 59%|█████▉    | 28320/48008 [4:04:02<2:45:59,  1.98it/s] 59%|█████▉    | 28321/48008 [4:04:02<2:43:18,  2.01it/s] 59%|█████▉    | 28322/48008 [4:04:03<3:21:04,  1.63it/s] 59%|█████▉    | 28323/48008 [4:04:03<3:01:56,  1.80it/s] 59%|█████▉    | 28324/48008 [4:04:04<2:58:02,  1.84it/s] 59%|█████▉    | 28325/48008 [4:04:05<3:30:39,  1.56it/s] 59%|█████▉    | 28326/48008 [4:04:05<3:08:24,  1.74it/s] 59%|█████▉    | 28327/48008 [4:04:06<2:59:31,  1.83it/s] 59%|█████▉    | 28328/48008 [4:04:06<2:56:41,  1.86it/s] 59%|█████▉    | 28329/48008 [4:04:07<2:51:04,  1.92it/s] 59%|█████▉    | 28330/48008 [4:04:08<3:26:04,  1.59it/s] 59%|█████▉    | 28331/48008 [4:04:08<3:05:14,  1.77it/s] 59%|█████▉    | 28332/48008 [4:04:09<2:59:26,  1.83it/s] 59%|█████▉    | 28333/48008 [4:04:09<2:57:07,  1.85it/s] 59%|█████▉    | 28334/48008 [4:04:10<2:51:05,  1.92it/s] 59%|█████▉    | 28335/48008 [4:04:10<2:40:39,  2.04it/s] 59%|█████▉    | 28336/48008 [4:04:10<2:39:11,  2.06it/s] 59%|█████▉    | 28337/48008 [4:04:11<2:41:21,  2.03it/s] 59%|█████▉    | 28338/48008 [4:04:11<2:44:41,  1.99it/s] 59%|█████▉    | 28339/48008 [4:04:12<3:02:40,  1.79it/s] 59%|█████▉    | 28340/48008 [4:04:13<2:49:20,  1.94it/s] 59%|█████▉    | 28341/48008 [4:04:13<2:40:21,  2.04it/s] 59%|█████▉    | 28342/48008 [4:04:13<2:39:13,  2.06it/s] 59%|█████▉    | 28343/48008 [4:04:14<2:39:22,  2.06it/s] 59%|█████▉    | 28344/48008 [4:04:14<2:33:39,  2.13it/s] 59%|█████▉    | 28345/48008 [4:04:15<2:40:03,  2.05it/s] 59%|█████▉    | 28346/48008 [4:04:15<2:39:39,  2.05it/s] 59%|█████▉    | 28347/48008 [4:04:16<2:42:04,  2.02it/s] 59%|█████▉    | 28348/48008 [4:04:16<2:35:00,  2.11it/s] 59%|█████▉    | 28349/48008 [4:04:17<2:39:03,  2.06it/s] 59%|█████▉    | 28350/48008 [4:04:17<2:38:35,  2.07it/s]                                                         {'loss': 4.2462, 'grad_norm': 0.1004864051938057, 'learning_rate': 8.189885019163474e-05, 'epoch': 0.59}
 59%|█████▉    | 28350/48008 [4:04:17<2:38:35,  2.07it/s] 59%|█████▉    | 28351/48008 [4:04:18<2:39:03,  2.06it/s] 59%|█████▉    | 28352/48008 [4:04:18<2:38:53,  2.06it/s] 59%|█████▉    | 28353/48008 [4:04:19<2:39:16,  2.06it/s] 59%|█████▉    | 28354/48008 [4:04:20<3:55:20,  1.39it/s] 59%|█████▉    | 28355/48008 [4:04:21<3:32:55,  1.54it/s] 59%|█████▉    | 28356/48008 [4:04:21<3:06:58,  1.75it/s] 59%|█████▉    | 28357/48008 [4:04:21<2:57:52,  1.84it/s] 59%|█████▉    | 28358/48008 [4:04:22<2:45:25,  1.98it/s] 59%|█████▉    | 28359/48008 [4:04:22<2:43:33,  2.00it/s] 59%|█████▉    | 28360/48008 [4:04:23<2:42:08,  2.02it/s] 59%|█████▉    | 28361/48008 [4:04:23<2:46:52,  1.96it/s] 59%|█████▉    | 28362/48008 [4:04:24<2:46:17,  1.97it/s] 59%|█████▉    | 28363/48008 [4:04:24<2:37:40,  2.08it/s] 59%|█████▉    | 28364/48008 [4:04:25<2:31:24,  2.16it/s] 59%|█████▉    | 28365/48008 [4:04:25<2:36:07,  2.10it/s] 59%|█████▉    | 28366/48008 [4:04:26<2:38:56,  2.06it/s] 59%|█████▉    | 28367/48008 [4:04:26<2:40:10,  2.04it/s] 59%|█████▉    | 28368/48008 [4:04:27<2:58:58,  1.83it/s] 59%|█████▉    | 28369/48008 [4:04:27<2:52:50,  1.89it/s] 59%|█████▉    | 28370/48008 [4:04:28<2:49:23,  1.93it/s] 59%|█████▉    | 28371/48008 [4:04:28<2:49:58,  1.93it/s] 59%|█████▉    | 28372/48008 [4:04:29<2:48:34,  1.94it/s] 59%|█████▉    | 28373/48008 [4:04:29<2:45:35,  1.98it/s] 59%|█████▉    | 28374/48008 [4:04:30<2:43:52,  2.00it/s] 59%|█████▉    | 28375/48008 [4:04:30<2:41:59,  2.02it/s] 59%|█████▉    | 28376/48008 [4:04:31<2:40:21,  2.04it/s] 59%|█████▉    | 28377/48008 [4:04:31<2:39:40,  2.05it/s] 59%|█████▉    | 28378/48008 [4:04:32<2:39:56,  2.05it/s] 59%|█████▉    | 28379/48008 [4:04:32<2:32:40,  2.14it/s] 59%|█████▉    | 28380/48008 [4:04:33<2:36:39,  2.09it/s] 59%|█████▉    | 28381/48008 [4:04:33<2:41:06,  2.03it/s] 59%|█████▉    | 28382/48008 [4:04:34<2:43:43,  2.00it/s] 59%|█████▉    | 28383/48008 [4:04:34<2:35:27,  2.10it/s] 59%|█████▉    | 28384/48008 [4:04:35<2:38:52,  2.06it/s] 59%|█████▉    | 28385/48008 [4:04:35<2:32:30,  2.14it/s] 59%|█████▉    | 28386/48008 [4:04:36<2:28:39,  2.20it/s] 59%|█████▉    | 28387/48008 [4:04:36<2:34:44,  2.11it/s] 59%|█████▉    | 28388/48008 [4:04:37<2:38:09,  2.07it/s] 59%|█████▉    | 28389/48008 [4:04:37<2:31:57,  2.15it/s] 59%|█████▉    | 28390/48008 [4:04:37<2:34:16,  2.12it/s] 59%|█████▉    | 28391/48008 [4:04:38<2:37:32,  2.08it/s] 59%|█████▉    | 28392/48008 [4:04:38<2:37:53,  2.07it/s] 59%|█████▉    | 28393/48008 [4:04:39<2:41:35,  2.02it/s] 59%|█████▉    | 28394/48008 [4:04:39<2:34:00,  2.12it/s] 59%|█████▉    | 28395/48008 [4:04:40<2:34:40,  2.11it/s] 59%|█████▉    | 28396/48008 [4:04:40<2:38:13,  2.07it/s] 59%|█████▉    | 28397/48008 [4:04:41<2:40:17,  2.04it/s] 59%|█████▉    | 28398/48008 [4:04:41<2:45:29,  1.97it/s] 59%|█████▉    | 28399/48008 [4:04:42<2:43:13,  2.00it/s] 59%|█████▉    | 28400/48008 [4:04:42<2:41:29,  2.02it/s]                                                         {'loss': 4.2259, 'grad_norm': 0.09059841185808182, 'learning_rate': 8.169055157473756e-05, 'epoch': 0.59}
 59%|█████▉    | 28400/48008 [4:04:42<2:41:29,  2.02it/s] 59%|█████▉    | 28401/48008 [4:04:43<2:34:04,  2.12it/s] 59%|█████▉    | 28402/48008 [4:04:43<2:39:21,  2.05it/s] 59%|█████▉    | 28403/48008 [4:04:44<2:38:42,  2.06it/s] 59%|█████▉    | 28404/48008 [4:04:44<2:39:56,  2.04it/s] 59%|█████▉    | 28405/48008 [4:04:45<2:39:14,  2.05it/s] 59%|█████▉    | 28406/48008 [4:04:45<2:44:47,  1.98it/s] 59%|█████▉    | 28407/48008 [4:04:46<2:36:23,  2.09it/s] 59%|█████▉    | 28408/48008 [4:04:46<2:36:50,  2.08it/s] 59%|█████▉    | 28409/48008 [4:04:47<2:37:25,  2.08it/s] 59%|█████▉    | 28410/48008 [4:04:48<3:53:50,  1.40it/s] 59%|█████▉    | 28411/48008 [4:04:49<4:09:45,  1.31it/s] 59%|█████▉    | 28412/48008 [4:04:49<3:44:42,  1.45it/s] 59%|█████▉    | 28413/48008 [4:04:50<3:27:12,  1.58it/s] 59%|█████▉    | 28414/48008 [4:04:50<3:11:52,  1.70it/s] 59%|█████▉    | 28415/48008 [4:04:51<2:55:21,  1.86it/s] 59%|█████▉    | 28416/48008 [4:04:51<2:49:51,  1.92it/s] 59%|█████▉    | 28417/48008 [4:04:52<2:47:46,  1.95it/s] 59%|█████▉    | 28418/48008 [4:04:52<2:44:12,  1.99it/s] 59%|█████▉    | 28419/48008 [4:04:53<2:46:36,  1.96it/s] 59%|█████▉    | 28420/48008 [4:04:54<3:23:10,  1.61it/s] 59%|█████▉    | 28421/48008 [4:04:54<3:09:33,  1.72it/s] 59%|█████▉    | 28422/48008 [4:04:55<3:02:15,  1.79it/s] 59%|█████▉    | 28423/48008 [4:04:55<2:48:42,  1.93it/s] 59%|█████▉    | 28424/48008 [4:04:56<2:48:07,  1.94it/s] 59%|█████▉    | 28425/48008 [4:04:56<2:38:41,  2.06it/s] 59%|█████▉    | 28426/48008 [4:04:57<2:44:16,  1.99it/s] 59%|█████▉    | 28427/48008 [4:04:57<2:41:32,  2.02it/s] 59%|█████▉    | 28428/48008 [4:04:57<2:33:18,  2.13it/s] 59%|█████▉    | 28429/48008 [4:04:58<2:28:30,  2.20it/s] 59%|█████▉    | 28430/48008 [4:04:58<2:25:04,  2.25it/s] 59%|█████▉    | 28431/48008 [4:04:59<2:28:25,  2.20it/s] 59%|█████▉    | 28432/48008 [4:04:59<2:24:45,  2.25it/s] 59%|█████▉    | 28433/48008 [4:05:00<2:34:15,  2.11it/s] 59%|█████▉    | 28434/48008 [4:05:00<2:36:50,  2.08it/s] 59%|█████▉    | 28435/48008 [4:05:01<2:37:01,  2.08it/s] 59%|█████▉    | 28436/48008 [4:05:01<2:39:22,  2.05it/s] 59%|█████▉    | 28437/48008 [4:05:02<2:41:09,  2.02it/s] 59%|█████▉    | 28438/48008 [4:05:02<2:42:25,  2.01it/s] 59%|█████▉    | 28439/48008 [4:05:03<2:42:08,  2.01it/s] 59%|█████▉    | 28440/48008 [4:05:03<2:44:59,  1.98it/s] 59%|█████▉    | 28441/48008 [4:05:04<2:45:43,  1.97it/s] 59%|█████▉    | 28442/48008 [4:05:04<2:43:13,  2.00it/s] 59%|█████▉    | 28443/48008 [4:05:05<2:35:06,  2.10it/s] 59%|█████▉    | 28444/48008 [4:05:05<2:36:00,  2.09it/s] 59%|█████▉    | 28445/48008 [4:05:06<3:51:39,  1.41it/s] 59%|█████▉    | 28446/48008 [4:05:07<3:31:58,  1.54it/s] 59%|█████▉    | 28447/48008 [4:05:07<3:09:54,  1.72it/s] 59%|█████▉    | 28448/48008 [4:05:08<3:00:14,  1.81it/s] 59%|█████▉    | 28449/48008 [4:05:08<2:46:53,  1.95it/s] 59%|█████▉    | 28450/48008 [4:05:09<2:37:33,  2.07it/s]                                                         {'loss': 4.2313, 'grad_norm': 0.10183274000883102, 'learning_rate': 8.148225295784036e-05, 'epoch': 0.59}
 59%|█████▉    | 28450/48008 [4:05:09<2:37:33,  2.07it/s] 59%|█████▉    | 28451/48008 [4:05:09<2:31:36,  2.15it/s] 59%|█████▉    | 28452/48008 [4:05:09<2:27:50,  2.20it/s] 59%|█████▉    | 28453/48008 [4:05:10<2:30:48,  2.16it/s] 59%|█████▉    | 28454/48008 [4:05:11<2:38:43,  2.05it/s] 59%|█████▉    | 28455/48008 [4:05:11<2:38:14,  2.06it/s] 59%|█████▉    | 28456/48008 [4:05:11<2:38:55,  2.05it/s] 59%|█████▉    | 28457/48008 [4:05:12<2:32:04,  2.14it/s] 59%|█████▉    | 28458/48008 [4:05:12<2:27:03,  2.22it/s] 59%|█████▉    | 28459/48008 [4:05:13<2:35:36,  2.09it/s] 59%|█████▉    | 28460/48008 [4:05:13<2:36:49,  2.08it/s] 59%|█████▉    | 28461/48008 [4:05:14<2:37:18,  2.07it/s] 59%|█████▉    | 28462/48008 [4:05:14<2:39:34,  2.04it/s] 59%|█████▉    | 28463/48008 [4:05:15<2:40:45,  2.03it/s] 59%|█████▉    | 28464/48008 [4:05:15<2:39:57,  2.04it/s] 59%|█████▉    | 28465/48008 [4:05:16<2:41:54,  2.01it/s] 59%|█████▉    | 28466/48008 [4:05:16<2:47:38,  1.94it/s] 59%|█████▉    | 28467/48008 [4:05:17<2:46:43,  1.95it/s] 59%|█████▉    | 28468/48008 [4:05:17<2:43:18,  1.99it/s] 59%|█████▉    | 28469/48008 [4:05:18<2:45:08,  1.97it/s] 59%|█████▉    | 28470/48008 [4:05:18<2:35:59,  2.09it/s] 59%|█████▉    | 28471/48008 [4:05:19<2:36:21,  2.08it/s] 59%|█████▉    | 28472/48008 [4:05:19<2:42:50,  2.00it/s] 59%|█████▉    | 28473/48008 [4:05:20<2:41:31,  2.02it/s] 59%|█████▉    | 28474/48008 [4:05:20<2:34:06,  2.11it/s] 59%|█████▉    | 28475/48008 [4:05:21<2:36:28,  2.08it/s] 59%|█████▉    | 28476/48008 [4:05:21<2:54:55,  1.86it/s] 59%|█████▉    | 28477/48008 [4:05:22<2:49:36,  1.92it/s] 59%|█████▉    | 28478/48008 [4:05:22<2:51:50,  1.89it/s] 59%|█████▉    | 28479/48008 [4:05:23<2:47:29,  1.94it/s] 59%|█████▉    | 28480/48008 [4:05:23<2:38:06,  2.06it/s] 59%|█████▉    | 28481/48008 [4:05:24<3:16:30,  1.66it/s] 59%|█████▉    | 28482/48008 [4:05:25<2:58:15,  1.83it/s] 59%|█████▉    | 28483/48008 [4:05:25<2:58:34,  1.82it/s] 59%|█████▉    | 28484/48008 [4:05:26<2:51:45,  1.89it/s] 59%|█████▉    | 28485/48008 [4:05:26<3:06:37,  1.74it/s] 59%|█████▉    | 28486/48008 [4:05:27<2:57:36,  1.83it/s] 59%|█████▉    | 28487/48008 [4:05:27<2:51:47,  1.89it/s] 59%|█████▉    | 28488/48008 [4:05:28<2:47:24,  1.94it/s] 59%|█████▉    | 28489/48008 [4:05:28<2:45:20,  1.97it/s] 59%|█████▉    | 28490/48008 [4:05:29<2:45:34,  1.96it/s] 59%|█████▉    | 28491/48008 [4:05:29<2:37:27,  2.07it/s] 59%|█████▉    | 28492/48008 [4:05:30<2:37:22,  2.07it/s] 59%|█████▉    | 28493/48008 [4:05:31<3:15:59,  1.66it/s] 59%|█████▉    | 28494/48008 [4:05:31<3:09:19,  1.72it/s] 59%|█████▉    | 28495/48008 [4:05:32<2:59:21,  1.81it/s] 59%|█████▉    | 28496/48008 [4:05:32<2:53:26,  1.87it/s] 59%|█████▉    | 28497/48008 [4:05:33<2:54:22,  1.86it/s] 59%|█████▉    | 28498/48008 [4:05:33<2:42:58,  2.00it/s] 59%|█████▉    | 28499/48008 [4:05:34<2:45:33,  1.96it/s] 59%|█████▉    | 28500/48008 [4:05:34<2:36:34,  2.08it/s]                                                         {'loss': 4.3055, 'grad_norm': 0.09581820666790009, 'learning_rate': 8.127395434094318e-05, 'epoch': 0.59}
 59%|█████▉    | 28500/48008 [4:05:34<2:36:34,  2.08it/s] 59%|█████▉    | 28501/48008 [4:05:35<2:39:32,  2.04it/s] 59%|█████▉    | 28502/48008 [4:05:35<2:29:26,  2.18it/s] 59%|█████▉    | 28503/48008 [4:05:35<2:32:24,  2.13it/s] 59%|█████▉    | 28504/48008 [4:05:36<2:34:08,  2.11it/s] 59%|█████▉    | 28505/48008 [4:05:36<2:34:48,  2.10it/s] 59%|█████▉    | 28506/48008 [4:05:37<2:29:02,  2.18it/s] 59%|█████▉    | 28507/48008 [4:05:37<2:35:03,  2.10it/s] 59%|█████▉    | 28508/48008 [4:05:38<2:26:13,  2.22it/s] 59%|█████▉    | 28509/48008 [4:05:38<2:29:24,  2.18it/s] 59%|█████▉    | 28510/48008 [4:05:39<2:30:55,  2.15it/s] 59%|█████▉    | 28511/48008 [4:05:39<2:32:51,  2.13it/s] 59%|█████▉    | 28512/48008 [4:05:40<2:27:00,  2.21it/s] 59%|█████▉    | 28513/48008 [4:05:40<2:23:56,  2.26it/s] 59%|█████▉    | 28514/48008 [4:05:40<2:28:24,  2.19it/s] 59%|█████▉    | 28515/48008 [4:05:41<2:49:56,  1.91it/s] 59%|█████▉    | 28516/48008 [4:05:42<2:39:37,  2.04it/s] 59%|█████▉    | 28517/48008 [4:05:42<2:32:46,  2.13it/s] 59%|█████▉    | 28518/48008 [4:05:42<2:36:58,  2.07it/s] 59%|█████▉    | 28519/48008 [4:05:43<2:36:48,  2.07it/s] 59%|█████▉    | 28520/48008 [4:05:43<2:39:25,  2.04it/s] 59%|█████▉    | 28521/48008 [4:05:44<2:38:21,  2.05it/s] 59%|█████▉    | 28522/48008 [4:05:44<2:41:49,  2.01it/s] 59%|█████▉    | 28523/48008 [4:05:45<2:42:29,  2.00it/s] 59%|█████▉    | 28524/48008 [4:05:45<2:34:10,  2.11it/s] 59%|█████▉    | 28525/48008 [4:05:46<2:34:12,  2.11it/s] 59%|█████▉    | 28526/48008 [4:05:46<2:35:09,  2.09it/s] 59%|█████▉    | 28527/48008 [4:05:47<2:37:30,  2.06it/s] 59%|█████▉    | 28528/48008 [4:05:47<2:39:15,  2.04it/s] 59%|█████▉    | 28529/48008 [4:05:48<2:42:20,  2.00it/s] 59%|█████▉    | 28530/48008 [4:05:48<2:42:58,  1.99it/s] 59%|█████▉    | 28531/48008 [4:05:49<2:46:46,  1.95it/s] 59%|█████▉    | 28532/48008 [4:05:49<2:45:44,  1.96it/s] 59%|█████▉    | 28533/48008 [4:05:50<2:36:31,  2.07it/s] 59%|█████▉    | 28534/48008 [4:05:50<2:39:05,  2.04it/s] 59%|█████▉    | 28535/48008 [4:05:51<2:31:47,  2.14it/s] 59%|█████▉    | 28536/48008 [4:05:51<2:26:48,  2.21it/s] 59%|█████▉    | 28537/48008 [4:05:52<2:31:23,  2.14it/s] 59%|█████▉    | 28538/48008 [4:05:52<2:36:18,  2.08it/s] 59%|█████▉    | 28539/48008 [4:05:53<2:30:39,  2.15it/s] 59%|█████▉    | 28540/48008 [4:05:53<2:34:52,  2.10it/s] 59%|█████▉    | 28541/48008 [4:05:54<2:35:33,  2.09it/s] 59%|█████▉    | 28542/48008 [4:05:54<2:39:41,  2.03it/s] 59%|█████▉    | 28543/48008 [4:05:55<2:38:58,  2.04it/s] 59%|█████▉    | 28544/48008 [4:05:55<2:40:18,  2.02it/s] 59%|█████▉    | 28545/48008 [4:05:56<2:33:18,  2.12it/s] 59%|█████▉    | 28546/48008 [4:05:56<2:34:34,  2.10it/s] 59%|█████▉    | 28547/48008 [4:05:56<2:28:50,  2.18it/s] 59%|█████▉    | 28548/48008 [4:05:57<2:32:02,  2.13it/s] 59%|█████▉    | 28549/48008 [4:05:57<2:27:49,  2.19it/s] 59%|█████▉    | 28550/48008 [4:05:58<2:24:38,  2.24it/s]                                                         {'loss': 4.1879, 'grad_norm': 0.09732897579669952, 'learning_rate': 8.1065655724046e-05, 'epoch': 0.59} 59%|█████▉    | 28550/48008 [4:05:58<2:24:38,  2.24it/s]
 59%|█████▉    | 28551/48008 [4:05:58<2:27:57,  2.19it/s] 59%|█████▉    | 28552/48008 [4:05:59<2:30:19,  2.16it/s] 59%|█████▉    | 28553/48008 [4:05:59<2:36:23,  2.07it/s] 59%|█████▉    | 28554/48008 [4:06:00<2:36:28,  2.07it/s] 59%|█████▉    | 28555/48008 [4:06:01<3:26:25,  1.57it/s] 59%|█████▉    | 28556/48008 [4:06:01<3:05:22,  1.75it/s] 59%|█████▉    | 28557/48008 [4:06:02<3:00:39,  1.79it/s] 59%|█████▉    | 28558/48008 [4:06:02<2:53:24,  1.87it/s] 59%|█████▉    | 28559/48008 [4:06:03<2:54:10,  1.86it/s] 59%|█████▉    | 28560/48008 [4:06:03<2:50:48,  1.90it/s] 59%|█████▉    | 28561/48008 [4:06:04<2:48:33,  1.92it/s] 59%|█████▉    | 28562/48008 [4:06:04<2:48:57,  1.92it/s] 59%|█████▉    | 28563/48008 [4:06:05<2:45:01,  1.96it/s] 59%|█████▉    | 28564/48008 [4:06:05<2:41:42,  2.00it/s] 60%|█████▉    | 28565/48008 [4:06:06<2:42:13,  2.00it/s] 60%|█████▉    | 28566/48008 [4:06:06<2:40:31,  2.02it/s] 60%|█████▉    | 28567/48008 [4:06:07<2:39:11,  2.04it/s] 60%|█████▉    | 28568/48008 [4:06:07<2:38:30,  2.04it/s] 60%|█████▉    | 28569/48008 [4:06:08<2:38:07,  2.05it/s] 60%|█████▉    | 28570/48008 [4:06:09<3:54:17,  1.38it/s] 60%|█████▉    | 28571/48008 [4:06:09<3:31:17,  1.53it/s] 60%|█████▉    | 28572/48008 [4:06:10<3:17:19,  1.64it/s] 60%|█████▉    | 28573/48008 [4:06:10<3:05:10,  1.75it/s] 60%|█████▉    | 28574/48008 [4:06:11<2:58:22,  1.82it/s] 60%|█████▉    | 28575/48008 [4:06:12<3:10:56,  1.70it/s] 60%|█████▉    | 28576/48008 [4:06:12<3:03:29,  1.77it/s] 60%|█████▉    | 28577/48008 [4:06:13<3:00:09,  1.80it/s] 60%|█████▉    | 28578/48008 [4:06:13<3:12:04,  1.69it/s] 60%|█████▉    | 28579/48008 [4:06:14<3:01:24,  1.79it/s] 60%|█████▉    | 28580/48008 [4:06:14<2:56:07,  1.84it/s] 60%|█████▉    | 28581/48008 [4:06:15<2:44:03,  1.97it/s] 60%|█████▉    | 28582/48008 [4:06:15<2:35:32,  2.08it/s] 60%|█████▉    | 28583/48008 [4:06:16<2:36:22,  2.07it/s] 60%|█████▉    | 28584/48008 [4:06:16<2:36:25,  2.07it/s] 60%|█████▉    | 28585/48008 [4:06:17<2:29:27,  2.17it/s] 60%|█████▉    | 28586/48008 [4:06:17<2:37:46,  2.05it/s] 60%|█████▉    | 28587/48008 [4:06:18<2:39:52,  2.02it/s] 60%|█████▉    | 28588/48008 [4:06:18<2:42:13,  2.00it/s] 60%|█████▉    | 28589/48008 [4:06:19<2:33:58,  2.10it/s] 60%|█████▉    | 28590/48008 [4:06:19<2:35:34,  2.08it/s] 60%|█████▉    | 28591/48008 [4:06:19<2:29:01,  2.17it/s] 60%|█████▉    | 28592/48008 [4:06:20<2:33:15,  2.11it/s] 60%|█████▉    | 28593/48008 [4:06:20<2:33:57,  2.10it/s] 60%|█████▉    | 28594/48008 [4:06:21<2:34:09,  2.10it/s] 60%|█████▉    | 28595/48008 [4:06:21<2:39:48,  2.02it/s] 60%|█████▉    | 28596/48008 [4:06:22<2:39:22,  2.03it/s] 60%|█████▉    | 28597/48008 [4:06:22<2:32:10,  2.13it/s] 60%|█████▉    | 28598/48008 [4:06:23<2:52:23,  1.88it/s] 60%|█████▉    | 28599/48008 [4:06:23<2:48:12,  1.92it/s] 60%|█████▉    | 28600/48008 [4:06:24<2:44:53,  1.96it/s]                                                         {'loss': 4.2559, 'grad_norm': 0.23318611085414886, 'learning_rate': 8.085735710714881e-05, 'epoch': 0.6}
 60%|█████▉    | 28600/48008 [4:06:24<2:44:53,  1.96it/s] 60%|█████▉    | 28601/48008 [4:06:24<2:42:20,  1.99it/s] 60%|█████▉    | 28602/48008 [4:06:25<2:43:33,  1.98it/s] 60%|█████▉    | 28603/48008 [4:06:25<2:41:34,  2.00it/s] 60%|█████▉    | 28604/48008 [4:06:26<2:39:40,  2.03it/s] 60%|█████▉    | 28605/48008 [4:06:26<2:44:45,  1.96it/s] 60%|█████▉    | 28606/48008 [4:06:27<2:36:11,  2.07it/s] 60%|█████▉    | 28607/48008 [4:06:27<2:36:17,  2.07it/s] 60%|█████▉    | 28608/48008 [4:06:28<2:29:51,  2.16it/s] 60%|█████▉    | 28609/48008 [4:06:28<2:31:38,  2.13it/s] 60%|█████▉    | 28610/48008 [4:06:29<2:36:06,  2.07it/s] 60%|█████▉    | 28611/48008 [4:06:29<2:38:01,  2.05it/s] 60%|█████▉    | 28612/48008 [4:06:30<2:42:23,  1.99it/s] 60%|█████▉    | 28613/48008 [4:06:30<2:34:16,  2.10it/s] 60%|█████▉    | 28614/48008 [4:06:31<2:28:48,  2.17it/s] 60%|█████▉    | 28615/48008 [4:06:31<2:30:45,  2.14it/s] 60%|█████▉    | 28616/48008 [4:06:32<2:32:21,  2.12it/s] 60%|█████▉    | 28617/48008 [4:06:32<2:35:58,  2.07it/s] 60%|█████▉    | 28618/48008 [4:06:33<2:35:29,  2.08it/s] 60%|█████▉    | 28619/48008 [4:06:33<2:29:55,  2.16it/s] 60%|█████▉    | 28620/48008 [4:06:34<2:34:24,  2.09it/s] 60%|█████▉    | 28621/48008 [4:06:34<2:37:10,  2.06it/s] 60%|█████▉    | 28622/48008 [4:06:34<2:30:37,  2.15it/s] 60%|█████▉    | 28623/48008 [4:06:35<2:32:36,  2.12it/s] 60%|█████▉    | 28624/48008 [4:06:35<2:27:07,  2.20it/s] 60%|█████▉    | 28625/48008 [4:06:36<2:31:45,  2.13it/s] 60%|█████▉    | 28626/48008 [4:06:36<2:26:26,  2.21it/s] 60%|█████▉    | 28627/48008 [4:06:37<2:30:54,  2.14it/s] 60%|█████▉    | 28628/48008 [4:06:37<2:32:35,  2.12it/s] 60%|█████▉    | 28629/48008 [4:06:38<2:33:54,  2.10it/s] 60%|█████▉    | 28630/48008 [4:06:38<2:34:29,  2.09it/s] 60%|█████▉    | 28631/48008 [4:06:39<2:28:36,  2.17it/s] 60%|█████▉    | 28632/48008 [4:06:39<2:31:07,  2.14it/s] 60%|█████▉    | 28633/48008 [4:06:40<2:31:58,  2.12it/s] 60%|█████▉    | 28634/48008 [4:06:40<2:26:37,  2.20it/s] 60%|█████▉    | 28635/48008 [4:06:41<2:30:11,  2.15it/s] 60%|█████▉    | 28636/48008 [4:06:41<2:51:39,  1.88it/s] 60%|█████▉    | 28637/48008 [4:06:42<2:40:34,  2.01it/s] 60%|█████▉    | 28638/48008 [4:06:42<2:39:17,  2.03it/s] 60%|█████▉    | 28639/48008 [4:06:43<2:38:42,  2.03it/s] 60%|█████▉    | 28640/48008 [4:06:43<2:40:05,  2.02it/s] 60%|█████▉    | 28641/48008 [4:06:44<2:38:09,  2.04it/s] 60%|█████▉    | 28642/48008 [4:06:44<2:39:18,  2.03it/s] 60%|█████▉    | 28643/48008 [4:06:45<2:38:47,  2.03it/s] 60%|█████▉    | 28644/48008 [4:06:45<2:43:32,  1.97it/s] 60%|█████▉    | 28645/48008 [4:06:46<2:41:08,  2.00it/s] 60%|█████▉    | 28646/48008 [4:06:46<2:33:44,  2.10it/s] 60%|█████▉    | 28647/48008 [4:06:47<2:34:14,  2.09it/s] 60%|█████▉    | 28648/48008 [4:06:47<2:37:50,  2.04it/s] 60%|█████▉    | 28649/48008 [4:06:48<2:37:39,  2.05it/s] 60%|█████▉    | 28650/48008 [4:06:48<2:36:58,  2.06it/s]                                                         {'loss': 4.2302, 'grad_norm': 0.11137866228818893, 'learning_rate': 8.064905849025163e-05, 'epoch': 0.6}
 60%|█████▉    | 28650/48008 [4:06:48<2:36:58,  2.06it/s] 60%|█████▉    | 28651/48008 [4:06:49<2:39:09,  2.03it/s] 60%|█████▉    | 28652/48008 [4:06:49<2:38:22,  2.04it/s] 60%|█████▉    | 28653/48008 [4:06:50<2:41:32,  2.00it/s] 60%|█████▉    | 28654/48008 [4:06:50<2:40:14,  2.01it/s] 60%|█████▉    | 28655/48008 [4:06:50<2:32:45,  2.11it/s] 60%|█████▉    | 28656/48008 [4:06:51<2:35:43,  2.07it/s] 60%|█████▉    | 28657/48008 [4:06:51<2:35:47,  2.07it/s] 60%|█████▉    | 28658/48008 [4:06:52<2:41:16,  2.00it/s] 60%|█████▉    | 28659/48008 [4:06:52<2:40:00,  2.02it/s] 60%|█████▉    | 28660/48008 [4:06:53<2:40:43,  2.01it/s] 60%|█████▉    | 28661/48008 [4:06:53<2:39:28,  2.02it/s] 60%|█████▉    | 28662/48008 [4:06:54<2:40:30,  2.01it/s] 60%|█████▉    | 28663/48008 [4:06:54<2:39:39,  2.02it/s] 60%|█████▉    | 28664/48008 [4:06:55<2:38:34,  2.03it/s] 60%|█████▉    | 28665/48008 [4:06:55<2:37:44,  2.04it/s] 60%|█████▉    | 28666/48008 [4:06:56<2:30:58,  2.14it/s] 60%|█████▉    | 28667/48008 [4:06:56<2:34:06,  2.09it/s] 60%|█████▉    | 28668/48008 [4:06:57<2:54:17,  1.85it/s] 60%|█████▉    | 28669/48008 [4:06:58<2:50:53,  1.89it/s] 60%|█████▉    | 28670/48008 [4:06:58<2:46:11,  1.94it/s] 60%|█████▉    | 28671/48008 [4:06:59<2:44:27,  1.96it/s] 60%|█████▉    | 28672/48008 [4:06:59<2:41:31,  2.00it/s] 60%|█████▉    | 28673/48008 [4:07:00<2:43:17,  1.97it/s] 60%|█████▉    | 28674/48008 [4:07:00<2:43:12,  1.97it/s] 60%|█████▉    | 28675/48008 [4:07:01<2:43:03,  1.98it/s] 60%|█████▉    | 28676/48008 [4:07:01<2:34:41,  2.08it/s] 60%|█████▉    | 28677/48008 [4:07:02<3:57:51,  1.35it/s] 60%|█████▉    | 28678/48008 [4:07:03<3:33:25,  1.51it/s] 60%|█████▉    | 28679/48008 [4:07:03<3:16:01,  1.64it/s] 60%|█████▉    | 28680/48008 [4:07:04<3:03:28,  1.76it/s] 60%|█████▉    | 28681/48008 [4:07:04<2:48:27,  1.91it/s] 60%|█████▉    | 28682/48008 [4:07:05<2:46:25,  1.94it/s] 60%|█████▉    | 28683/48008 [4:07:06<4:20:52,  1.23it/s] 60%|█████▉    | 28684/48008 [4:07:07<3:49:10,  1.41it/s] 60%|█████▉    | 28685/48008 [4:07:07<4:04:35,  1.32it/s] 60%|█████▉    | 28686/48008 [4:07:08<4:16:22,  1.26it/s] 60%|█████▉    | 28687/48008 [4:07:09<4:23:51,  1.22it/s] 60%|█████▉    | 28688/48008 [4:07:10<3:51:17,  1.39it/s] 60%|█████▉    | 28689/48008 [4:07:11<4:57:11,  1.08it/s] 60%|█████▉    | 28690/48008 [4:07:12<4:16:51,  1.25it/s] 60%|█████▉    | 28691/48008 [4:07:12<3:46:10,  1.42it/s] 60%|█████▉    | 28692/48008 [4:07:13<3:24:31,  1.57it/s] 60%|█████▉    | 28693/48008 [4:07:13<3:09:35,  1.70it/s] 60%|█████▉    | 28694/48008 [4:07:14<3:03:21,  1.76it/s] 60%|█████▉    | 28695/48008 [4:07:15<3:53:53,  1.38it/s] 60%|█████▉    | 28696/48008 [4:07:15<3:30:12,  1.53it/s] 60%|█████▉    | 28697/48008 [4:07:16<3:32:34,  1.51it/s] 60%|█████▉    | 28698/48008 [4:07:16<3:17:59,  1.63it/s] 60%|█████▉    | 28699/48008 [4:07:17<3:05:25,  1.74it/s] 60%|█████▉    | 28700/48008 [4:07:17<3:00:16,  1.79it/s]                                                         {'loss': 4.2864, 'grad_norm': 0.10133570432662964, 'learning_rate': 8.044075987335445e-05, 'epoch': 0.6}
 60%|█████▉    | 28700/48008 [4:07:17<3:00:16,  1.79it/s] 60%|█████▉    | 28701/48008 [4:07:18<2:53:00,  1.86it/s] 60%|█████▉    | 28702/48008 [4:07:19<3:06:18,  1.73it/s] 60%|█████▉    | 28703/48008 [4:07:19<3:00:48,  1.78it/s] 60%|█████▉    | 28704/48008 [4:07:20<2:55:56,  1.83it/s] 60%|█████▉    | 28705/48008 [4:07:20<2:53:33,  1.85it/s] 60%|█████▉    | 28706/48008 [4:07:21<2:48:39,  1.91it/s] 60%|█████▉    | 28707/48008 [4:07:21<2:44:56,  1.95it/s] 60%|█████▉    | 28708/48008 [4:07:22<2:41:20,  1.99it/s] 60%|█████▉    | 28709/48008 [4:07:22<2:39:42,  2.01it/s] 60%|█████▉    | 28710/48008 [4:07:23<2:43:56,  1.96it/s] 60%|█████▉    | 28711/48008 [4:07:23<2:45:09,  1.95it/s] 60%|█████▉    | 28712/48008 [4:07:24<2:42:30,  1.98it/s] 60%|█████▉    | 28713/48008 [4:07:24<2:34:09,  2.09it/s] 60%|█████▉    | 28714/48008 [4:07:24<2:34:36,  2.08it/s] 60%|█████▉    | 28715/48008 [4:07:25<2:36:37,  2.05it/s] 60%|█████▉    | 28716/48008 [4:07:25<2:36:13,  2.06it/s] 60%|█████▉    | 28717/48008 [4:07:26<2:35:17,  2.07it/s] 60%|█████▉    | 28718/48008 [4:07:26<2:29:00,  2.16it/s] 60%|█████▉    | 28719/48008 [4:07:27<2:31:10,  2.13it/s] 60%|█████▉    | 28720/48008 [4:07:27<2:32:14,  2.11it/s] 60%|█████▉    | 28721/48008 [4:07:28<2:33:33,  2.09it/s] 60%|█████▉    | 28722/48008 [4:07:28<2:36:13,  2.06it/s] 60%|█████▉    | 28723/48008 [4:07:29<2:37:20,  2.04it/s] 60%|█████▉    | 28724/48008 [4:07:29<2:40:55,  2.00it/s] 60%|█████▉    | 28725/48008 [4:07:30<2:38:50,  2.02it/s] 60%|█████▉    | 28726/48008 [4:07:31<3:51:44,  1.39it/s] 60%|█████▉    | 28727/48008 [4:07:32<3:30:27,  1.53it/s] 60%|█████▉    | 28728/48008 [4:07:32<3:16:16,  1.64it/s] 60%|█████▉    | 28729/48008 [4:07:33<3:07:51,  1.71it/s] 60%|█████▉    | 28730/48008 [4:07:33<3:00:20,  1.78it/s] 60%|█████▉    | 28731/48008 [4:07:34<2:46:39,  1.93it/s] 60%|█████▉    | 28732/48008 [4:07:34<2:43:52,  1.96it/s] 60%|█████▉    | 28733/48008 [4:07:34<2:41:13,  1.99it/s] 60%|█████▉    | 28734/48008 [4:07:35<2:38:36,  2.03it/s] 60%|█████▉    | 28735/48008 [4:07:36<2:56:00,  1.82it/s] 60%|█████▉    | 28736/48008 [4:07:36<3:08:39,  1.70it/s] 60%|█████▉    | 28737/48008 [4:07:37<2:58:49,  1.80it/s] 60%|█████▉    | 28738/48008 [4:07:37<2:54:01,  1.85it/s] 60%|█████▉    | 28739/48008 [4:07:38<2:48:23,  1.91it/s] 60%|█████▉    | 28740/48008 [4:07:38<2:38:20,  2.03it/s] 60%|█████▉    | 28741/48008 [4:07:39<2:39:57,  2.01it/s] 60%|█████▉    | 28742/48008 [4:07:39<2:56:55,  1.81it/s] 60%|█████▉    | 28743/48008 [4:07:40<2:51:44,  1.87it/s] 60%|█████▉    | 28744/48008 [4:07:40<2:40:48,  2.00it/s] 60%|█████▉    | 28745/48008 [4:07:41<2:41:58,  1.98it/s] 60%|█████▉    | 28746/48008 [4:07:41<2:40:05,  2.01it/s] 60%|█████▉    | 28747/48008 [4:07:42<2:42:29,  1.98it/s] 60%|█████▉    | 28748/48008 [4:07:42<2:43:49,  1.96it/s] 60%|█████▉    | 28749/48008 [4:07:43<2:41:11,  1.99it/s] 60%|█████▉    | 28750/48008 [4:07:43<2:41:38,  1.99it/s]                                                         {'loss': 4.2368, 'grad_norm': 0.09129637479782104, 'learning_rate': 8.023246125645726e-05, 'epoch': 0.6}
 60%|█████▉    | 28750/48008 [4:07:43<2:41:38,  1.99it/s] 60%|█████▉    | 28751/48008 [4:07:44<2:39:45,  2.01it/s] 60%|█████▉    | 28752/48008 [4:07:44<2:38:08,  2.03it/s] 60%|█████▉    | 28753/48008 [4:07:45<2:36:36,  2.05it/s] 60%|█████▉    | 28754/48008 [4:07:45<2:38:44,  2.02it/s] 60%|█████▉    | 28755/48008 [4:07:46<2:42:37,  1.97it/s] 60%|█████▉    | 28756/48008 [4:07:46<2:40:44,  2.00it/s] 60%|█████▉    | 28757/48008 [4:07:47<2:41:24,  1.99it/s] 60%|█████▉    | 28758/48008 [4:07:47<2:39:30,  2.01it/s] 60%|█████▉    | 28759/48008 [4:07:48<2:31:53,  2.11it/s] 60%|█████▉    | 28760/48008 [4:07:48<2:32:28,  2.10it/s] 60%|█████▉    | 28761/48008 [4:07:49<2:33:21,  2.09it/s] 60%|█████▉    | 28762/48008 [4:07:49<2:24:00,  2.23it/s] 60%|█████▉    | 28763/48008 [4:07:50<3:40:40,  1.45it/s] 60%|█████▉    | 28764/48008 [4:07:51<3:21:20,  1.59it/s] 60%|█████▉    | 28765/48008 [4:07:51<3:09:45,  1.69it/s] 60%|█████▉    | 28766/48008 [4:07:52<3:01:54,  1.76it/s] 60%|█████▉    | 28767/48008 [4:07:52<2:44:19,  1.95it/s] 60%|█████▉    | 28768/48008 [4:07:53<2:41:45,  1.98it/s] 60%|█████▉    | 28769/48008 [4:07:53<2:41:40,  1.98it/s] 60%|█████▉    | 28770/48008 [4:07:54<2:39:25,  2.01it/s] 60%|█████▉    | 28771/48008 [4:07:54<2:41:38,  1.98it/s] 60%|█████▉    | 28772/48008 [4:07:55<2:41:34,  1.98it/s] 60%|█████▉    | 28773/48008 [4:07:55<2:43:53,  1.96it/s] 60%|█████▉    | 28774/48008 [4:07:56<2:41:16,  1.99it/s] 60%|█████▉    | 28775/48008 [4:07:56<2:41:23,  1.99it/s] 60%|█████▉    | 28776/48008 [4:07:57<2:44:03,  1.95it/s] 60%|█████▉    | 28777/48008 [4:07:57<2:59:58,  1.78it/s] 60%|█████▉    | 28778/48008 [4:07:58<2:55:57,  1.82it/s] 60%|█████▉    | 28779/48008 [4:07:59<4:02:55,  1.32it/s] 60%|█████▉    | 28780/48008 [4:08:00<3:37:09,  1.48it/s] 60%|█████▉    | 28781/48008 [4:08:00<3:22:22,  1.58it/s] 60%|█████▉    | 28782/48008 [4:08:01<3:09:32,  1.69it/s] 60%|█████▉    | 28783/48008 [4:08:01<3:01:54,  1.76it/s] 60%|█████▉    | 28784/48008 [4:08:02<2:54:06,  1.84it/s] 60%|█████▉    | 28785/48008 [4:08:02<2:52:02,  1.86it/s] 60%|█████▉    | 28786/48008 [4:08:03<2:46:48,  1.92it/s] 60%|█████▉    | 28787/48008 [4:08:04<3:21:13,  1.59it/s] 60%|█████▉    | 28788/48008 [4:08:04<3:07:00,  1.71it/s] 60%|█████▉    | 28789/48008 [4:08:04<2:51:11,  1.87it/s] 60%|█████▉    | 28790/48008 [4:08:05<2:48:53,  1.90it/s] 60%|█████▉    | 28791/48008 [4:08:06<2:48:47,  1.90it/s] 60%|█████▉    | 28792/48008 [4:08:06<2:44:08,  1.95it/s] 60%|█████▉    | 28793/48008 [4:08:06<2:41:33,  1.98it/s] 60%|█████▉    | 28794/48008 [4:08:07<2:43:48,  1.95it/s] 60%|█████▉    | 28795/48008 [4:08:08<2:40:58,  1.99it/s] 60%|█████▉    | 28796/48008 [4:08:08<2:39:17,  2.01it/s] 60%|█████▉    | 28797/48008 [4:08:08<2:31:45,  2.11it/s] 60%|█████▉    | 28798/48008 [4:08:09<2:32:41,  2.10it/s] 60%|█████▉    | 28799/48008 [4:08:09<2:35:28,  2.06it/s] 60%|█████▉    | 28800/48008 [4:08:10<2:35:19,  2.06it/s]                                                         {'loss': 4.2809, 'grad_norm': 0.09491614252328873, 'learning_rate': 8.002416263956007e-05, 'epoch': 0.6}
 60%|█████▉    | 28800/48008 [4:08:10<2:35:19,  2.06it/s] 60%|█████▉    | 28801/48008 [4:08:10<2:35:30,  2.06it/s] 60%|█████▉    | 28802/48008 [4:08:11<2:54:36,  1.83it/s] 60%|█████▉    | 28803/48008 [4:08:11<2:42:26,  1.97it/s] 60%|█████▉    | 28804/48008 [4:08:12<2:34:01,  2.08it/s] 60%|██████    | 28805/48008 [4:08:12<2:34:19,  2.07it/s] 60%|██████    | 28806/48008 [4:08:13<2:38:16,  2.02it/s] 60%|██████    | 28807/48008 [4:08:13<2:36:40,  2.04it/s] 60%|██████    | 28808/48008 [4:08:14<2:30:03,  2.13it/s] 60%|██████    | 28809/48008 [4:08:14<2:50:08,  1.88it/s] 60%|██████    | 28810/48008 [4:08:15<2:45:19,  1.94it/s] 60%|██████    | 28811/48008 [4:08:15<2:42:46,  1.97it/s] 60%|██████    | 28812/48008 [4:08:16<2:40:18,  2.00it/s] 60%|██████    | 28813/48008 [4:08:16<2:41:35,  1.98it/s] 60%|██████    | 28814/48008 [4:08:17<2:33:40,  2.08it/s] 60%|██████    | 28815/48008 [4:08:17<2:39:07,  2.01it/s] 60%|██████    | 28816/48008 [4:08:18<3:16:40,  1.63it/s] 60%|██████    | 28817/48008 [4:08:19<2:57:49,  1.80it/s] 60%|██████    | 28818/48008 [4:08:19<2:51:11,  1.87it/s] 60%|██████    | 28819/48008 [4:08:20<2:46:10,  1.92it/s] 60%|██████    | 28820/48008 [4:08:20<2:46:29,  1.92it/s] 60%|██████    | 28821/48008 [4:08:21<2:45:08,  1.94it/s] 60%|██████    | 28822/48008 [4:08:21<2:41:35,  1.98it/s] 60%|██████    | 28823/48008 [4:08:22<3:53:55,  1.37it/s] 60%|██████    | 28824/48008 [4:08:23<3:24:16,  1.57it/s] 60%|██████    | 28825/48008 [4:08:23<3:09:34,  1.69it/s] 60%|██████    | 28826/48008 [4:08:24<2:59:31,  1.78it/s] 60%|██████    | 28827/48008 [4:08:24<2:46:13,  1.92it/s] 60%|██████    | 28828/48008 [4:08:25<2:47:53,  1.90it/s] 60%|██████    | 28829/48008 [4:08:25<2:47:54,  1.90it/s] 60%|██████    | 28830/48008 [4:08:26<2:38:06,  2.02it/s] 60%|██████    | 28831/48008 [4:08:26<2:37:29,  2.03it/s] 60%|██████    | 28832/48008 [4:08:27<2:30:37,  2.12it/s] 60%|██████    | 28833/48008 [4:08:27<2:31:50,  2.10it/s] 60%|██████    | 28834/48008 [4:08:28<2:33:01,  2.09it/s] 60%|██████    | 28835/48008 [4:08:28<2:27:48,  2.16it/s] 60%|██████    | 28836/48008 [4:08:29<2:35:29,  2.05it/s] 60%|██████    | 28837/48008 [4:08:29<2:28:35,  2.15it/s] 60%|██████    | 28838/48008 [4:08:30<2:30:27,  2.12it/s] 60%|██████    | 28839/48008 [4:08:30<2:32:16,  2.10it/s] 60%|██████    | 28840/48008 [4:08:30<2:32:16,  2.10it/s] 60%|██████    | 28841/48008 [4:08:31<2:26:42,  2.18it/s] 60%|██████    | 28842/48008 [4:08:32<2:47:25,  1.91it/s] 60%|██████    | 28843/48008 [4:08:32<2:43:46,  1.95it/s] 60%|██████    | 28844/48008 [4:08:32<2:34:21,  2.07it/s] 60%|██████    | 28845/48008 [4:08:33<2:27:58,  2.16it/s] 60%|██████    | 28846/48008 [4:08:33<2:23:42,  2.22it/s] 60%|██████    | 28847/48008 [4:08:34<2:26:54,  2.17it/s] 60%|██████    | 28848/48008 [4:08:34<2:29:15,  2.14it/s] 60%|██████    | 28849/48008 [4:08:35<2:30:52,  2.12it/s] 60%|██████    | 28850/48008 [4:08:35<2:36:29,  2.04it/s]                                                         {'loss': 4.2302, 'grad_norm': 0.11616389453411102, 'learning_rate': 7.981586402266289e-05, 'epoch': 0.6}
 60%|██████    | 28850/48008 [4:08:35<2:36:29,  2.04it/s] 60%|██████    | 28851/48008 [4:08:36<3:14:25,  1.64it/s] 60%|██████    | 28852/48008 [4:08:37<3:07:46,  1.70it/s] 60%|██████    | 28853/48008 [4:08:37<2:57:35,  1.80it/s] 60%|██████    | 28854/48008 [4:08:38<2:50:48,  1.87it/s] 60%|██████    | 28855/48008 [4:08:38<2:46:05,  1.92it/s] 60%|██████    | 28856/48008 [4:08:39<2:43:20,  1.95it/s] 60%|██████    | 28857/48008 [4:08:39<2:45:29,  1.93it/s] 60%|██████    | 28858/48008 [4:08:40<2:46:01,  1.92it/s] 60%|██████    | 28859/48008 [4:08:40<2:42:38,  1.96it/s] 60%|██████    | 28860/48008 [4:08:41<2:34:00,  2.07it/s] 60%|██████    | 28861/48008 [4:08:41<2:27:32,  2.16it/s] 60%|██████    | 28862/48008 [4:08:42<2:29:33,  2.13it/s] 60%|██████    | 28863/48008 [4:08:42<2:31:26,  2.11it/s] 60%|██████    | 28864/48008 [4:08:42<2:32:29,  2.09it/s] 60%|██████    | 28865/48008 [4:08:43<2:34:43,  2.06it/s] 60%|██████    | 28866/48008 [4:08:43<2:24:57,  2.20it/s] 60%|██████    | 28867/48008 [4:08:44<2:27:35,  2.16it/s] 60%|██████    | 28868/48008 [4:08:44<2:23:01,  2.23it/s] 60%|██████    | 28869/48008 [4:08:45<2:20:20,  2.27it/s] 60%|██████    | 28870/48008 [4:08:45<2:26:47,  2.17it/s] 60%|██████    | 28871/48008 [4:08:46<2:47:50,  1.90it/s] 60%|██████    | 28872/48008 [4:08:46<2:46:09,  1.92it/s] 60%|██████    | 28873/48008 [4:08:47<2:42:56,  1.96it/s] 60%|██████    | 28874/48008 [4:08:47<2:42:06,  1.97it/s] 60%|██████    | 28875/48008 [4:08:48<2:39:40,  2.00it/s] 60%|██████    | 28876/48008 [4:08:48<2:31:42,  2.10it/s] 60%|██████    | 28877/48008 [4:08:49<2:31:55,  2.10it/s] 60%|██████    | 28878/48008 [4:08:49<2:34:02,  2.07it/s] 60%|██████    | 28879/48008 [4:08:50<2:36:26,  2.04it/s] 60%|██████    | 28880/48008 [4:08:50<2:39:47,  2.00it/s] 60%|██████    | 28881/48008 [4:08:51<2:37:57,  2.02it/s] 60%|██████    | 28882/48008 [4:08:51<2:40:35,  1.98it/s] 60%|██████    | 28883/48008 [4:08:52<2:38:58,  2.01it/s] 60%|██████    | 28884/48008 [4:08:52<2:43:29,  1.95it/s] 60%|██████    | 28885/48008 [4:08:53<2:34:39,  2.06it/s] 60%|██████    | 28886/48008 [4:08:53<2:36:22,  2.04it/s] 60%|██████    | 28887/48008 [4:08:54<2:37:21,  2.03it/s] 60%|██████    | 28888/48008 [4:08:54<2:36:18,  2.04it/s] 60%|██████    | 28889/48008 [4:08:55<2:39:08,  2.00it/s] 60%|██████    | 28890/48008 [4:08:55<2:39:51,  1.99it/s] 60%|██████    | 28891/48008 [4:08:57<3:50:54,  1.38it/s] 60%|██████    | 28892/48008 [4:08:57<3:31:50,  1.50it/s] 60%|██████    | 28893/48008 [4:08:58<3:14:28,  1.64it/s] 60%|██████    | 28894/48008 [4:08:58<3:05:05,  1.72it/s] 60%|██████    | 28895/48008 [4:08:59<2:55:08,  1.82it/s] 60%|██████    | 28896/48008 [4:08:59<2:50:36,  1.87it/s] 60%|██████    | 28897/48008 [4:09:00<2:48:06,  1.89it/s] 60%|██████    | 28898/48008 [4:09:00<2:44:26,  1.94it/s] 60%|██████    | 28899/48008 [4:09:00<2:34:38,  2.06it/s] 60%|██████    | 28900/48008 [4:09:01<2:27:55,  2.15it/s]                                                         {'loss': 4.2261, 'grad_norm': 0.21193665266036987, 'learning_rate': 7.96075654057657e-05, 'epoch': 0.6}
 60%|██████    | 28900/48008 [4:09:01<2:27:55,  2.15it/s] 60%|██████    | 28901/48008 [4:09:01<2:23:46,  2.22it/s] 60%|██████    | 28902/48008 [4:09:02<2:29:25,  2.13it/s] 60%|██████    | 28903/48008 [4:09:02<2:31:23,  2.10it/s] 60%|██████    | 28904/48008 [4:09:03<2:32:39,  2.09it/s] 60%|██████    | 28905/48008 [4:09:03<2:27:12,  2.16it/s] 60%|██████    | 28906/48008 [4:09:04<2:34:55,  2.06it/s] 60%|██████    | 28907/48008 [4:09:04<2:38:45,  2.01it/s] 60%|██████    | 28908/48008 [4:09:05<2:39:11,  2.00it/s] 60%|██████    | 28909/48008 [4:09:05<2:37:25,  2.02it/s] 60%|██████    | 28910/48008 [4:09:06<2:36:31,  2.03it/s] 60%|██████    | 28911/48008 [4:09:06<2:54:02,  1.83it/s] 60%|██████    | 28912/48008 [4:09:07<2:48:06,  1.89it/s] 60%|██████    | 28913/48008 [4:09:07<2:47:38,  1.90it/s] 60%|██████    | 28914/48008 [4:09:08<2:45:46,  1.92it/s] 60%|██████    | 28915/48008 [4:09:08<2:46:14,  1.91it/s] 60%|██████    | 28916/48008 [4:09:09<2:42:23,  1.96it/s] 60%|██████    | 28917/48008 [4:09:09<2:43:39,  1.94it/s] 60%|██████    | 28918/48008 [4:09:10<2:45:14,  1.93it/s] 60%|██████    | 28919/48008 [4:09:10<2:44:11,  1.94it/s] 60%|██████    | 28920/48008 [4:09:11<2:43:40,  1.94it/s] 60%|██████    | 28921/48008 [4:09:11<2:40:40,  1.98it/s] 60%|██████    | 28922/48008 [4:09:12<2:39:00,  2.00it/s] 60%|██████    | 28923/48008 [4:09:12<2:37:27,  2.02it/s] 60%|██████    | 28924/48008 [4:09:13<2:36:09,  2.04it/s] 60%|██████    | 28925/48008 [4:09:13<2:38:02,  2.01it/s] 60%|██████    | 28926/48008 [4:09:14<2:39:46,  1.99it/s] 60%|██████    | 28927/48008 [4:09:14<2:38:08,  2.01it/s] 60%|██████    | 28928/48008 [4:09:15<2:36:48,  2.03it/s] 60%|██████    | 28929/48008 [4:09:15<2:36:35,  2.03it/s] 60%|██████    | 28930/48008 [4:09:16<2:38:42,  2.00it/s] 60%|██████    | 28931/48008 [4:09:16<2:39:13,  2.00it/s] 60%|██████    | 28932/48008 [4:09:17<2:37:56,  2.01it/s] 60%|██████    | 28933/48008 [4:09:17<2:38:54,  2.00it/s] 60%|██████    | 28934/48008 [4:09:18<3:15:24,  1.63it/s] 60%|██████    | 28935/48008 [4:09:19<3:03:10,  1.74it/s] 60%|██████    | 28936/48008 [4:09:19<2:58:25,  1.78it/s] 60%|██████    | 28937/48008 [4:09:20<2:44:44,  1.93it/s] 60%|██████    | 28938/48008 [4:09:20<2:43:36,  1.94it/s] 60%|██████    | 28939/48008 [4:09:21<2:40:44,  1.98it/s] 60%|██████    | 28940/48008 [4:09:21<2:38:35,  2.00it/s] 60%|██████    | 28941/48008 [4:09:22<2:31:00,  2.10it/s] 60%|██████    | 28942/48008 [4:09:22<2:31:37,  2.10it/s] 60%|██████    | 28943/48008 [4:09:23<2:31:37,  2.10it/s] 60%|██████    | 28944/48008 [4:09:23<2:34:07,  2.06it/s] 60%|██████    | 28945/48008 [4:09:24<2:36:00,  2.04it/s] 60%|██████    | 28946/48008 [4:09:24<2:35:14,  2.05it/s] 60%|██████    | 28947/48008 [4:09:25<2:34:33,  2.06it/s] 60%|██████    | 28948/48008 [4:09:25<2:34:06,  2.06it/s] 60%|██████    | 28949/48008 [4:09:26<2:33:40,  2.07it/s] 60%|██████    | 28950/48008 [4:09:26<2:33:23,  2.07it/s]                                                         {'loss': 4.2335, 'grad_norm': 0.1630907505750656, 'learning_rate': 7.939926678886852e-05, 'epoch': 0.6} 60%|██████    | 28950/48008 [4:09:26<2:33:23,  2.07it/s]
 60%|██████    | 28951/48008 [4:09:26<2:26:55,  2.16it/s] 60%|██████    | 28952/48008 [4:09:27<2:30:34,  2.11it/s] 60%|██████    | 28953/48008 [4:09:27<2:31:30,  2.10it/s] 60%|██████    | 28954/48008 [4:09:28<2:32:13,  2.09it/s] 60%|██████    | 28955/48008 [4:09:28<2:32:30,  2.08it/s] 60%|██████    | 28956/48008 [4:09:29<2:26:20,  2.17it/s] 60%|██████    | 28957/48008 [4:09:29<2:30:56,  2.10it/s] 60%|██████    | 28958/48008 [4:09:30<2:35:02,  2.05it/s] 60%|██████    | 28959/48008 [4:09:30<2:28:20,  2.14it/s] 60%|██████    | 28960/48008 [4:09:31<2:29:38,  2.12it/s] 60%|██████    | 28961/48008 [4:09:32<3:08:47,  1.68it/s] 60%|██████    | 28962/48008 [4:09:32<2:57:31,  1.79it/s] 60%|██████    | 28963/48008 [4:09:33<3:08:18,  1.69it/s] 60%|██████    | 28964/48008 [4:09:33<2:57:50,  1.78it/s] 60%|██████    | 28965/48008 [4:09:34<2:44:07,  1.93it/s] 60%|██████    | 28966/48008 [4:09:34<2:40:59,  1.97it/s] 60%|██████    | 28967/48008 [4:09:35<2:41:08,  1.97it/s] 60%|██████    | 28968/48008 [4:09:35<2:39:12,  1.99it/s] 60%|██████    | 28969/48008 [4:09:36<2:37:26,  2.02it/s] 60%|██████    | 28970/48008 [4:09:36<2:38:27,  2.00it/s] 60%|██████    | 28971/48008 [4:09:37<3:14:48,  1.63it/s] 60%|██████    | 28972/48008 [4:09:37<3:02:14,  1.74it/s] 60%|██████    | 28973/48008 [4:09:38<2:55:44,  1.81it/s] 60%|██████    | 28974/48008 [4:09:38<2:49:06,  1.88it/s] 60%|██████    | 28975/48008 [4:09:39<2:44:07,  1.93it/s] 60%|██████    | 28976/48008 [4:09:39<2:45:59,  1.91it/s] 60%|██████    | 28977/48008 [4:09:40<2:35:56,  2.03it/s] 60%|██████    | 28978/48008 [4:09:41<2:53:19,  1.83it/s] 60%|██████    | 28979/48008 [4:09:41<2:51:04,  1.85it/s] 60%|██████    | 28980/48008 [4:09:42<2:45:52,  1.91it/s] 60%|██████    | 28981/48008 [4:09:42<2:41:45,  1.96it/s] 60%|██████    | 28982/48008 [4:09:43<2:42:42,  1.95it/s] 60%|██████    | 28983/48008 [4:09:43<2:39:52,  1.98it/s] 60%|██████    | 28984/48008 [4:09:44<2:39:25,  1.99it/s] 60%|██████    | 28985/48008 [4:09:44<2:37:22,  2.01it/s] 60%|██████    | 28986/48008 [4:09:44<2:29:19,  2.12it/s] 60%|██████    | 28987/48008 [4:09:45<3:08:12,  1.68it/s] 60%|██████    | 28988/48008 [4:09:46<3:15:25,  1.62it/s] 60%|██████    | 28989/48008 [4:09:47<4:15:46,  1.24it/s] 60%|██████    | 28990/48008 [4:09:48<3:44:32,  1.41it/s] 60%|██████    | 28991/48008 [4:09:48<3:16:50,  1.61it/s] 60%|██████    | 28992/48008 [4:09:49<3:05:11,  1.71it/s] 60%|██████    | 28993/48008 [4:09:50<3:33:37,  1.48it/s] 60%|██████    | 28994/48008 [4:09:50<3:15:23,  1.62it/s] 60%|██████    | 28995/48008 [4:09:51<3:02:08,  1.74it/s] 60%|██████    | 28996/48008 [4:09:51<3:11:07,  1.66it/s] 60%|██████    | 28997/48008 [4:09:52<2:59:19,  1.77it/s] 60%|██████    | 28998/48008 [4:09:52<2:53:20,  1.83it/s] 60%|██████    | 28999/48008 [4:09:53<2:47:00,  1.90it/s] 60%|██████    | 29000/48008 [4:09:53<2:42:43,  1.95it/s]                                                         {'loss': 4.257, 'grad_norm': 0.25477269291877747, 'learning_rate': 7.919096817197135e-05, 'epoch': 0.6} 60%|██████    | 29000/48008 [4:09:53<2:42:43,  1.95it/s]
 60%|██████    | 29001/48008 [4:09:54<2:39:46,  1.98it/s] 60%|██████    | 29002/48008 [4:09:54<2:39:55,  1.98it/s] 60%|██████    | 29003/48008 [4:09:55<2:39:50,  1.98it/s] 60%|██████    | 29004/48008 [4:09:55<2:31:32,  2.09it/s] 60%|██████    | 29005/48008 [4:09:56<2:35:31,  2.04it/s] 60%|██████    | 29006/48008 [4:09:56<3:12:14,  1.65it/s] 60%|██████    | 29007/48008 [4:09:57<3:03:54,  1.72it/s] 60%|██████    | 29008/48008 [4:09:57<2:59:53,  1.76it/s] 60%|██████    | 29009/48008 [4:09:58<3:10:23,  1.66it/s] 60%|██████    | 29010/48008 [4:09:59<2:53:02,  1.83it/s] 60%|██████    | 29011/48008 [4:09:59<2:49:17,  1.87it/s] 60%|██████    | 29012/48008 [4:10:00<2:46:08,  1.91it/s] 60%|██████    | 29013/48008 [4:10:00<2:42:04,  1.95it/s] 60%|██████    | 29014/48008 [4:10:01<2:57:46,  1.78it/s] 60%|██████    | 29015/48008 [4:10:01<2:50:24,  1.86it/s] 60%|██████    | 29016/48008 [4:10:02<2:45:15,  1.92it/s] 60%|██████    | 29017/48008 [4:10:02<2:43:46,  1.93it/s] 60%|██████    | 29018/48008 [4:10:03<2:42:29,  1.95it/s] 60%|██████    | 29019/48008 [4:10:03<2:39:26,  1.98it/s] 60%|██████    | 29020/48008 [4:10:04<2:31:14,  2.09it/s] 60%|██████    | 29021/48008 [4:10:04<2:30:56,  2.10it/s] 60%|██████    | 29022/48008 [4:10:05<2:31:16,  2.09it/s] 60%|██████    | 29023/48008 [4:10:05<2:31:54,  2.08it/s] 60%|██████    | 29024/48008 [4:10:06<2:34:43,  2.04it/s] 60%|██████    | 29025/48008 [4:10:06<2:37:28,  2.01it/s] 60%|██████    | 29026/48008 [4:10:07<2:53:48,  1.82it/s] 60%|██████    | 29027/48008 [4:10:07<2:51:02,  1.85it/s] 60%|██████    | 29028/48008 [4:10:08<2:47:16,  1.89it/s] 60%|██████    | 29029/48008 [4:10:08<2:42:44,  1.94it/s] 60%|██████    | 29030/48008 [4:10:09<2:39:38,  1.98it/s] 60%|██████    | 29031/48008 [4:10:09<2:31:18,  2.09it/s] 60%|██████    | 29032/48008 [4:10:10<2:31:30,  2.09it/s] 60%|██████    | 29033/48008 [4:10:10<2:31:16,  2.09it/s] 60%|██████    | 29034/48008 [4:10:11<2:31:29,  2.09it/s] 60%|██████    | 29035/48008 [4:10:11<2:50:01,  1.86it/s] 60%|██████    | 29036/48008 [4:10:12<2:44:47,  1.92it/s] 60%|██████    | 29037/48008 [4:10:12<2:40:46,  1.97it/s] 60%|██████    | 29038/48008 [4:10:13<2:28:48,  2.12it/s] 60%|██████    | 29039/48008 [4:10:13<2:32:15,  2.08it/s] 60%|██████    | 29040/48008 [4:10:14<2:37:39,  2.01it/s] 60%|██████    | 29041/48008 [4:10:14<2:55:15,  1.80it/s] 60%|██████    | 29042/48008 [4:10:15<2:47:57,  1.88it/s] 60%|██████    | 29043/48008 [4:10:15<2:43:07,  1.94it/s] 60%|██████    | 29044/48008 [4:10:16<2:39:48,  1.98it/s] 61%|██████    | 29045/48008 [4:10:16<2:42:49,  1.94it/s] 61%|██████    | 29046/48008 [4:10:17<2:39:45,  1.98it/s] 61%|██████    | 29047/48008 [4:10:17<2:31:11,  2.09it/s] 61%|██████    | 29048/48008 [4:10:18<2:25:22,  2.17it/s] 61%|██████    | 29049/48008 [4:10:18<2:21:14,  2.24it/s] 61%|██████    | 29050/48008 [4:10:18<2:18:00,  2.29it/s]                                                         {'loss': 4.2267, 'grad_norm': 0.5019190311431885, 'learning_rate': 7.898266955507417e-05, 'epoch': 0.61} 61%|██████    | 29050/48008 [4:10:18<2:18:00,  2.29it/s]
 61%|██████    | 29051/48008 [4:10:19<2:22:06,  2.22it/s] 61%|██████    | 29052/48008 [4:10:19<2:27:22,  2.14it/s] 61%|██████    | 29053/48008 [4:10:20<2:30:23,  2.10it/s] 61%|██████    | 29054/48008 [4:10:20<2:32:51,  2.07it/s] 61%|██████    | 29055/48008 [4:10:21<2:26:38,  2.15it/s] 61%|██████    | 29056/48008 [4:10:21<2:32:30,  2.07it/s] 61%|██████    | 29057/48008 [4:10:22<2:32:41,  2.07it/s] 61%|██████    | 29058/48008 [4:10:23<2:50:50,  1.85it/s] 61%|██████    | 29059/48008 [4:10:23<2:39:06,  1.98it/s] 61%|██████    | 29060/48008 [4:10:23<2:30:44,  2.10it/s] 61%|██████    | 29061/48008 [4:10:24<2:25:10,  2.18it/s] 61%|██████    | 29062/48008 [4:10:24<2:27:27,  2.14it/s] 61%|██████    | 29063/48008 [4:10:25<2:28:57,  2.12it/s] 61%|██████    | 29064/48008 [4:10:25<2:32:10,  2.07it/s] 61%|██████    | 29065/48008 [4:10:26<2:25:47,  2.17it/s] 61%|██████    | 29066/48008 [4:10:26<2:27:38,  2.14it/s] 61%|██████    | 29067/48008 [4:10:27<2:23:04,  2.21it/s] 61%|██████    | 29068/48008 [4:10:27<2:25:25,  2.17it/s] 61%|██████    | 29069/48008 [4:10:28<2:29:32,  2.11it/s] 61%|██████    | 29070/48008 [4:10:28<2:21:04,  2.24it/s] 61%|██████    | 29071/48008 [4:10:28<2:24:01,  2.19it/s] 61%|██████    | 29072/48008 [4:10:29<2:19:55,  2.26it/s] 61%|██████    | 29073/48008 [4:10:29<2:22:59,  2.21it/s] 61%|██████    | 29074/48008 [4:10:30<2:27:54,  2.13it/s] 61%|██████    | 29075/48008 [4:10:30<2:23:16,  2.20it/s] 61%|██████    | 29076/48008 [4:10:31<2:25:57,  2.16it/s] 61%|██████    | 29077/48008 [4:10:31<2:30:22,  2.10it/s] 61%|██████    | 29078/48008 [4:10:32<2:33:33,  2.05it/s] 61%|██████    | 29079/48008 [4:10:32<2:33:47,  2.05it/s] 61%|██████    | 29080/48008 [4:10:33<2:51:42,  1.84it/s] 61%|██████    | 29081/48008 [4:10:33<2:40:13,  1.97it/s] 61%|██████    | 29082/48008 [4:10:34<2:37:48,  2.00it/s] 61%|██████    | 29083/48008 [4:10:34<2:29:56,  2.10it/s] 61%|██████    | 29084/48008 [4:10:35<2:30:15,  2.10it/s] 61%|██████    | 29085/48008 [4:10:35<2:24:56,  2.18it/s] 61%|██████    | 29086/48008 [4:10:36<2:29:35,  2.11it/s] 61%|██████    | 29087/48008 [4:10:36<2:33:49,  2.05it/s] 61%|██████    | 29088/48008 [4:10:37<2:38:46,  1.99it/s] 61%|██████    | 29089/48008 [4:10:37<2:37:10,  2.01it/s] 61%|██████    | 29090/48008 [4:10:38<2:29:47,  2.10it/s] 61%|██████    | 29091/48008 [4:10:38<2:35:49,  2.02it/s] 61%|██████    | 29092/48008 [4:10:39<2:28:18,  2.13it/s] 61%|██████    | 29093/48008 [4:10:39<2:33:15,  2.06it/s] 61%|██████    | 29094/48008 [4:10:40<2:32:37,  2.07it/s] 61%|██████    | 29095/48008 [4:10:40<2:36:36,  2.01it/s] 61%|██████    | 29096/48008 [4:10:41<2:35:01,  2.03it/s] 61%|██████    | 29097/48008 [4:10:41<2:39:21,  1.98it/s] 61%|██████    | 29098/48008 [4:10:42<2:37:02,  2.01it/s] 61%|██████    | 29099/48008 [4:10:42<2:41:30,  1.95it/s] 61%|██████    | 29100/48008 [4:10:43<2:40:57,  1.96it/s]                                                         {'loss': 4.2309, 'grad_norm': 0.4536498188972473, 'learning_rate': 7.877437093817697e-05, 'epoch': 0.61}
 61%|██████    | 29100/48008 [4:10:43<2:40:57,  1.96it/s] 61%|██████    | 29101/48008 [4:10:43<2:37:52,  2.00it/s] 61%|██████    | 29102/48008 [4:10:44<2:39:14,  1.98it/s] 61%|██████    | 29103/48008 [4:10:44<2:37:06,  2.01it/s] 61%|██████    | 29104/48008 [4:10:45<2:37:34,  2.00it/s] 61%|██████    | 29105/48008 [4:10:45<2:38:22,  1.99it/s] 61%|██████    | 29106/48008 [4:10:46<2:30:21,  2.10it/s] 61%|██████    | 29107/48008 [4:10:46<2:30:52,  2.09it/s] 61%|██████    | 29108/48008 [4:10:47<2:30:38,  2.09it/s] 61%|██████    | 29109/48008 [4:10:47<2:31:13,  2.08it/s] 61%|██████    | 29110/48008 [4:10:48<2:32:59,  2.06it/s] 61%|██████    | 29111/48008 [4:10:48<2:32:16,  2.07it/s] 61%|██████    | 29112/48008 [4:10:48<2:25:36,  2.16it/s] 61%|██████    | 29113/48008 [4:10:49<2:33:23,  2.05it/s] 61%|██████    | 29114/48008 [4:10:49<2:33:02,  2.06it/s] 61%|██████    | 29115/48008 [4:10:50<2:32:43,  2.06it/s] 61%|██████    | 29116/48008 [4:10:50<2:34:56,  2.03it/s] 61%|██████    | 29117/48008 [4:10:51<2:34:00,  2.04it/s] 61%|██████    | 29118/48008 [4:10:51<2:37:03,  2.00it/s] 61%|██████    | 29119/48008 [4:10:52<2:35:11,  2.03it/s] 61%|██████    | 29120/48008 [4:10:52<2:27:58,  2.13it/s] 61%|██████    | 29121/48008 [4:10:53<2:29:13,  2.11it/s] 61%|██████    | 29122/48008 [4:10:53<2:23:40,  2.19it/s] 61%|██████    | 29123/48008 [4:10:54<2:25:55,  2.16it/s] 61%|██████    | 29124/48008 [4:10:54<2:27:31,  2.13it/s] 61%|██████    | 29125/48008 [4:10:55<2:30:49,  2.09it/s] 61%|██████    | 29126/48008 [4:10:55<2:36:04,  2.02it/s] 61%|██████    | 29127/48008 [4:10:56<2:34:41,  2.03it/s] 61%|██████    | 29128/48008 [4:10:57<3:11:06,  1.65it/s] 61%|██████    | 29129/48008 [4:10:57<2:53:10,  1.82it/s] 61%|██████    | 29130/48008 [4:10:58<2:49:01,  1.86it/s] 61%|██████    | 29131/48008 [4:10:58<2:36:54,  2.01it/s] 61%|██████    | 29132/48008 [4:10:58<2:28:37,  2.12it/s] 61%|██████    | 29133/48008 [4:10:59<2:29:15,  2.11it/s] 61%|██████    | 29134/48008 [4:10:59<2:29:51,  2.10it/s] 61%|██████    | 29135/48008 [4:11:00<2:32:10,  2.07it/s] 61%|██████    | 29136/48008 [4:11:00<2:31:54,  2.07it/s] 61%|██████    | 29137/48008 [4:11:01<2:31:49,  2.07it/s] 61%|██████    | 29138/48008 [4:11:01<2:34:13,  2.04it/s] 61%|██████    | 29139/48008 [4:11:02<2:27:08,  2.14it/s] 61%|██████    | 29140/48008 [4:11:03<3:06:05,  1.69it/s] 61%|██████    | 29141/48008 [4:11:03<2:49:50,  1.85it/s] 61%|██████    | 29142/48008 [4:11:03<2:44:21,  1.91it/s] 61%|██████    | 29143/48008 [4:11:04<2:40:11,  1.96it/s] 61%|██████    | 29144/48008 [4:11:04<2:36:54,  2.00it/s] 61%|██████    | 29145/48008 [4:11:05<2:34:56,  2.03it/s] 61%|██████    | 29146/48008 [4:11:05<2:33:40,  2.05it/s] 61%|██████    | 29147/48008 [4:11:06<2:34:47,  2.03it/s] 61%|██████    | 29148/48008 [4:11:06<2:33:48,  2.04it/s] 61%|██████    | 29149/48008 [4:11:07<2:38:35,  1.98it/s] 61%|██████    | 29150/48008 [4:11:07<2:36:11,  2.01it/s]                                                         {'loss': 4.2226, 'grad_norm': 0.5306329727172852, 'learning_rate': 7.856607232127979e-05, 'epoch': 0.61}
 61%|██████    | 29150/48008 [4:11:07<2:36:11,  2.01it/s] 61%|██████    | 29151/48008 [4:11:08<2:28:40,  2.11it/s] 61%|██████    | 29152/48008 [4:11:08<2:23:21,  2.19it/s] 61%|██████    | 29153/48008 [4:11:09<2:44:25,  1.91it/s] 61%|██████    | 29154/48008 [4:11:09<2:40:41,  1.96it/s] 61%|██████    | 29155/48008 [4:11:10<2:38:04,  1.99it/s] 61%|██████    | 29156/48008 [4:11:10<2:30:05,  2.09it/s] 61%|██████    | 29157/48008 [4:11:11<2:32:22,  2.06it/s] 61%|██████    | 29158/48008 [4:11:11<2:34:00,  2.04it/s] 61%|██████    | 29159/48008 [4:11:12<2:27:09,  2.13it/s] 61%|██████    | 29160/48008 [4:11:12<2:22:13,  2.21it/s] 61%|██████    | 29161/48008 [4:11:13<2:18:46,  2.26it/s] 61%|██████    | 29162/48008 [4:11:13<2:16:08,  2.31it/s] 61%|██████    | 29163/48008 [4:11:13<2:20:44,  2.23it/s] 61%|██████    | 29164/48008 [4:11:14<2:27:23,  2.13it/s] 61%|██████    | 29165/48008 [4:11:14<2:22:23,  2.21it/s] 61%|██████    | 29166/48008 [4:11:15<2:28:39,  2.11it/s] 61%|██████    | 29167/48008 [4:11:15<2:29:31,  2.10it/s] 61%|██████    | 29168/48008 [4:11:16<2:32:24,  2.06it/s] 61%|██████    | 29169/48008 [4:11:16<2:33:33,  2.04it/s] 61%|██████    | 29170/48008 [4:11:17<2:26:57,  2.14it/s] 61%|██████    | 29171/48008 [4:11:17<2:31:51,  2.07it/s] 61%|██████    | 29172/48008 [4:11:18<2:31:52,  2.07it/s] 61%|██████    | 29173/48008 [4:11:18<2:31:50,  2.07it/s] 61%|██████    | 29174/48008 [4:11:19<2:31:52,  2.07it/s] 61%|██████    | 29175/48008 [4:11:19<2:25:47,  2.15it/s] 61%|██████    | 29176/48008 [4:11:20<2:18:10,  2.27it/s] 61%|██████    | 29177/48008 [4:11:20<2:27:50,  2.12it/s] 61%|██████    | 29178/48008 [4:11:21<2:31:24,  2.07it/s] 61%|██████    | 29179/48008 [4:11:21<2:33:15,  2.05it/s] 61%|██████    | 29180/48008 [4:11:22<2:26:35,  2.14it/s] 61%|██████    | 29181/48008 [4:11:22<2:45:40,  1.89it/s] 61%|██████    | 29182/48008 [4:11:23<2:35:11,  2.02it/s] 61%|██████    | 29183/48008 [4:11:23<2:33:48,  2.04it/s] 61%|██████    | 29184/48008 [4:11:24<2:33:03,  2.05it/s] 61%|██████    | 29185/48008 [4:11:24<2:34:38,  2.03it/s] 61%|██████    | 29186/48008 [4:11:25<2:27:37,  2.13it/s] 61%|██████    | 29187/48008 [4:11:25<3:06:19,  1.68it/s] 61%|██████    | 29188/48008 [4:11:26<2:57:46,  1.76it/s] 61%|██████    | 29189/48008 [4:11:26<2:43:35,  1.92it/s] 61%|██████    | 29190/48008 [4:11:27<2:41:23,  1.94it/s] 61%|██████    | 29191/48008 [4:11:27<2:39:48,  1.96it/s] 61%|██████    | 29192/48008 [4:11:28<2:55:20,  1.79it/s] 61%|██████    | 29193/48008 [4:11:28<2:47:51,  1.87it/s] 61%|██████    | 29194/48008 [4:11:29<2:42:51,  1.93it/s] 61%|██████    | 29195/48008 [4:11:29<2:40:56,  1.95it/s] 61%|██████    | 29196/48008 [4:11:30<2:31:46,  2.07it/s] 61%|██████    | 29197/48008 [4:11:30<2:25:19,  2.16it/s] 61%|██████    | 29198/48008 [4:11:31<2:20:40,  2.23it/s] 61%|██████    | 29199/48008 [4:11:31<2:26:04,  2.15it/s] 61%|██████    | 29200/48008 [4:11:32<2:27:06,  2.13it/s]                                                         {'loss': 4.2588, 'grad_norm': 0.3241690695285797, 'learning_rate': 7.835777370438261e-05, 'epoch': 0.61}
 61%|██████    | 29200/48008 [4:11:32<2:27:06,  2.13it/s] 61%|██████    | 29201/48008 [4:11:32<2:28:15,  2.11it/s] 61%|██████    | 29202/48008 [4:11:33<2:28:35,  2.11it/s] 61%|██████    | 29203/48008 [4:11:33<2:23:08,  2.19it/s] 61%|██████    | 29204/48008 [4:11:33<2:19:12,  2.25it/s] 61%|██████    | 29205/48008 [4:11:34<2:16:27,  2.30it/s] 61%|██████    | 29206/48008 [4:11:34<2:22:59,  2.19it/s] 61%|██████    | 29207/48008 [4:11:35<2:18:42,  2.26it/s] 61%|██████    | 29208/48008 [4:11:35<2:15:45,  2.31it/s] 61%|██████    | 29209/48008 [4:11:36<2:20:21,  2.23it/s] 61%|██████    | 29210/48008 [4:11:36<2:23:15,  2.19it/s] 61%|██████    | 29211/48008 [4:11:37<2:30:41,  2.08it/s] 61%|██████    | 29212/48008 [4:11:37<2:30:32,  2.08it/s] 61%|██████    | 29213/48008 [4:11:38<2:30:36,  2.08it/s] 61%|██████    | 29214/48008 [4:11:38<2:30:42,  2.08it/s] 61%|██████    | 29215/48008 [4:11:39<2:24:30,  2.17it/s] 61%|██████    | 29216/48008 [4:11:39<2:26:12,  2.14it/s] 61%|██████    | 29217/48008 [4:11:40<2:31:06,  2.07it/s] 61%|██████    | 29218/48008 [4:11:40<2:36:30,  2.00it/s] 61%|██████    | 29219/48008 [4:11:41<2:38:36,  1.97it/s] 61%|██████    | 29220/48008 [4:11:41<2:54:36,  1.79it/s] 61%|██████    | 29221/48008 [4:11:42<2:47:30,  1.87it/s] 61%|██████    | 29222/48008 [4:11:42<2:44:27,  1.90it/s] 61%|██████    | 29223/48008 [4:11:43<2:40:28,  1.95it/s] 61%|██████    | 29224/48008 [4:11:43<2:37:25,  1.99it/s] 61%|██████    | 29225/48008 [4:11:44<2:35:21,  2.02it/s] 61%|██████    | 29226/48008 [4:11:44<2:33:44,  2.04it/s] 61%|██████    | 29227/48008 [4:11:45<2:34:51,  2.02it/s] 61%|██████    | 29228/48008 [4:11:45<2:33:33,  2.04it/s] 61%|██████    | 29229/48008 [4:11:46<2:32:32,  2.05it/s] 61%|██████    | 29230/48008 [4:11:46<2:33:56,  2.03it/s] 61%|██████    | 29231/48008 [4:11:47<2:35:04,  2.02it/s] 61%|██████    | 29232/48008 [4:11:47<2:33:42,  2.04it/s] 61%|██████    | 29233/48008 [4:11:48<2:32:17,  2.05it/s] 61%|██████    | 29234/48008 [4:11:49<3:43:34,  1.40it/s] 61%|██████    | 29235/48008 [4:11:49<3:27:05,  1.51it/s] 61%|██████    | 29236/48008 [4:11:50<3:09:57,  1.65it/s] 61%|██████    | 29237/48008 [4:11:50<2:57:56,  1.76it/s] 61%|██████    | 29238/48008 [4:11:51<2:51:39,  1.82it/s] 61%|██████    | 29239/48008 [4:11:51<2:48:53,  1.85it/s] 61%|██████    | 29240/48008 [4:11:52<2:43:09,  1.92it/s] 61%|██████    | 29241/48008 [4:11:52<2:41:22,  1.94it/s] 61%|██████    | 29242/48008 [4:11:53<2:40:05,  1.95it/s] 61%|██████    | 29243/48008 [4:11:53<2:39:10,  1.96it/s] 61%|██████    | 29244/48008 [4:11:54<2:36:24,  2.00it/s] 61%|██████    | 29245/48008 [4:11:54<2:34:41,  2.02it/s] 61%|██████    | 29246/48008 [4:11:55<2:33:17,  2.04it/s] 61%|██████    | 29247/48008 [4:11:55<2:31:50,  2.06it/s] 61%|██████    | 29248/48008 [4:11:56<2:33:27,  2.04it/s] 61%|██████    | 29249/48008 [4:11:56<2:32:39,  2.05it/s] 61%|██████    | 29250/48008 [4:11:57<2:50:04,  1.84it/s]                                                         {'loss': 4.2992, 'grad_norm': 0.17918623983860016, 'learning_rate': 7.814947508748542e-05, 'epoch': 0.61}
 61%|██████    | 29250/48008 [4:11:57<2:50:04,  1.84it/s] 61%|██████    | 29251/48008 [4:11:58<3:02:09,  1.72it/s] 61%|██████    | 29252/48008 [4:11:58<2:46:29,  1.88it/s] 61%|██████    | 29253/48008 [4:11:59<2:44:03,  1.91it/s] 61%|██████    | 29254/48008 [4:11:59<2:40:02,  1.95it/s] 61%|██████    | 29255/48008 [4:12:00<2:36:55,  1.99it/s] 61%|██████    | 29256/48008 [4:12:00<2:28:26,  2.11it/s] 61%|██████    | 29257/48008 [4:12:00<2:28:51,  2.10it/s] 61%|██████    | 29258/48008 [4:12:01<2:29:11,  2.09it/s] 61%|██████    | 29259/48008 [4:12:01<2:23:16,  2.18it/s] 61%|██████    | 29260/48008 [4:12:02<2:19:17,  2.24it/s] 61%|██████    | 29261/48008 [4:12:02<2:26:11,  2.14it/s] 61%|██████    | 29262/48008 [4:12:03<2:27:03,  2.12it/s] 61%|██████    | 29263/48008 [4:12:03<2:21:49,  2.20it/s] 61%|██████    | 29264/48008 [4:12:04<2:28:11,  2.11it/s] 61%|██████    | 29265/48008 [4:12:04<2:22:34,  2.19it/s] 61%|██████    | 29266/48008 [4:12:05<2:24:31,  2.16it/s] 61%|██████    | 29267/48008 [4:12:05<2:26:04,  2.14it/s] 61%|██████    | 29268/48008 [4:12:06<2:45:10,  1.89it/s] 61%|██████    | 29269/48008 [4:12:06<2:31:09,  2.07it/s] 61%|██████    | 29270/48008 [4:12:07<2:32:46,  2.04it/s] 61%|██████    | 29271/48008 [4:12:07<2:25:43,  2.14it/s] 61%|██████    | 29272/48008 [4:12:07<2:20:54,  2.22it/s] 61%|██████    | 29273/48008 [4:12:08<2:27:08,  2.12it/s] 61%|██████    | 29274/48008 [4:12:08<2:27:27,  2.12it/s] 61%|██████    | 29275/48008 [4:12:09<2:18:43,  2.25it/s] 61%|██████    | 29276/48008 [4:12:09<2:21:57,  2.20it/s] 61%|██████    | 29277/48008 [4:12:10<2:29:58,  2.08it/s] 61%|██████    | 29278/48008 [4:12:10<2:29:52,  2.08it/s] 61%|██████    | 29279/48008 [4:12:11<2:29:52,  2.08it/s] 61%|██████    | 29280/48008 [4:12:11<2:33:19,  2.04it/s] 61%|██████    | 29281/48008 [4:12:12<2:34:30,  2.02it/s] 61%|██████    | 29282/48008 [4:12:12<2:36:37,  1.99it/s] 61%|██████    | 29283/48008 [4:12:13<2:28:52,  2.10it/s] 61%|██████    | 29284/48008 [4:12:13<2:29:04,  2.09it/s] 61%|██████    | 29285/48008 [4:12:14<2:47:13,  1.87it/s] 61%|██████    | 29286/48008 [4:12:14<2:44:05,  1.90it/s] 61%|██████    | 29287/48008 [4:12:15<2:41:45,  1.93it/s] 61%|██████    | 29288/48008 [4:12:15<2:38:20,  1.97it/s] 61%|██████    | 29289/48008 [4:12:16<2:36:04,  2.00it/s] 61%|██████    | 29290/48008 [4:12:16<2:28:06,  2.11it/s] 61%|██████    | 29291/48008 [4:12:17<2:30:17,  2.08it/s] 61%|██████    | 29292/48008 [4:12:17<2:24:24,  2.16it/s] 61%|██████    | 29293/48008 [4:12:18<2:28:58,  2.09it/s] 61%|██████    | 29294/48008 [4:12:18<2:29:18,  2.09it/s] 61%|██████    | 29295/48008 [4:12:19<2:33:38,  2.03it/s] 61%|██████    | 29296/48008 [4:12:19<2:34:26,  2.02it/s] 61%|██████    | 29297/48008 [4:12:20<2:35:52,  2.00it/s] 61%|██████    | 29298/48008 [4:12:20<2:34:28,  2.02it/s] 61%|██████    | 29299/48008 [4:12:21<2:35:35,  2.00it/s] 61%|██████    | 29300/48008 [4:12:21<2:52:24,  1.81it/s]                                                         {'loss': 4.2196, 'grad_norm': 0.1334126591682434, 'learning_rate': 7.794117647058824e-05, 'epoch': 0.61}
 61%|██████    | 29300/48008 [4:12:21<2:52:24,  1.81it/s] 61%|██████    | 29301/48008 [4:12:22<2:49:42,  1.84it/s] 61%|██████    | 29302/48008 [4:12:22<2:43:39,  1.90it/s] 61%|██████    | 29303/48008 [4:12:24<3:51:40,  1.35it/s] 61%|██████    | 29304/48008 [4:12:24<3:20:57,  1.55it/s] 61%|██████    | 29305/48008 [4:12:25<3:07:37,  1.66it/s] 61%|██████    | 29306/48008 [4:12:25<2:56:06,  1.77it/s] 61%|██████    | 29307/48008 [4:12:25<2:48:10,  1.85it/s] 61%|██████    | 29308/48008 [4:12:26<2:42:23,  1.92it/s] 61%|██████    | 29309/48008 [4:12:26<2:40:32,  1.94it/s] 61%|██████    | 29310/48008 [4:12:27<2:37:34,  1.98it/s] 61%|██████    | 29311/48008 [4:12:27<2:35:23,  2.01it/s] 61%|██████    | 29312/48008 [4:12:28<2:27:38,  2.11it/s] 61%|██████    | 29313/48008 [4:12:28<2:28:26,  2.10it/s] 61%|██████    | 29314/48008 [4:12:29<2:32:41,  2.04it/s] 61%|██████    | 29315/48008 [4:12:29<2:31:40,  2.05it/s] 61%|██████    | 29316/48008 [4:12:30<2:33:06,  2.03it/s] 61%|██████    | 29317/48008 [4:12:30<2:32:04,  2.05it/s] 61%|██████    | 29318/48008 [4:12:31<2:33:28,  2.03it/s] 61%|██████    | 29319/48008 [4:12:31<2:26:19,  2.13it/s] 61%|██████    | 29320/48008 [4:12:32<2:29:51,  2.08it/s] 61%|██████    | 29321/48008 [4:12:33<3:42:19,  1.40it/s] 61%|██████    | 29322/48008 [4:12:34<3:25:56,  1.51it/s] 61%|██████    | 29323/48008 [4:12:34<3:09:11,  1.65it/s] 61%|██████    | 29324/48008 [4:12:35<2:59:17,  1.74it/s] 61%|██████    | 29325/48008 [4:12:35<3:27:20,  1.50it/s] 61%|██████    | 29326/48008 [4:12:37<4:41:43,  1.11it/s] 61%|██████    | 29327/48008 [4:12:37<4:05:16,  1.27it/s] 61%|██████    | 29328/48008 [4:12:38<3:39:17,  1.42it/s] 61%|██████    | 29329/48008 [4:12:38<3:20:15,  1.55it/s] 61%|██████    | 29330/48008 [4:12:39<3:06:47,  1.67it/s] 61%|██████    | 29331/48008 [4:12:39<2:55:12,  1.78it/s] 61%|██████    | 29332/48008 [4:12:41<4:19:04,  1.20it/s] 61%|██████    | 29333/48008 [4:12:41<3:48:51,  1.36it/s] 61%|██████    | 29334/48008 [4:12:42<3:25:18,  1.52it/s] 61%|██████    | 29335/48008 [4:12:42<3:08:54,  1.65it/s] 61%|██████    | 29336/48008 [4:12:43<2:57:08,  1.76it/s] 61%|██████    | 29337/48008 [4:12:43<2:50:29,  1.83it/s] 61%|██████    | 29338/48008 [4:12:44<3:43:36,  1.39it/s] 61%|██████    | 29339/48008 [4:12:45<3:58:16,  1.31it/s] 61%|██████    | 29340/48008 [4:12:46<3:32:04,  1.47it/s] 61%|██████    | 29341/48008 [4:12:46<3:13:30,  1.61it/s] 61%|██████    | 29342/48008 [4:12:47<3:02:10,  1.71it/s] 61%|██████    | 29343/48008 [4:12:47<2:53:01,  1.80it/s] 61%|██████    | 29344/48008 [4:12:48<3:37:37,  1.43it/s] 61%|██████    | 29345/48008 [4:12:49<3:17:02,  1.58it/s] 61%|██████    | 29346/48008 [4:12:49<3:02:45,  1.70it/s] 61%|██████    | 29347/48008 [4:12:50<2:47:12,  1.86it/s] 61%|██████    | 29348/48008 [4:12:50<2:42:00,  1.92it/s] 61%|██████    | 29349/48008 [4:12:51<2:38:24,  1.96it/s] 61%|██████    | 29350/48008 [4:12:51<2:29:36,  2.08it/s]                                                         {'loss': 4.2809, 'grad_norm': 0.12416349351406097, 'learning_rate': 7.773287785369106e-05, 'epoch': 0.61} 61%|██████    | 29350/48008 [4:12:51<2:29:36,  2.08it/s]
 61%|██████    | 29351/48008 [4:12:52<2:29:36,  2.08it/s] 61%|██████    | 29352/48008 [4:12:52<2:29:57,  2.07it/s] 61%|██████    | 29353/48008 [4:12:53<2:33:26,  2.03it/s] 61%|██████    | 29354/48008 [4:12:53<2:32:23,  2.04it/s] 61%|██████    | 29355/48008 [4:12:53<2:25:30,  2.14it/s] 61%|██████    | 29356/48008 [4:12:54<2:26:38,  2.12it/s] 61%|██████    | 29357/48008 [4:12:54<2:21:37,  2.19it/s] 61%|██████    | 29358/48008 [4:12:56<3:35:39,  1.44it/s] 61%|██████    | 29359/48008 [4:12:56<3:15:55,  1.59it/s] 61%|██████    | 29360/48008 [4:12:57<3:04:24,  1.69it/s] 61%|██████    | 29361/48008 [4:12:57<2:56:13,  1.76it/s] 61%|██████    | 29362/48008 [4:12:58<2:50:33,  1.82it/s] 61%|██████    | 29363/48008 [4:12:58<2:43:45,  1.90it/s] 61%|██████    | 29364/48008 [4:12:59<2:43:17,  1.90it/s] 61%|██████    | 29365/48008 [4:13:00<3:50:25,  1.35it/s] 61%|██████    | 29366/48008 [4:13:00<3:44:13,  1.39it/s] 61%|██████    | 29367/48008 [4:13:02<4:33:44,  1.13it/s] 61%|██████    | 29368/48008 [4:13:02<4:02:09,  1.28it/s] 61%|██████    | 29369/48008 [4:13:04<4:46:34,  1.08it/s] 61%|██████    | 29370/48008 [4:13:04<3:59:19,  1.30it/s] 61%|██████    | 29371/48008 [4:13:04<3:32:25,  1.46it/s] 61%|██████    | 29372/48008 [4:13:05<3:13:10,  1.61it/s] 61%|██████    | 29373/48008 [4:13:05<3:02:36,  1.70it/s] 61%|██████    | 29374/48008 [4:13:06<2:46:36,  1.86it/s] 61%|██████    | 29375/48008 [4:13:06<2:35:19,  2.00it/s] 61%|██████    | 29376/48008 [4:13:07<2:33:39,  2.02it/s] 61%|██████    | 29377/48008 [4:13:07<2:34:32,  2.01it/s] 61%|██████    | 29378/48008 [4:13:08<2:33:28,  2.02it/s] 61%|██████    | 29379/48008 [4:13:08<2:32:11,  2.04it/s] 61%|██████    | 29380/48008 [4:13:09<2:33:22,  2.02it/s] 61%|██████    | 29381/48008 [4:13:09<2:34:29,  2.01it/s] 61%|██████    | 29382/48008 [4:13:10<2:32:37,  2.03it/s] 61%|██████    | 29383/48008 [4:13:10<2:31:59,  2.04it/s] 61%|██████    | 29384/48008 [4:13:11<2:35:04,  2.00it/s] 61%|██████    | 29385/48008 [4:13:11<2:27:11,  2.11it/s] 61%|██████    | 29386/48008 [4:13:12<2:21:42,  2.19it/s] 61%|██████    | 29387/48008 [4:13:12<2:23:56,  2.16it/s] 61%|██████    | 29388/48008 [4:13:13<2:44:03,  1.89it/s] 61%|██████    | 29389/48008 [4:13:13<2:58:02,  1.74it/s] 61%|██████    | 29390/48008 [4:13:14<2:49:31,  1.83it/s] 61%|██████    | 29391/48008 [4:13:14<2:38:01,  1.96it/s] 61%|██████    | 29392/48008 [4:13:15<2:35:45,  1.99it/s] 61%|██████    | 29393/48008 [4:13:16<3:44:57,  1.38it/s] 61%|██████    | 29394/48008 [4:13:16<3:22:05,  1.54it/s] 61%|██████    | 29395/48008 [4:13:17<3:10:12,  1.63it/s] 61%|██████    | 29396/48008 [4:13:18<3:00:09,  1.72it/s] 61%|██████    | 29397/48008 [4:13:18<2:51:23,  1.81it/s] 61%|██████    | 29398/48008 [4:13:19<2:49:04,  1.83it/s] 61%|██████    | 29399/48008 [4:13:19<2:43:32,  1.90it/s] 61%|██████    | 29400/48008 [4:13:20<2:43:07,  1.90it/s]                                                         {'loss': 4.3005, 'grad_norm': 0.09973541647195816, 'learning_rate': 7.752457923679388e-05, 'epoch': 0.61}
 61%|██████    | 29400/48008 [4:13:20<2:43:07,  1.90it/s] 61%|██████    | 29401/48008 [4:13:20<2:42:47,  1.91it/s] 61%|██████    | 29402/48008 [4:13:21<2:40:28,  1.93it/s] 61%|██████    | 29403/48008 [4:13:21<2:37:20,  1.97it/s] 61%|██████    | 29404/48008 [4:13:22<2:35:34,  1.99it/s] 61%|██████▏   | 29405/48008 [4:13:22<2:37:25,  1.97it/s] 61%|██████▏   | 29406/48008 [4:13:23<2:52:38,  1.80it/s] 61%|██████▏   | 29407/48008 [4:13:23<2:39:47,  1.94it/s] 61%|██████▏   | 29408/48008 [4:13:24<2:30:16,  2.06it/s] 61%|██████▏   | 29409/48008 [4:13:24<2:47:30,  1.85it/s] 61%|██████▏   | 29410/48008 [4:13:25<2:36:08,  1.99it/s] 61%|██████▏   | 29411/48008 [4:13:25<2:36:01,  1.99it/s] 61%|██████▏   | 29412/48008 [4:13:26<2:28:13,  2.09it/s] 61%|██████▏   | 29413/48008 [4:13:26<2:28:25,  2.09it/s] 61%|██████▏   | 29414/48008 [4:13:27<2:47:00,  1.86it/s] 61%|██████▏   | 29415/48008 [4:13:27<2:41:51,  1.91it/s] 61%|██████▏   | 29416/48008 [4:13:28<2:40:40,  1.93it/s] 61%|██████▏   | 29417/48008 [4:13:28<2:37:19,  1.97it/s] 61%|██████▏   | 29418/48008 [4:13:29<2:38:38,  1.95it/s] 61%|██████▏   | 29419/48008 [4:13:29<2:36:11,  1.98it/s] 61%|██████▏   | 29420/48008 [4:13:30<2:34:17,  2.01it/s] 61%|██████▏   | 29421/48008 [4:13:30<2:34:37,  2.00it/s] 61%|██████▏   | 29422/48008 [4:13:31<3:10:34,  1.63it/s] 61%|██████▏   | 29423/48008 [4:13:32<3:02:02,  1.70it/s] 61%|██████▏   | 29424/48008 [4:13:32<2:57:53,  1.74it/s] 61%|██████▏   | 29425/48008 [4:13:33<2:43:22,  1.90it/s] 61%|██████▏   | 29426/48008 [4:13:33<2:42:25,  1.91it/s] 61%|██████▏   | 29427/48008 [4:13:33<2:31:41,  2.04it/s] 61%|██████▏   | 29428/48008 [4:13:34<2:32:46,  2.03it/s] 61%|██████▏   | 29429/48008 [4:13:34<2:22:36,  2.17it/s] 61%|██████▏   | 29430/48008 [4:13:35<2:25:02,  2.13it/s] 61%|██████▏   | 29431/48008 [4:13:35<2:20:40,  2.20it/s] 61%|██████▏   | 29432/48008 [4:13:36<2:23:12,  2.16it/s] 61%|██████▏   | 29433/48008 [4:13:36<2:25:11,  2.13it/s] 61%|██████▏   | 29434/48008 [4:13:37<2:26:16,  2.12it/s] 61%|██████▏   | 29435/48008 [4:13:37<2:27:32,  2.10it/s] 61%|██████▏   | 29436/48008 [4:13:38<2:28:25,  2.09it/s] 61%|██████▏   | 29437/48008 [4:13:38<2:30:59,  2.05it/s] 61%|██████▏   | 29438/48008 [4:13:39<2:31:05,  2.05it/s] 61%|██████▏   | 29439/48008 [4:13:39<2:49:01,  1.83it/s] 61%|██████▏   | 29440/48008 [4:13:40<2:44:55,  1.88it/s] 61%|██████▏   | 29441/48008 [4:13:40<2:40:14,  1.93it/s] 61%|██████▏   | 29442/48008 [4:13:41<2:37:00,  1.97it/s] 61%|██████▏   | 29443/48008 [4:13:42<3:11:22,  1.62it/s] 61%|██████▏   | 29444/48008 [4:13:42<2:58:32,  1.73it/s] 61%|██████▏   | 29445/48008 [4:13:43<2:50:18,  1.82it/s] 61%|██████▏   | 29446/48008 [4:13:43<2:43:56,  1.89it/s] 61%|██████▏   | 29447/48008 [4:13:44<2:38:47,  1.95it/s] 61%|██████▏   | 29448/48008 [4:13:44<2:37:42,  1.96it/s] 61%|██████▏   | 29449/48008 [4:13:45<2:37:45,  1.96it/s] 61%|██████▏   | 29450/48008 [4:13:45<2:35:52,  1.98it/s]                                                         {'loss': 4.2389, 'grad_norm': 0.1077885851264, 'learning_rate': 7.731628061989668e-05, 'epoch': 0.61} 61%|██████▏   | 29450/48008 [4:13:45<2:35:52,  1.98it/s]
 61%|██████▏   | 29451/48008 [4:13:46<2:33:53,  2.01it/s] 61%|██████▏   | 29452/48008 [4:13:46<2:26:24,  2.11it/s] 61%|██████▏   | 29453/48008 [4:13:47<2:27:10,  2.10it/s] 61%|██████▏   | 29454/48008 [4:13:47<2:27:48,  2.09it/s] 61%|██████▏   | 29455/48008 [4:13:47<2:28:03,  2.09it/s] 61%|██████▏   | 29456/48008 [4:13:48<2:22:01,  2.18it/s] 61%|██████▏   | 29457/48008 [4:13:48<2:24:46,  2.14it/s] 61%|██████▏   | 29458/48008 [4:13:49<2:26:05,  2.12it/s] 61%|██████▏   | 29459/48008 [4:13:49<2:30:44,  2.05it/s] 61%|██████▏   | 29460/48008 [4:13:50<2:24:19,  2.14it/s] 61%|██████▏   | 29461/48008 [4:13:50<2:19:48,  2.21it/s] 61%|██████▏   | 29462/48008 [4:13:51<2:23:09,  2.16it/s] 61%|██████▏   | 29463/48008 [4:13:51<2:18:47,  2.23it/s] 61%|██████▏   | 29464/48008 [4:13:52<2:21:11,  2.19it/s] 61%|██████▏   | 29465/48008 [4:13:52<2:25:25,  2.13it/s] 61%|██████▏   | 29466/48008 [4:13:53<2:26:04,  2.12it/s] 61%|██████▏   | 29467/48008 [4:13:53<2:27:40,  2.09it/s] 61%|██████▏   | 29468/48008 [4:13:54<2:29:50,  2.06it/s] 61%|██████▏   | 29469/48008 [4:13:54<2:31:52,  2.03it/s] 61%|██████▏   | 29470/48008 [4:13:55<2:32:50,  2.02it/s] 61%|██████▏   | 29471/48008 [4:13:55<2:25:36,  2.12it/s] 61%|██████▏   | 29472/48008 [4:13:55<2:26:33,  2.11it/s] 61%|██████▏   | 29473/48008 [4:13:56<2:29:07,  2.07it/s] 61%|██████▏   | 29474/48008 [4:13:56<2:28:46,  2.08it/s] 61%|██████▏   | 29475/48008 [4:13:57<2:32:35,  2.02it/s] 61%|██████▏   | 29476/48008 [4:13:58<2:34:49,  2.00it/s] 61%|██████▏   | 29477/48008 [4:13:58<2:27:13,  2.10it/s] 61%|██████▏   | 29478/48008 [4:13:58<2:27:58,  2.09it/s] 61%|██████▏   | 29479/48008 [4:13:59<2:28:30,  2.08it/s] 61%|██████▏   | 29480/48008 [4:13:59<2:30:44,  2.05it/s] 61%|██████▏   | 29481/48008 [4:14:00<2:30:48,  2.05it/s] 61%|██████▏   | 29482/48008 [4:14:00<2:31:00,  2.04it/s] 61%|██████▏   | 29483/48008 [4:14:01<2:30:45,  2.05it/s] 61%|██████▏   | 29484/48008 [4:14:01<2:30:31,  2.05it/s] 61%|██████▏   | 29485/48008 [4:14:02<2:33:37,  2.01it/s] 61%|██████▏   | 29486/48008 [4:14:02<2:32:11,  2.03it/s] 61%|██████▏   | 29487/48008 [4:14:03<2:31:30,  2.04it/s] 61%|██████▏   | 29488/48008 [4:14:03<2:32:32,  2.02it/s] 61%|██████▏   | 29489/48008 [4:14:04<2:31:27,  2.04it/s] 61%|██████▏   | 29490/48008 [4:14:04<2:32:49,  2.02it/s] 61%|██████▏   | 29491/48008 [4:14:05<2:34:28,  2.00it/s] 61%|██████▏   | 29492/48008 [4:14:05<2:32:53,  2.02it/s] 61%|██████▏   | 29493/48008 [4:14:06<2:31:41,  2.03it/s] 61%|██████▏   | 29494/48008 [4:14:06<2:30:22,  2.05it/s] 61%|██████▏   | 29495/48008 [4:14:07<2:29:59,  2.06it/s] 61%|██████▏   | 29496/48008 [4:14:07<2:33:31,  2.01it/s] 61%|██████▏   | 29497/48008 [4:14:08<2:31:49,  2.03it/s] 61%|██████▏   | 29498/48008 [4:14:08<2:32:50,  2.02it/s] 61%|██████▏   | 29499/48008 [4:14:09<2:31:36,  2.03it/s] 61%|██████▏   | 29500/48008 [4:14:09<2:30:21,  2.05it/s]                                                         {'loss': 4.1938, 'grad_norm': 0.10767840594053268, 'learning_rate': 7.71079820029995e-05, 'epoch': 0.61}
 61%|██████▏   | 29500/48008 [4:14:09<2:30:21,  2.05it/s] 61%|██████▏   | 29501/48008 [4:14:10<2:30:14,  2.05it/s] 61%|██████▏   | 29502/48008 [4:14:10<2:29:32,  2.06it/s] 61%|██████▏   | 29503/48008 [4:14:11<2:28:57,  2.07it/s] 61%|██████▏   | 29504/48008 [4:14:11<2:46:13,  1.86it/s] 61%|██████▏   | 29505/48008 [4:14:12<2:43:10,  1.89it/s] 61%|██████▏   | 29506/48008 [4:14:12<2:38:41,  1.94it/s] 61%|██████▏   | 29507/48008 [4:14:13<2:29:26,  2.06it/s] 61%|██████▏   | 29508/48008 [4:14:13<2:19:53,  2.20it/s] 61%|██████▏   | 29509/48008 [4:14:14<2:22:44,  2.16it/s] 61%|██████▏   | 29510/48008 [4:14:14<2:24:34,  2.13it/s] 61%|██████▏   | 29511/48008 [4:14:15<2:28:04,  2.08it/s] 61%|██████▏   | 29512/48008 [4:14:15<2:31:44,  2.03it/s] 61%|██████▏   | 29513/48008 [4:14:16<2:35:09,  1.99it/s] 61%|██████▏   | 29514/48008 [4:14:16<2:51:23,  1.80it/s] 61%|██████▏   | 29515/48008 [4:14:17<2:44:14,  1.88it/s] 61%|██████▏   | 29516/48008 [4:14:17<2:41:46,  1.91it/s] 61%|██████▏   | 29517/48008 [4:14:18<2:37:49,  1.95it/s] 61%|██████▏   | 29518/48008 [4:14:18<2:40:20,  1.92it/s] 61%|██████▏   | 29519/48008 [4:14:19<2:36:17,  1.97it/s] 61%|██████▏   | 29520/48008 [4:14:19<2:33:24,  2.01it/s] 61%|██████▏   | 29521/48008 [4:14:20<2:34:34,  1.99it/s] 61%|██████▏   | 29522/48008 [4:14:20<2:26:31,  2.10it/s] 61%|██████▏   | 29523/48008 [4:14:21<2:26:33,  2.10it/s] 61%|██████▏   | 29524/48008 [4:14:21<2:21:19,  2.18it/s] 62%|██████▏   | 29525/48008 [4:14:22<2:25:51,  2.11it/s] 62%|██████▏   | 29526/48008 [4:14:22<2:30:01,  2.05it/s] 62%|██████▏   | 29527/48008 [4:14:23<2:30:08,  2.05it/s] 62%|██████▏   | 29528/48008 [4:14:23<2:31:37,  2.03it/s] 62%|██████▏   | 29529/48008 [4:14:24<2:25:07,  2.12it/s] 62%|██████▏   | 29530/48008 [4:14:24<2:20:29,  2.19it/s] 62%|██████▏   | 29531/48008 [4:14:24<2:22:54,  2.15it/s] 62%|██████▏   | 29532/48008 [4:14:25<2:25:16,  2.12it/s] 62%|██████▏   | 29533/48008 [4:14:25<2:28:24,  2.07it/s] 62%|██████▏   | 29534/48008 [4:14:26<2:32:15,  2.02it/s] 62%|██████▏   | 29535/48008 [4:14:26<2:30:30,  2.05it/s] 62%|██████▏   | 29536/48008 [4:14:27<2:23:59,  2.14it/s] 62%|██████▏   | 29537/48008 [4:14:27<2:25:03,  2.12it/s] 62%|██████▏   | 29538/48008 [4:14:28<2:28:40,  2.07it/s] 62%|██████▏   | 29539/48008 [4:14:29<2:45:56,  1.85it/s] 62%|██████▏   | 29540/48008 [4:14:29<2:46:27,  1.85it/s] 62%|██████▏   | 29541/48008 [4:14:30<3:18:12,  1.55it/s] 62%|██████▏   | 29542/48008 [4:14:30<2:57:36,  1.73it/s] 62%|██████▏   | 29543/48008 [4:14:31<2:50:51,  1.80it/s] 62%|██████▏   | 29544/48008 [4:14:31<2:43:47,  1.88it/s] 62%|██████▏   | 29545/48008 [4:14:32<2:38:37,  1.94it/s] 62%|██████▏   | 29546/48008 [4:14:32<2:35:29,  1.98it/s] 62%|██████▏   | 29547/48008 [4:14:33<3:09:58,  1.62it/s] 62%|██████▏   | 29548/48008 [4:14:34<2:59:37,  1.71it/s] 62%|██████▏   | 29549/48008 [4:14:34<2:44:02,  1.88it/s] 62%|██████▏   | 29550/48008 [4:14:35<2:42:22,  1.89it/s]                                                         {'loss': 4.2318, 'grad_norm': 0.20494113862514496, 'learning_rate': 7.689968338610232e-05, 'epoch': 0.62}
 62%|██████▏   | 29550/48008 [4:14:35<2:42:22,  1.89it/s] 62%|██████▏   | 29551/48008 [4:14:35<2:42:25,  1.89it/s] 62%|██████▏   | 29552/48008 [4:14:36<2:38:27,  1.94it/s] 62%|██████▏   | 29553/48008 [4:14:36<2:38:45,  1.94it/s] 62%|██████▏   | 29554/48008 [4:14:37<2:29:01,  2.06it/s] 62%|██████▏   | 29555/48008 [4:14:37<2:28:31,  2.07it/s] 62%|██████▏   | 29556/48008 [4:14:38<2:31:57,  2.02it/s] 62%|██████▏   | 29557/48008 [4:14:38<2:33:04,  2.01it/s] 62%|██████▏   | 29558/48008 [4:14:39<2:26:00,  2.11it/s] 62%|██████▏   | 29559/48008 [4:14:39<2:44:27,  1.87it/s] 62%|██████▏   | 29560/48008 [4:14:40<2:43:53,  1.88it/s] 62%|██████▏   | 29561/48008 [4:14:40<2:39:12,  1.93it/s] 62%|██████▏   | 29562/48008 [4:14:41<2:35:35,  1.98it/s] 62%|██████▏   | 29563/48008 [4:14:41<2:27:31,  2.08it/s] 62%|██████▏   | 29564/48008 [4:14:42<2:31:33,  2.03it/s] 62%|██████▏   | 29565/48008 [4:14:42<2:34:07,  1.99it/s] 62%|██████▏   | 29566/48008 [4:14:43<2:34:50,  1.99it/s] 62%|██████▏   | 29567/48008 [4:14:43<2:32:58,  2.01it/s] 62%|██████▏   | 29568/48008 [4:14:44<2:31:56,  2.02it/s] 62%|██████▏   | 29569/48008 [4:14:44<2:30:53,  2.04it/s] 62%|██████▏   | 29570/48008 [4:14:45<2:24:16,  2.13it/s] 62%|██████▏   | 29571/48008 [4:14:45<2:30:16,  2.04it/s] 62%|██████▏   | 29572/48008 [4:14:46<2:29:30,  2.06it/s] 62%|██████▏   | 29573/48008 [4:14:46<3:05:13,  1.66it/s] 62%|██████▏   | 29574/48008 [4:14:47<2:53:59,  1.77it/s] 62%|██████▏   | 29575/48008 [4:14:47<2:46:25,  1.85it/s] 62%|██████▏   | 29576/48008 [4:14:48<2:34:44,  1.99it/s] 62%|██████▏   | 29577/48008 [4:14:48<2:32:40,  2.01it/s] 62%|██████▏   | 29578/48008 [4:14:49<2:31:28,  2.03it/s] 62%|██████▏   | 29579/48008 [4:14:49<2:35:50,  1.97it/s] 62%|██████▏   | 29580/48008 [4:14:50<2:35:59,  1.97it/s] 62%|██████▏   | 29581/48008 [4:14:50<2:33:43,  2.00it/s] 62%|██████▏   | 29582/48008 [4:14:51<2:26:10,  2.10it/s] 62%|██████▏   | 29583/48008 [4:14:51<2:20:48,  2.18it/s] 62%|██████▏   | 29584/48008 [4:14:52<2:40:18,  1.92it/s] 62%|██████▏   | 29585/48008 [4:14:52<2:36:46,  1.96it/s] 62%|██████▏   | 29586/48008 [4:14:53<2:33:33,  2.00it/s] 62%|██████▏   | 29587/48008 [4:14:53<2:35:03,  1.98it/s] 62%|██████▏   | 29588/48008 [4:14:54<2:35:07,  1.98it/s] 62%|██████▏   | 29589/48008 [4:14:54<2:51:04,  1.79it/s] 62%|██████▏   | 29590/48008 [4:14:55<2:46:26,  1.84it/s] 62%|██████▏   | 29591/48008 [4:14:55<2:40:31,  1.91it/s] 62%|██████▏   | 29592/48008 [4:14:56<2:36:40,  1.96it/s] 62%|██████▏   | 29593/48008 [4:14:56<2:35:57,  1.97it/s] 62%|██████▏   | 29594/48008 [4:14:57<2:27:32,  2.08it/s] 62%|██████▏   | 29595/48008 [4:14:57<2:29:55,  2.05it/s] 62%|██████▏   | 29596/48008 [4:14:58<2:31:12,  2.03it/s] 62%|██████▏   | 29597/48008 [4:14:58<2:24:03,  2.13it/s] 62%|██████▏   | 29598/48008 [4:15:00<3:36:00,  1.42it/s] 62%|██████▏   | 29599/48008 [4:15:00<3:20:53,  1.53it/s] 62%|██████▏   | 29600/48008 [4:15:01<3:08:14,  1.63it/s]                                                         {'loss': 4.2912, 'grad_norm': 0.12456224113702774, 'learning_rate': 7.669138476920513e-05, 'epoch': 0.62}
 62%|██████▏   | 29600/48008 [4:15:01<3:08:14,  1.63it/s] 62%|██████▏   | 29601/48008 [4:15:01<2:56:10,  1.74it/s] 62%|██████▏   | 29602/48008 [4:15:02<2:51:00,  1.79it/s] 62%|██████▏   | 29603/48008 [4:15:02<2:47:46,  1.83it/s] 62%|██████▏   | 29604/48008 [4:15:03<2:43:59,  1.87it/s] 62%|██████▏   | 29605/48008 [4:15:03<2:33:10,  2.00it/s] 62%|██████▏   | 29606/48008 [4:15:04<2:31:18,  2.03it/s] 62%|██████▏   | 29607/48008 [4:15:04<2:30:21,  2.04it/s] 62%|██████▏   | 29608/48008 [4:15:05<2:34:57,  1.98it/s] 62%|██████▏   | 29609/48008 [4:15:05<2:35:26,  1.97it/s] 62%|██████▏   | 29610/48008 [4:15:06<2:35:02,  1.98it/s] 62%|██████▏   | 29611/48008 [4:15:07<3:43:53,  1.37it/s] 62%|██████▏   | 29612/48008 [4:15:07<3:21:17,  1.52it/s] 62%|██████▏   | 29613/48008 [4:15:08<2:59:17,  1.71it/s] 62%|██████▏   | 29614/48008 [4:15:08<2:53:49,  1.76it/s] 62%|██████▏   | 29615/48008 [4:15:09<2:40:04,  1.92it/s] 62%|██████▏   | 29616/48008 [4:15:09<2:36:07,  1.96it/s] 62%|██████▏   | 29617/48008 [4:15:10<2:33:54,  1.99it/s] 62%|██████▏   | 29618/48008 [4:15:10<2:32:16,  2.01it/s] 62%|██████▏   | 29619/48008 [4:15:11<2:31:30,  2.02it/s] 62%|██████▏   | 29620/48008 [4:15:11<2:24:16,  2.12it/s] 62%|██████▏   | 29621/48008 [4:15:12<3:37:15,  1.41it/s] 62%|██████▏   | 29622/48008 [4:15:13<3:18:42,  1.54it/s] 62%|██████▏   | 29623/48008 [4:15:13<3:05:44,  1.65it/s] 62%|██████▏   | 29624/48008 [4:15:14<2:56:15,  1.74it/s] 62%|██████▏   | 29625/48008 [4:15:14<3:06:05,  1.65it/s] 62%|██████▏   | 29626/48008 [4:15:15<2:48:18,  1.82it/s] 62%|██████▏   | 29627/48008 [4:15:15<2:42:18,  1.89it/s] 62%|██████▏   | 29628/48008 [4:15:16<2:38:06,  1.94it/s] 62%|██████▏   | 29629/48008 [4:15:16<2:38:36,  1.93it/s] 62%|██████▏   | 29630/48008 [4:15:17<2:35:35,  1.97it/s] 62%|██████▏   | 29631/48008 [4:15:17<2:27:30,  2.08it/s] 62%|██████▏   | 29632/48008 [4:15:18<2:29:55,  2.04it/s] 62%|██████▏   | 29633/48008 [4:15:18<2:30:00,  2.04it/s] 62%|██████▏   | 29634/48008 [4:15:19<2:32:29,  2.01it/s] 62%|██████▏   | 29635/48008 [4:15:19<2:48:37,  1.82it/s] 62%|██████▏   | 29636/48008 [4:15:20<2:59:39,  1.70it/s] 62%|██████▏   | 29637/48008 [4:15:21<2:50:27,  1.80it/s] 62%|██████▏   | 29638/48008 [4:15:21<2:44:18,  1.86it/s] 62%|██████▏   | 29639/48008 [4:15:22<2:39:38,  1.92it/s] 62%|██████▏   | 29640/48008 [4:15:23<3:47:59,  1.34it/s] 62%|██████▏   | 29641/48008 [4:15:23<3:24:24,  1.50it/s] 62%|██████▏   | 29642/48008 [4:15:24<3:07:19,  1.63it/s] 62%|██████▏   | 29643/48008 [4:15:24<2:58:22,  1.72it/s] 62%|██████▏   | 29644/48008 [4:15:25<2:49:04,  1.81it/s] 62%|██████▏   | 29645/48008 [4:15:25<2:42:20,  1.89it/s] 62%|██████▏   | 29646/48008 [4:15:26<2:55:33,  1.74it/s] 62%|██████▏   | 29647/48008 [4:15:26<2:40:56,  1.90it/s] 62%|██████▏   | 29648/48008 [4:15:27<2:54:56,  1.75it/s] 62%|██████▏   | 29649/48008 [4:15:28<2:46:33,  1.84it/s] 62%|██████▏   | 29650/48008 [4:15:28<2:40:40,  1.90it/s]                                                         {'loss': 4.2684, 'grad_norm': 0.10626444965600967, 'learning_rate': 7.648308615230795e-05, 'epoch': 0.62}
 62%|██████▏   | 29650/48008 [4:15:28<2:40:40,  1.90it/s] 62%|██████▏   | 29651/48008 [4:15:29<2:38:26,  1.93it/s] 62%|██████▏   | 29652/48008 [4:15:29<2:35:41,  1.97it/s] 62%|██████▏   | 29653/48008 [4:15:30<2:33:12,  2.00it/s] 62%|██████▏   | 29654/48008 [4:15:31<3:43:28,  1.37it/s] 62%|██████▏   | 29655/48008 [4:15:31<3:23:04,  1.51it/s] 62%|██████▏   | 29656/48008 [4:15:32<3:06:21,  1.64it/s] 62%|██████▏   | 29657/48008 [4:15:32<2:57:11,  1.73it/s] 62%|██████▏   | 29658/48008 [4:15:33<2:51:05,  1.79it/s] 62%|██████▏   | 29659/48008 [4:15:33<2:47:17,  1.83it/s] 62%|██████▏   | 29660/48008 [4:15:34<2:41:25,  1.89it/s] 62%|██████▏   | 29661/48008 [4:15:34<2:39:47,  1.91it/s] 62%|██████▏   | 29662/48008 [4:15:35<2:36:26,  1.95it/s] 62%|██████▏   | 29663/48008 [4:15:35<2:33:56,  1.99it/s] 62%|██████▏   | 29664/48008 [4:15:36<2:34:42,  1.98it/s] 62%|██████▏   | 29665/48008 [4:15:36<2:32:30,  2.00it/s] 62%|██████▏   | 29666/48008 [4:15:37<2:24:57,  2.11it/s] 62%|██████▏   | 29667/48008 [4:15:37<2:42:55,  1.88it/s] 62%|██████▏   | 29668/48008 [4:15:38<2:41:29,  1.89it/s] 62%|██████▏   | 29669/48008 [4:15:38<2:37:16,  1.94it/s] 62%|██████▏   | 29670/48008 [4:15:39<2:28:03,  2.06it/s] 62%|██████▏   | 29671/48008 [4:15:39<2:30:13,  2.03it/s] 62%|██████▏   | 29672/48008 [4:15:40<2:34:49,  1.97it/s] 62%|██████▏   | 29673/48008 [4:15:40<2:34:55,  1.97it/s] 62%|██████▏   | 29674/48008 [4:15:41<2:33:01,  2.00it/s] 62%|██████▏   | 29675/48008 [4:15:41<2:31:43,  2.01it/s] 62%|██████▏   | 29676/48008 [4:15:42<2:24:24,  2.12it/s] 62%|██████▏   | 29677/48008 [4:15:42<2:25:25,  2.10it/s] 62%|██████▏   | 29678/48008 [4:15:43<3:02:17,  1.68it/s] 62%|██████▏   | 29679/48008 [4:15:44<2:52:12,  1.77it/s] 62%|██████▏   | 29680/48008 [4:15:44<2:49:59,  1.80it/s] 62%|██████▏   | 29681/48008 [4:15:45<2:44:39,  1.85it/s] 62%|██████▏   | 29682/48008 [4:15:45<2:40:53,  1.90it/s] 62%|██████▏   | 29683/48008 [4:15:46<2:37:08,  1.94it/s] 62%|██████▏   | 29684/48008 [4:15:46<2:33:58,  1.98it/s] 62%|██████▏   | 29685/48008 [4:15:47<2:34:12,  1.98it/s] 62%|██████▏   | 29686/48008 [4:15:47<2:34:43,  1.97it/s] 62%|██████▏   | 29687/48008 [4:15:48<2:32:08,  2.01it/s] 62%|██████▏   | 29688/48008 [4:15:48<2:30:44,  2.03it/s] 62%|██████▏   | 29689/48008 [4:15:49<2:29:48,  2.04it/s] 62%|██████▏   | 29690/48008 [4:15:49<2:32:32,  2.00it/s] 62%|██████▏   | 29691/48008 [4:15:50<2:31:05,  2.02it/s] 62%|██████▏   | 29692/48008 [4:15:50<2:31:24,  2.02it/s] 62%|██████▏   | 29693/48008 [4:15:51<2:32:16,  2.00it/s] 62%|██████▏   | 29694/48008 [4:15:51<2:30:39,  2.03it/s] 62%|██████▏   | 29695/48008 [4:15:52<3:21:40,  1.51it/s] 62%|██████▏   | 29696/48008 [4:15:53<3:08:35,  1.62it/s] 62%|██████▏   | 29697/48008 [4:15:53<2:58:39,  1.71it/s] 62%|██████▏   | 29698/48008 [4:15:54<2:49:37,  1.80it/s] 62%|██████▏   | 29699/48008 [4:15:54<2:43:10,  1.87it/s] 62%|██████▏   | 29700/48008 [4:15:55<2:38:20,  1.93it/s]                                                         {'loss': 4.2369, 'grad_norm': 0.10001035779714584, 'learning_rate': 7.627478753541077e-05, 'epoch': 0.62} 62%|██████▏   | 29700/48008 [4:15:55<2:38:20,  1.93it/s]
 62%|██████▏   | 29701/48008 [4:15:55<2:28:53,  2.05it/s] 62%|██████▏   | 29702/48008 [4:15:55<2:30:29,  2.03it/s] 62%|██████▏   | 29703/48008 [4:15:56<2:29:37,  2.04it/s] 62%|██████▏   | 29704/48008 [4:15:56<2:31:23,  2.02it/s] 62%|██████▏   | 29705/48008 [4:15:57<2:30:14,  2.03it/s] 62%|██████▏   | 29706/48008 [4:15:57<2:32:30,  2.00it/s] 62%|██████▏   | 29707/48008 [4:15:58<2:32:27,  2.00it/s] 62%|██████▏   | 29708/48008 [4:15:58<2:32:18,  2.00it/s] 62%|██████▏   | 29709/48008 [4:15:59<2:25:06,  2.10it/s] 62%|██████▏   | 29710/48008 [4:15:59<2:19:48,  2.18it/s] 62%|██████▏   | 29711/48008 [4:16:01<3:31:51,  1.44it/s] 62%|██████▏   | 29712/48008 [4:16:01<3:06:26,  1.64it/s] 62%|██████▏   | 29713/48008 [4:16:01<2:54:29,  1.75it/s] 62%|██████▏   | 29714/48008 [4:16:02<2:46:27,  1.83it/s] 62%|██████▏   | 29715/48008 [4:16:02<2:40:37,  1.90it/s] 62%|██████▏   | 29716/48008 [4:16:03<2:30:42,  2.02it/s] 62%|██████▏   | 29717/48008 [4:16:03<2:29:50,  2.03it/s] 62%|██████▏   | 29718/48008 [4:16:04<2:28:56,  2.05it/s] 62%|██████▏   | 29719/48008 [4:16:04<2:22:35,  2.14it/s] 62%|██████▏   | 29720/48008 [4:16:05<2:18:08,  2.21it/s] 62%|██████▏   | 29721/48008 [4:16:05<2:20:51,  2.16it/s] 62%|██████▏   | 29722/48008 [4:16:06<2:58:56,  1.70it/s] 62%|██████▏   | 29723/48008 [4:16:06<2:49:47,  1.79it/s] 62%|██████▏   | 29724/48008 [4:16:07<2:45:55,  1.84it/s] 62%|██████▏   | 29725/48008 [4:16:07<2:34:02,  1.98it/s] 62%|██████▏   | 29726/48008 [4:16:08<2:23:01,  2.13it/s] 62%|██████▏   | 29727/48008 [4:16:08<2:24:36,  2.11it/s] 62%|██████▏   | 29728/48008 [4:16:09<2:24:52,  2.10it/s] 62%|██████▏   | 29729/48008 [4:16:09<2:28:03,  2.06it/s] 62%|██████▏   | 29730/48008 [4:16:10<2:28:27,  2.05it/s] 62%|██████▏   | 29731/48008 [4:16:10<2:31:32,  2.01it/s] 62%|██████▏   | 29732/48008 [4:16:11<2:24:18,  2.11it/s] 62%|██████▏   | 29733/48008 [4:16:11<2:29:01,  2.04it/s] 62%|██████▏   | 29734/48008 [4:16:12<2:28:41,  2.05it/s] 62%|██████▏   | 29735/48008 [4:16:12<2:45:51,  1.84it/s] 62%|██████▏   | 29736/48008 [4:16:13<2:40:12,  1.90it/s] 62%|██████▏   | 29737/48008 [4:16:13<2:36:21,  1.95it/s] 62%|██████▏   | 29738/48008 [4:16:14<2:33:51,  1.98it/s] 62%|██████▏   | 29739/48008 [4:16:14<2:31:25,  2.01it/s] 62%|██████▏   | 29740/48008 [4:16:15<2:29:45,  2.03it/s] 62%|██████▏   | 29741/48008 [4:16:15<2:28:36,  2.05it/s] 62%|██████▏   | 29742/48008 [4:16:16<2:27:53,  2.06it/s] 62%|██████▏   | 29743/48008 [4:16:16<2:29:26,  2.04it/s] 62%|██████▏   | 29744/48008 [4:16:17<2:32:17,  2.00it/s] 62%|██████▏   | 29745/48008 [4:16:17<2:30:53,  2.02it/s] 62%|██████▏   | 29746/48008 [4:16:18<2:31:34,  2.01it/s] 62%|██████▏   | 29747/48008 [4:16:18<2:30:19,  2.02it/s] 62%|██████▏   | 29748/48008 [4:16:19<2:28:51,  2.04it/s] 62%|██████▏   | 29749/48008 [4:16:19<2:30:26,  2.02it/s] 62%|██████▏   | 29750/48008 [4:16:20<3:05:50,  1.64it/s]                                                         {'loss': 4.2773, 'grad_norm': 0.09554041177034378, 'learning_rate': 7.606648891851358e-05, 'epoch': 0.62}
 62%|██████▏   | 29750/48008 [4:16:20<3:05:50,  1.64it/s] 62%|██████▏   | 29751/48008 [4:16:21<2:54:06,  1.75it/s] 62%|██████▏   | 29752/48008 [4:16:21<2:47:58,  1.81it/s] 62%|██████▏   | 29753/48008 [4:16:22<2:43:20,  1.86it/s] 62%|██████▏   | 29754/48008 [4:16:22<2:38:29,  1.92it/s] 62%|██████▏   | 29755/48008 [4:16:23<2:36:23,  1.95it/s] 62%|██████▏   | 29756/48008 [4:16:23<2:33:42,  1.98it/s] 62%|██████▏   | 29757/48008 [4:16:24<2:37:12,  1.93it/s] 62%|██████▏   | 29758/48008 [4:16:24<2:36:30,  1.94it/s] 62%|██████▏   | 29759/48008 [4:16:25<2:33:22,  1.98it/s] 62%|██████▏   | 29760/48008 [4:16:25<2:34:53,  1.96it/s] 62%|██████▏   | 29761/48008 [4:16:26<2:26:22,  2.08it/s] 62%|██████▏   | 29762/48008 [4:16:26<2:26:44,  2.07it/s] 62%|██████▏   | 29763/48008 [4:16:27<2:30:03,  2.03it/s] 62%|██████▏   | 29764/48008 [4:16:27<2:28:48,  2.04it/s] 62%|██████▏   | 29765/48008 [4:16:28<2:30:19,  2.02it/s] 62%|██████▏   | 29766/48008 [4:16:28<2:31:51,  2.00it/s] 62%|██████▏   | 29767/48008 [4:16:29<2:31:02,  2.01it/s] 62%|██████▏   | 29768/48008 [4:16:29<2:23:48,  2.11it/s] 62%|██████▏   | 29769/48008 [4:16:29<2:24:44,  2.10it/s] 62%|██████▏   | 29770/48008 [4:16:30<2:25:19,  2.09it/s] 62%|██████▏   | 29771/48008 [4:16:30<2:27:38,  2.06it/s] 62%|██████▏   | 29772/48008 [4:16:31<2:30:40,  2.02it/s] 62%|██████▏   | 29773/48008 [4:16:31<2:32:08,  2.00it/s] 62%|██████▏   | 29774/48008 [4:16:32<2:32:48,  1.99it/s] 62%|██████▏   | 29775/48008 [4:16:32<2:30:56,  2.01it/s] 62%|██████▏   | 29776/48008 [4:16:33<2:30:00,  2.03it/s] 62%|██████▏   | 29777/48008 [4:16:33<2:28:47,  2.04it/s] 62%|██████▏   | 29778/48008 [4:16:34<2:28:32,  2.05it/s] 62%|██████▏   | 29779/48008 [4:16:34<2:27:36,  2.06it/s] 62%|██████▏   | 29780/48008 [4:16:35<2:29:05,  2.04it/s] 62%|██████▏   | 29781/48008 [4:16:35<2:30:05,  2.02it/s] 62%|██████▏   | 29782/48008 [4:16:36<2:28:19,  2.05it/s] 62%|██████▏   | 29783/48008 [4:16:36<2:22:01,  2.14it/s] 62%|██████▏   | 29784/48008 [4:16:37<2:26:07,  2.08it/s] 62%|██████▏   | 29785/48008 [4:16:37<2:29:44,  2.03it/s] 62%|██████▏   | 29786/48008 [4:16:38<2:28:52,  2.04it/s] 62%|██████▏   | 29787/48008 [4:16:39<3:39:50,  1.38it/s] 62%|██████▏   | 29788/48008 [4:16:40<3:18:03,  1.53it/s] 62%|██████▏   | 29789/48008 [4:16:40<3:02:58,  1.66it/s] 62%|██████▏   | 29790/48008 [4:16:41<2:52:26,  1.76it/s] 62%|██████▏   | 29791/48008 [4:16:41<2:44:39,  1.84it/s] 62%|██████▏   | 29792/48008 [4:16:42<2:40:51,  1.89it/s] 62%|██████▏   | 29793/48008 [4:16:42<2:36:55,  1.93it/s] 62%|██████▏   | 29794/48008 [4:16:42<2:33:28,  1.98it/s] 62%|██████▏   | 29795/48008 [4:16:44<3:42:12,  1.37it/s] 62%|██████▏   | 29796/48008 [4:16:44<3:13:51,  1.57it/s] 62%|██████▏   | 29797/48008 [4:16:45<3:00:05,  1.69it/s] 62%|██████▏   | 29798/48008 [4:16:45<2:51:49,  1.77it/s] 62%|██████▏   | 29799/48008 [4:16:46<2:49:25,  1.79it/s] 62%|██████▏   | 29800/48008 [4:16:46<2:59:58,  1.69it/s]                                                         {'loss': 4.2737, 'grad_norm': 0.09456098824739456, 'learning_rate': 7.58581903016164e-05, 'epoch': 0.62}
 62%|██████▏   | 29800/48008 [4:16:46<2:59:58,  1.69it/s] 62%|██████▏   | 29801/48008 [4:16:47<2:44:01,  1.85it/s] 62%|██████▏   | 29802/48008 [4:16:47<2:39:12,  1.91it/s] 62%|██████▏   | 29803/48008 [4:16:48<2:38:28,  1.91it/s] 62%|██████▏   | 29804/48008 [4:16:48<2:38:43,  1.91it/s] 62%|██████▏   | 29805/48008 [4:16:49<2:37:04,  1.93it/s] 62%|██████▏   | 29806/48008 [4:16:49<2:39:00,  1.91it/s] 62%|██████▏   | 29807/48008 [4:16:50<2:40:20,  1.89it/s] 62%|██████▏   | 29808/48008 [4:16:50<2:36:27,  1.94it/s] 62%|██████▏   | 29809/48008 [4:16:52<3:43:32,  1.36it/s] 62%|██████▏   | 29810/48008 [4:16:52<3:14:15,  1.56it/s] 62%|██████▏   | 29811/48008 [4:16:53<3:00:35,  1.68it/s] 62%|██████▏   | 29812/48008 [4:16:53<2:52:43,  1.76it/s] 62%|██████▏   | 29813/48008 [4:16:54<2:44:21,  1.85it/s] 62%|██████▏   | 29814/48008 [4:16:54<2:38:57,  1.91it/s] 62%|██████▏   | 29815/48008 [4:16:55<2:35:44,  1.95it/s] 62%|██████▏   | 29816/48008 [4:16:55<2:36:18,  1.94it/s] 62%|██████▏   | 29817/48008 [4:16:56<2:38:46,  1.91it/s] 62%|██████▏   | 29818/48008 [4:16:56<2:38:08,  1.92it/s] 62%|██████▏   | 29819/48008 [4:16:57<2:40:23,  1.89it/s] 62%|██████▏   | 29820/48008 [4:16:57<2:36:32,  1.94it/s] 62%|██████▏   | 29821/48008 [4:16:58<2:35:05,  1.95it/s] 62%|██████▏   | 29822/48008 [4:16:58<2:32:49,  1.98it/s] 62%|██████▏   | 29823/48008 [4:16:59<2:30:35,  2.01it/s] 62%|██████▏   | 29824/48008 [4:16:59<2:29:42,  2.02it/s] 62%|██████▏   | 29825/48008 [4:16:59<2:22:30,  2.13it/s] 62%|██████▏   | 29826/48008 [4:17:00<2:23:27,  2.11it/s] 62%|██████▏   | 29827/48008 [4:17:00<2:18:28,  2.19it/s] 62%|██████▏   | 29828/48008 [4:17:01<2:21:11,  2.15it/s] 62%|██████▏   | 29829/48008 [4:17:01<2:24:37,  2.09it/s] 62%|██████▏   | 29830/48008 [4:17:02<2:24:27,  2.10it/s] 62%|██████▏   | 29831/48008 [4:17:02<2:24:38,  2.09it/s] 62%|██████▏   | 29832/48008 [4:17:03<2:24:32,  2.10it/s] 62%|██████▏   | 29833/48008 [4:17:03<2:42:16,  1.87it/s] 62%|██████▏   | 29834/48008 [4:17:04<2:37:38,  1.92it/s] 62%|██████▏   | 29835/48008 [4:17:04<2:33:55,  1.97it/s] 62%|██████▏   | 29836/48008 [4:17:05<2:31:39,  2.00it/s] 62%|██████▏   | 29837/48008 [4:17:05<2:29:50,  2.02it/s] 62%|██████▏   | 29838/48008 [4:17:06<2:46:25,  1.82it/s] 62%|██████▏   | 29839/48008 [4:17:07<2:40:35,  1.89it/s] 62%|██████▏   | 29840/48008 [4:17:07<2:36:03,  1.94it/s] 62%|██████▏   | 29841/48008 [4:17:07<2:26:56,  2.06it/s] 62%|██████▏   | 29842/48008 [4:17:08<2:30:31,  2.01it/s] 62%|██████▏   | 29843/48008 [4:17:09<2:46:34,  1.82it/s] 62%|██████▏   | 29844/48008 [4:17:09<2:40:55,  1.88it/s] 62%|██████▏   | 29845/48008 [4:17:10<2:38:13,  1.91it/s] 62%|██████▏   | 29846/48008 [4:17:10<2:34:22,  1.96it/s] 62%|██████▏   | 29847/48008 [4:17:11<2:32:16,  1.99it/s] 62%|██████▏   | 29848/48008 [4:17:11<2:30:18,  2.01it/s] 62%|██████▏   | 29849/48008 [4:17:12<2:31:12,  2.00it/s] 62%|██████▏   | 29850/48008 [4:17:12<2:29:38,  2.02it/s]                                                         {'loss': 4.285, 'grad_norm': 0.09681292623281479, 'learning_rate': 7.564989168471922e-05, 'epoch': 0.62}
 62%|██████▏   | 29850/48008 [4:17:12<2:29:38,  2.02it/s] 62%|██████▏   | 29851/48008 [4:17:13<2:23:03,  2.12it/s] 62%|██████▏   | 29852/48008 [4:17:13<2:25:57,  2.07it/s] 62%|██████▏   | 29853/48008 [4:17:13<2:20:16,  2.16it/s] 62%|██████▏   | 29854/48008 [4:17:14<2:22:03,  2.13it/s] 62%|██████▏   | 29855/48008 [4:17:14<2:25:09,  2.08it/s] 62%|██████▏   | 29856/48008 [4:17:15<2:19:31,  2.17it/s] 62%|██████▏   | 29857/48008 [4:17:15<2:15:53,  2.23it/s] 62%|██████▏   | 29858/48008 [4:17:16<2:24:00,  2.10it/s] 62%|██████▏   | 29859/48008 [4:17:16<2:25:10,  2.08it/s] 62%|██████▏   | 29860/48008 [4:17:17<2:43:21,  1.85it/s] 62%|██████▏   | 29861/48008 [4:17:17<2:42:10,  1.87it/s] 62%|██████▏   | 29862/48008 [4:17:18<2:36:48,  1.93it/s] 62%|██████▏   | 29863/48008 [4:17:18<2:27:51,  2.05it/s] 62%|██████▏   | 29864/48008 [4:17:19<2:21:45,  2.13it/s] 62%|██████▏   | 29865/48008 [4:17:19<2:23:23,  2.11it/s] 62%|██████▏   | 29866/48008 [4:17:20<2:18:33,  2.18it/s] 62%|██████▏   | 29867/48008 [4:17:20<2:14:43,  2.24it/s] 62%|██████▏   | 29868/48008 [4:17:21<2:18:33,  2.18it/s] 62%|██████▏   | 29869/48008 [4:17:21<2:23:03,  2.11it/s] 62%|██████▏   | 29870/48008 [4:17:22<3:00:31,  1.67it/s] 62%|██████▏   | 29871/48008 [4:17:22<2:44:08,  1.84it/s] 62%|██████▏   | 29872/48008 [4:17:23<2:55:36,  1.72it/s] 62%|██████▏   | 29873/48008 [4:17:24<3:56:23,  1.28it/s] 62%|██████▏   | 29874/48008 [4:17:25<3:32:10,  1.42it/s] 62%|██████▏   | 29875/48008 [4:17:25<3:12:41,  1.57it/s] 62%|██████▏   | 29876/48008 [4:17:26<2:59:24,  1.68it/s] 62%|██████▏   | 29877/48008 [4:17:26<2:43:42,  1.85it/s] 62%|██████▏   | 29878/48008 [4:17:28<3:48:13,  1.32it/s] 62%|██████▏   | 29879/48008 [4:17:28<3:18:12,  1.52it/s] 62%|██████▏   | 29880/48008 [4:17:28<3:02:31,  1.66it/s] 62%|██████▏   | 29881/48008 [4:17:29<2:54:34,  1.73it/s] 62%|██████▏   | 29882/48008 [4:17:29<2:39:59,  1.89it/s] 62%|██████▏   | 29883/48008 [4:17:30<2:35:40,  1.94it/s] 62%|██████▏   | 29884/48008 [4:17:30<2:32:41,  1.98it/s] 62%|██████▏   | 29885/48008 [4:17:31<2:31:06,  2.00it/s] 62%|██████▏   | 29886/48008 [4:17:31<2:31:35,  1.99it/s] 62%|██████▏   | 29887/48008 [4:17:32<2:29:56,  2.01it/s] 62%|██████▏   | 29888/48008 [4:17:32<2:31:17,  2.00it/s] 62%|██████▏   | 29889/48008 [4:17:33<2:29:23,  2.02it/s] 62%|██████▏   | 29890/48008 [4:17:33<2:28:26,  2.03it/s] 62%|██████▏   | 29891/48008 [4:17:34<2:27:40,  2.04it/s] 62%|██████▏   | 29892/48008 [4:17:34<2:29:18,  2.02it/s] 62%|██████▏   | 29893/48008 [4:17:35<2:28:43,  2.03it/s] 62%|██████▏   | 29894/48008 [4:17:35<2:27:22,  2.05it/s] 62%|██████▏   | 29895/48008 [4:17:36<2:29:10,  2.02it/s] 62%|██████▏   | 29896/48008 [4:17:36<2:27:56,  2.04it/s] 62%|██████▏   | 29897/48008 [4:17:37<2:27:33,  2.05it/s] 62%|██████▏   | 29898/48008 [4:17:37<2:27:00,  2.05it/s] 62%|██████▏   | 29899/48008 [4:17:38<2:30:48,  2.00it/s] 62%|██████▏   | 29900/48008 [4:17:38<2:23:24,  2.10it/s]                                                         {'loss': 4.2418, 'grad_norm': 0.10063529759645462, 'learning_rate': 7.544159306782204e-05, 'epoch': 0.62} 62%|██████▏   | 29900/48008 [4:17:38<2:23:24,  2.10it/s]
 62%|██████▏   | 29901/48008 [4:17:39<2:24:51,  2.08it/s] 62%|██████▏   | 29902/48008 [4:17:39<2:29:01,  2.02it/s] 62%|██████▏   | 29903/48008 [4:17:40<2:27:58,  2.04it/s] 62%|██████▏   | 29904/48008 [4:17:40<2:31:13,  2.00it/s] 62%|██████▏   | 29905/48008 [4:17:41<2:29:26,  2.02it/s] 62%|██████▏   | 29906/48008 [4:17:41<2:28:26,  2.03it/s] 62%|██████▏   | 29907/48008 [4:17:42<2:28:11,  2.04it/s] 62%|██████▏   | 29908/48008 [4:17:42<2:30:06,  2.01it/s] 62%|██████▏   | 29909/48008 [4:17:43<2:23:15,  2.11it/s] 62%|██████▏   | 29910/48008 [4:17:43<2:24:19,  2.09it/s] 62%|██████▏   | 29911/48008 [4:17:44<2:26:34,  2.06it/s] 62%|██████▏   | 29912/48008 [4:17:44<2:31:15,  1.99it/s] 62%|██████▏   | 29913/48008 [4:17:45<2:23:49,  2.10it/s] 62%|██████▏   | 29914/48008 [4:17:45<2:24:37,  2.09it/s] 62%|██████▏   | 29915/48008 [4:17:45<2:25:33,  2.07it/s] 62%|██████▏   | 29916/48008 [4:17:46<2:20:06,  2.15it/s] 62%|██████▏   | 29917/48008 [4:17:46<2:21:40,  2.13it/s] 62%|██████▏   | 29918/48008 [4:17:47<2:23:26,  2.10it/s] 62%|██████▏   | 29919/48008 [4:17:47<2:18:15,  2.18it/s] 62%|██████▏   | 29920/48008 [4:17:48<2:22:43,  2.11it/s] 62%|██████▏   | 29921/48008 [4:17:48<2:23:46,  2.10it/s] 62%|██████▏   | 29922/48008 [4:17:49<2:24:00,  2.09it/s] 62%|██████▏   | 29923/48008 [4:17:49<2:24:14,  2.09it/s] 62%|██████▏   | 29924/48008 [4:17:50<2:24:18,  2.09it/s] 62%|██████▏   | 29925/48008 [4:17:50<2:27:22,  2.05it/s] 62%|██████▏   | 29926/48008 [4:17:51<2:28:49,  2.03it/s] 62%|██████▏   | 29927/48008 [4:17:51<2:27:58,  2.04it/s] 62%|██████▏   | 29928/48008 [4:17:52<2:27:17,  2.05it/s] 62%|██████▏   | 29929/48008 [4:17:52<2:20:59,  2.14it/s] 62%|██████▏   | 29930/48008 [4:17:53<2:22:09,  2.12it/s] 62%|██████▏   | 29931/48008 [4:17:53<2:22:31,  2.11it/s] 62%|██████▏   | 29932/48008 [4:17:54<2:25:27,  2.07it/s] 62%|██████▏   | 29933/48008 [4:17:54<2:25:27,  2.07it/s] 62%|██████▏   | 29934/48008 [4:17:55<2:30:45,  2.00it/s] 62%|██████▏   | 29935/48008 [4:17:55<2:23:08,  2.10it/s] 62%|██████▏   | 29936/48008 [4:17:56<2:23:34,  2.10it/s] 62%|██████▏   | 29937/48008 [4:17:56<2:27:23,  2.04it/s] 62%|██████▏   | 29938/48008 [4:17:57<2:26:42,  2.05it/s] 62%|██████▏   | 29939/48008 [4:17:57<2:31:23,  1.99it/s] 62%|██████▏   | 29940/48008 [4:17:58<2:31:42,  1.98it/s] 62%|██████▏   | 29941/48008 [4:17:58<2:31:31,  1.99it/s] 62%|██████▏   | 29942/48008 [4:17:59<2:29:06,  2.02it/s] 62%|██████▏   | 29943/48008 [4:17:59<2:45:01,  1.82it/s] 62%|██████▏   | 29944/48008 [4:18:00<2:42:29,  1.85it/s] 62%|██████▏   | 29945/48008 [4:18:00<2:31:15,  1.99it/s] 62%|██████▏   | 29946/48008 [4:18:01<2:29:44,  2.01it/s] 62%|██████▏   | 29947/48008 [4:18:01<2:29:51,  2.01it/s] 62%|██████▏   | 29948/48008 [4:18:02<2:27:52,  2.04it/s] 62%|██████▏   | 29949/48008 [4:18:02<2:27:12,  2.04it/s] 62%|██████▏   | 29950/48008 [4:18:03<2:21:07,  2.13it/s]                                                         {'loss': 4.2153, 'grad_norm': 0.10209718346595764, 'learning_rate': 7.523329445092485e-05, 'epoch': 0.62} 62%|██████▏   | 29950/48008 [4:18:03<2:21:07,  2.13it/s]
 62%|██████▏   | 29951/48008 [4:18:03<2:24:40,  2.08it/s] 62%|██████▏   | 29952/48008 [4:18:04<3:34:16,  1.40it/s] 62%|██████▏   | 29953/48008 [4:18:05<3:16:24,  1.53it/s] 62%|██████▏   | 29954/48008 [4:18:05<3:19:26,  1.51it/s] 62%|██████▏   | 29955/48008 [4:18:06<3:05:21,  1.62it/s] 62%|██████▏   | 29956/48008 [4:18:06<2:53:48,  1.73it/s] 62%|██████▏   | 29957/48008 [4:18:07<2:39:26,  1.89it/s] 62%|██████▏   | 29958/48008 [4:18:07<2:38:27,  1.90it/s] 62%|██████▏   | 29959/48008 [4:18:08<2:34:14,  1.95it/s] 62%|██████▏   | 29960/48008 [4:18:08<2:33:46,  1.96it/s] 62%|██████▏   | 29961/48008 [4:18:09<2:31:35,  1.98it/s] 62%|██████▏   | 29962/48008 [4:18:09<2:34:48,  1.94it/s] 62%|██████▏   | 29963/48008 [4:18:10<3:08:03,  1.60it/s] 62%|██████▏   | 29964/48008 [4:18:11<3:30:59,  1.43it/s] 62%|██████▏   | 29965/48008 [4:18:12<3:14:10,  1.55it/s] 62%|██████▏   | 29966/48008 [4:18:12<3:02:24,  1.65it/s] 62%|██████▏   | 29967/48008 [4:18:13<2:51:28,  1.75it/s] 62%|██████▏   | 29968/48008 [4:18:13<2:43:08,  1.84it/s] 62%|██████▏   | 29969/48008 [4:18:14<2:41:11,  1.87it/s] 62%|██████▏   | 29970/48008 [4:18:14<2:36:29,  1.92it/s] 62%|██████▏   | 29971/48008 [4:18:15<2:34:58,  1.94it/s] 62%|██████▏   | 29972/48008 [4:18:15<2:31:46,  1.98it/s] 62%|██████▏   | 29973/48008 [4:18:16<2:35:06,  1.94it/s] 62%|██████▏   | 29974/48008 [4:18:16<2:32:08,  1.98it/s] 62%|██████▏   | 29975/48008 [4:18:17<2:25:03,  2.07it/s] 62%|██████▏   | 29976/48008 [4:18:17<2:30:20,  2.00it/s] 62%|██████▏   | 29977/48008 [4:18:18<2:28:52,  2.02it/s] 62%|██████▏   | 29978/48008 [4:18:18<2:29:49,  2.01it/s] 62%|██████▏   | 29979/48008 [4:18:19<2:31:14,  1.99it/s] 62%|██████▏   | 29980/48008 [4:18:19<2:31:12,  1.99it/s] 62%|██████▏   | 29981/48008 [4:18:20<2:32:49,  1.97it/s] 62%|██████▏   | 29982/48008 [4:18:20<2:24:24,  2.08it/s] 62%|██████▏   | 29983/48008 [4:18:21<2:27:32,  2.04it/s] 62%|██████▏   | 29984/48008 [4:18:21<2:26:54,  2.04it/s] 62%|██████▏   | 29985/48008 [4:18:22<2:26:21,  2.05it/s] 62%|██████▏   | 29986/48008 [4:18:22<2:28:05,  2.03it/s] 62%|██████▏   | 29987/48008 [4:18:23<2:26:57,  2.04it/s] 62%|██████▏   | 29988/48008 [4:18:23<2:28:26,  2.02it/s] 62%|██████▏   | 29989/48008 [4:18:24<2:26:51,  2.05it/s] 62%|██████▏   | 29990/48008 [4:18:24<2:28:16,  2.03it/s] 62%|██████▏   | 29991/48008 [4:18:24<2:21:15,  2.13it/s] 62%|██████▏   | 29992/48008 [4:18:25<2:24:29,  2.08it/s] 62%|██████▏   | 29993/48008 [4:18:26<2:41:41,  1.86it/s] 62%|██████▏   | 29994/48008 [4:18:26<2:36:18,  1.92it/s] 62%|██████▏   | 29995/48008 [4:18:27<2:33:05,  1.96it/s] 62%|██████▏   | 29996/48008 [4:18:27<2:35:33,  1.93it/s] 62%|██████▏   | 29997/48008 [4:18:28<2:34:16,  1.95it/s] 62%|██████▏   | 29998/48008 [4:18:28<2:31:27,  1.98it/s] 62%|██████▏   | 29999/48008 [4:18:29<2:29:59,  2.00it/s] 62%|██████▏   | 30000/48008 [4:18:29<2:33:58,  1.95it/s]                                                         {'loss': 4.2917, 'grad_norm': 0.08727554976940155, 'learning_rate': 7.502499583402767e-05, 'epoch': 0.62}
 62%|██████▏   | 30000/48008 [4:18:29<2:33:58,  1.95it/s] 62%|██████▏   | 30001/48008 [4:18:30<3:07:09,  1.60it/s] 62%|██████▏   | 30002/48008 [4:18:31<2:58:20,  1.68it/s] 62%|██████▏   | 30003/48008 [4:18:31<2:48:10,  1.78it/s] 62%|██████▏   | 30004/48008 [4:18:32<2:41:15,  1.86it/s] 62%|██████▎   | 30005/48008 [4:18:32<2:36:19,  1.92it/s] 63%|██████▎   | 30006/48008 [4:18:33<2:32:49,  1.96it/s] 63%|██████▎   | 30007/48008 [4:18:33<2:33:30,  1.95it/s] 63%|██████▎   | 30008/48008 [4:18:33<2:25:09,  2.07it/s] 63%|██████▎   | 30009/48008 [4:18:34<2:26:41,  2.05it/s] 63%|██████▎   | 30010/48008 [4:18:35<2:43:51,  1.83it/s] 63%|██████▎   | 30011/48008 [4:18:35<2:38:27,  1.89it/s] 63%|██████▎   | 30012/48008 [4:18:36<2:36:35,  1.92it/s] 63%|██████▎   | 30013/48008 [4:18:36<2:35:00,  1.93it/s] 63%|██████▎   | 30014/48008 [4:18:37<2:25:58,  2.05it/s] 63%|██████▎   | 30015/48008 [4:18:37<2:25:39,  2.06it/s] 63%|██████▎   | 30016/48008 [4:18:38<2:27:34,  2.03it/s] 63%|██████▎   | 30017/48008 [4:18:38<2:29:20,  2.01it/s] 63%|██████▎   | 30018/48008 [4:18:39<2:27:39,  2.03it/s] 63%|██████▎   | 30019/48008 [4:18:39<2:28:42,  2.02it/s] 63%|██████▎   | 30020/48008 [4:18:40<2:27:53,  2.03it/s] 63%|██████▎   | 30021/48008 [4:18:40<2:26:41,  2.04it/s] 63%|██████▎   | 30022/48008 [4:18:41<3:01:43,  1.65it/s] 63%|██████▎   | 30023/48008 [4:18:41<2:50:22,  1.76it/s] 63%|██████▎   | 30024/48008 [4:18:42<2:46:03,  1.81it/s] 63%|██████▎   | 30025/48008 [4:18:42<2:33:53,  1.95it/s] 63%|██████▎   | 30026/48008 [4:18:43<2:31:06,  1.98it/s] 63%|██████▎   | 30027/48008 [4:18:43<2:30:03,  2.00it/s] 63%|██████▎   | 30028/48008 [4:18:44<2:28:17,  2.02it/s] 63%|██████▎   | 30029/48008 [4:18:44<2:28:01,  2.02it/s] 63%|██████▎   | 30030/48008 [4:18:45<3:03:39,  1.63it/s] 63%|██████▎   | 30031/48008 [4:18:46<2:56:39,  1.70it/s] 63%|██████▎   | 30032/48008 [4:18:46<2:51:25,  1.75it/s] 63%|██████▎   | 30033/48008 [4:18:47<2:37:18,  1.90it/s] 63%|██████▎   | 30034/48008 [4:18:47<2:38:22,  1.89it/s] 63%|██████▎   | 30035/48008 [4:18:48<2:34:34,  1.94it/s] 63%|██████▎   | 30036/48008 [4:18:48<2:32:16,  1.97it/s] 63%|██████▎   | 30037/48008 [4:18:49<2:32:17,  1.97it/s] 63%|██████▎   | 30038/48008 [4:18:49<2:31:58,  1.97it/s] 63%|██████▎   | 30039/48008 [4:18:50<2:29:43,  2.00it/s] 63%|██████▎   | 30040/48008 [4:18:51<3:38:19,  1.37it/s] 63%|██████▎   | 30041/48008 [4:18:51<3:19:26,  1.50it/s] 63%|██████▎   | 30042/48008 [4:18:52<3:04:56,  1.62it/s] 63%|██████▎   | 30043/48008 [4:18:52<2:47:01,  1.79it/s] 63%|██████▎   | 30044/48008 [4:18:53<2:44:20,  1.82it/s] 63%|██████▎   | 30045/48008 [4:18:53<2:41:56,  1.85it/s] 63%|██████▎   | 30046/48008 [4:18:54<2:38:07,  1.89it/s] 63%|██████▎   | 30047/48008 [4:18:54<2:36:02,  1.92it/s] 63%|██████▎   | 30048/48008 [4:18:55<3:07:28,  1.60it/s] 63%|██████▎   | 30049/48008 [4:18:56<2:55:10,  1.71it/s] 63%|██████▎   | 30050/48008 [4:18:56<2:40:24,  1.87it/s]                                                         {'loss': 4.3221, 'grad_norm': 0.09882407635450363, 'learning_rate': 7.481669721713049e-05, 'epoch': 0.63} 63%|██████▎   | 30050/48008 [4:18:56<2:40:24,  1.87it/s]
 63%|██████▎   | 30051/48008 [4:18:57<2:39:02,  1.88it/s] 63%|██████▎   | 30052/48008 [4:18:57<2:34:15,  1.94it/s] 63%|██████▎   | 30053/48008 [4:18:58<2:36:54,  1.91it/s] 63%|██████▎   | 30054/48008 [4:18:58<2:33:19,  1.95it/s] 63%|██████▎   | 30055/48008 [4:18:59<2:31:05,  1.98it/s] 63%|██████▎   | 30056/48008 [4:18:59<2:23:25,  2.09it/s] 63%|██████▎   | 30057/48008 [4:19:00<2:25:50,  2.05it/s] 63%|██████▎   | 30058/48008 [4:19:00<2:42:41,  1.84it/s] 63%|██████▎   | 30059/48008 [4:19:01<2:37:25,  1.90it/s] 63%|██████▎   | 30060/48008 [4:19:01<2:33:48,  1.94it/s] 63%|██████▎   | 30061/48008 [4:19:02<2:30:39,  1.99it/s] 63%|██████▎   | 30062/48008 [4:19:02<2:22:58,  2.09it/s] 63%|██████▎   | 30063/48008 [4:19:03<2:25:29,  2.06it/s] 63%|██████▎   | 30064/48008 [4:19:03<2:24:53,  2.06it/s] 63%|██████▎   | 30065/48008 [4:19:04<2:26:43,  2.04it/s] 63%|██████▎   | 30066/48008 [4:19:04<2:29:13,  2.00it/s] 63%|██████▎   | 30067/48008 [4:19:05<2:27:58,  2.02it/s] 63%|██████▎   | 30068/48008 [4:19:05<2:28:46,  2.01it/s] 63%|██████▎   | 30069/48008 [4:19:06<2:26:56,  2.03it/s] 63%|██████▎   | 30070/48008 [4:19:06<2:26:33,  2.04it/s] 63%|██████▎   | 30071/48008 [4:19:07<2:28:21,  2.01it/s] 63%|██████▎   | 30072/48008 [4:19:07<2:32:25,  1.96it/s] 63%|██████▎   | 30073/48008 [4:19:08<2:30:18,  1.99it/s] 63%|██████▎   | 30074/48008 [4:19:08<2:32:18,  1.96it/s] 63%|██████▎   | 30075/48008 [4:19:09<2:33:30,  1.95it/s] 63%|██████▎   | 30076/48008 [4:19:09<2:31:00,  1.98it/s] 63%|██████▎   | 30077/48008 [4:19:10<2:32:39,  1.96it/s] 63%|██████▎   | 30078/48008 [4:19:10<2:32:11,  1.96it/s] 63%|██████▎   | 30079/48008 [4:19:11<2:29:57,  1.99it/s] 63%|██████▎   | 30080/48008 [4:19:11<2:22:20,  2.10it/s] 63%|██████▎   | 30081/48008 [4:19:12<2:17:26,  2.17it/s] 63%|██████▎   | 30082/48008 [4:19:12<2:14:09,  2.23it/s] 63%|██████▎   | 30083/48008 [4:19:12<2:17:42,  2.17it/s] 63%|██████▎   | 30084/48008 [4:19:13<2:19:46,  2.14it/s] 63%|██████▎   | 30085/48008 [4:19:13<2:21:12,  2.12it/s] 63%|██████▎   | 30086/48008 [4:19:14<2:24:06,  2.07it/s] 63%|██████▎   | 30087/48008 [4:19:15<2:42:19,  1.84it/s] 63%|██████▎   | 30088/48008 [4:19:15<2:38:42,  1.88it/s] 63%|██████▎   | 30089/48008 [4:19:16<2:39:23,  1.87it/s] 63%|██████▎   | 30090/48008 [4:19:16<2:35:00,  1.93it/s] 63%|██████▎   | 30091/48008 [4:19:17<2:35:36,  1.92it/s] 63%|██████▎   | 30092/48008 [4:19:18<3:40:57,  1.35it/s] 63%|██████▎   | 30093/48008 [4:19:19<4:28:13,  1.11it/s] 63%|██████▎   | 30094/48008 [4:19:20<3:52:56,  1.28it/s] 63%|██████▎   | 30095/48008 [4:19:20<3:26:19,  1.45it/s] 63%|██████▎   | 30096/48008 [4:19:21<3:24:46,  1.46it/s] 63%|██████▎   | 30097/48008 [4:19:21<3:06:56,  1.60it/s] 63%|██████▎   | 30098/48008 [4:19:23<4:02:55,  1.23it/s] 63%|██████▎   | 30099/48008 [4:19:23<3:27:29,  1.44it/s] 63%|██████▎   | 30100/48008 [4:19:23<3:07:52,  1.59it/s]                                                         {'loss': 4.2696, 'grad_norm': 0.08750496804714203, 'learning_rate': 7.460839860023329e-05, 'epoch': 0.63}
 63%|██████▎   | 30100/48008 [4:19:23<3:07:52,  1.59it/s] 63%|██████▎   | 30101/48008 [4:19:24<2:57:14,  1.68it/s] 63%|██████▎   | 30102/48008 [4:19:24<2:41:41,  1.85it/s] 63%|██████▎   | 30103/48008 [4:19:25<2:36:37,  1.91it/s] 63%|██████▎   | 30104/48008 [4:19:25<2:37:06,  1.90it/s] 63%|██████▎   | 30105/48008 [4:19:26<2:33:14,  1.95it/s] 63%|██████▎   | 30106/48008 [4:19:26<2:30:06,  1.99it/s] 63%|██████▎   | 30107/48008 [4:19:27<2:28:55,  2.00it/s] 63%|██████▎   | 30108/48008 [4:19:27<2:27:44,  2.02it/s] 63%|██████▎   | 30109/48008 [4:19:28<2:20:41,  2.12it/s] 63%|██████▎   | 30110/48008 [4:19:28<2:22:14,  2.10it/s] 63%|██████▎   | 30111/48008 [4:19:29<2:23:11,  2.08it/s] 63%|██████▎   | 30112/48008 [4:19:29<2:25:18,  2.05it/s] 63%|██████▎   | 30113/48008 [4:19:30<2:24:50,  2.06it/s] 63%|██████▎   | 30114/48008 [4:19:30<2:24:20,  2.07it/s] 63%|██████▎   | 30115/48008 [4:19:31<2:26:05,  2.04it/s] 63%|██████▎   | 30116/48008 [4:19:31<2:25:18,  2.05it/s] 63%|██████▎   | 30117/48008 [4:19:32<3:33:39,  1.40it/s] 63%|██████▎   | 30118/48008 [4:19:33<3:15:51,  1.52it/s] 63%|██████▎   | 30119/48008 [4:19:33<2:54:10,  1.71it/s] 63%|██████▎   | 30120/48008 [4:19:34<2:45:15,  1.80it/s] 63%|██████▎   | 30121/48008 [4:19:34<2:41:32,  1.85it/s] 63%|██████▎   | 30122/48008 [4:19:35<2:53:51,  1.71it/s] 63%|██████▎   | 30123/48008 [4:19:36<2:46:51,  1.79it/s] 63%|██████▎   | 30124/48008 [4:19:36<2:42:13,  1.84it/s] 63%|██████▎   | 30125/48008 [4:19:37<3:12:47,  1.55it/s] 63%|██████▎   | 30126/48008 [4:19:38<3:14:47,  1.53it/s] 63%|██████▎   | 30127/48008 [4:19:38<2:54:07,  1.71it/s] 63%|██████▎   | 30128/48008 [4:19:39<2:47:36,  1.78it/s] 63%|██████▎   | 30129/48008 [4:19:39<2:40:22,  1.86it/s] 63%|██████▎   | 30130/48008 [4:19:40<2:35:21,  1.92it/s] 63%|██████▎   | 30131/48008 [4:19:40<2:25:33,  2.05it/s] 63%|██████▎   | 30132/48008 [4:19:40<2:27:27,  2.02it/s] 63%|██████▎   | 30133/48008 [4:19:41<2:31:26,  1.97it/s] 63%|██████▎   | 30134/48008 [4:19:42<2:31:51,  1.96it/s] 63%|██████▎   | 30135/48008 [4:19:42<2:29:10,  2.00it/s] 63%|██████▎   | 30136/48008 [4:19:43<2:28:57,  2.00it/s] 63%|██████▎   | 30137/48008 [4:19:43<2:27:17,  2.02it/s] 63%|██████▎   | 30138/48008 [4:19:44<2:31:12,  1.97it/s] 63%|██████▎   | 30139/48008 [4:19:44<2:23:14,  2.08it/s] 63%|██████▎   | 30140/48008 [4:19:44<2:17:50,  2.16it/s] 63%|██████▎   | 30141/48008 [4:19:45<2:19:40,  2.13it/s] 63%|██████▎   | 30142/48008 [4:19:46<2:38:31,  1.88it/s] 63%|██████▎   | 30143/48008 [4:19:46<2:36:40,  1.90it/s] 63%|██████▎   | 30144/48008 [4:19:47<2:32:26,  1.95it/s] 63%|██████▎   | 30145/48008 [4:19:47<2:29:44,  1.99it/s] 63%|██████▎   | 30146/48008 [4:19:47<2:27:50,  2.01it/s] 63%|██████▎   | 30147/48008 [4:19:48<2:28:55,  2.00it/s] 63%|██████▎   | 30148/48008 [4:19:49<2:31:04,  1.97it/s] 63%|██████▎   | 30149/48008 [4:19:49<2:30:35,  1.98it/s] 63%|██████▎   | 30150/48008 [4:19:49<2:22:53,  2.08it/s]                                                         {'loss': 4.2235, 'grad_norm': 0.10806053131818771, 'learning_rate': 7.440009998333611e-05, 'epoch': 0.63}
 63%|██████▎   | 30150/48008 [4:19:49<2:22:53,  2.08it/s] 63%|██████▎   | 30151/48008 [4:19:50<2:26:13,  2.04it/s] 63%|██████▎   | 30152/48008 [4:19:50<2:19:28,  2.13it/s] 63%|██████▎   | 30153/48008 [4:19:51<2:20:58,  2.11it/s] 63%|██████▎   | 30154/48008 [4:19:51<2:21:49,  2.10it/s] 63%|██████▎   | 30155/48008 [4:19:52<2:16:38,  2.18it/s] 63%|██████▎   | 30156/48008 [4:19:52<2:21:02,  2.11it/s] 63%|██████▎   | 30157/48008 [4:19:53<2:23:43,  2.07it/s] 63%|██████▎   | 30158/48008 [4:19:53<2:23:10,  2.08it/s] 63%|██████▎   | 30159/48008 [4:19:54<2:25:12,  2.05it/s] 63%|██████▎   | 30160/48008 [4:19:54<2:26:13,  2.03it/s] 63%|██████▎   | 30161/48008 [4:19:55<2:27:30,  2.02it/s] 63%|██████▎   | 30162/48008 [4:19:55<2:26:32,  2.03it/s] 63%|██████▎   | 30163/48008 [4:19:56<2:30:13,  1.98it/s] 63%|██████▎   | 30164/48008 [4:19:56<2:28:59,  2.00it/s] 63%|██████▎   | 30165/48008 [4:19:57<2:27:52,  2.01it/s] 63%|██████▎   | 30166/48008 [4:19:57<2:43:51,  1.81it/s] 63%|██████▎   | 30167/48008 [4:19:58<2:39:51,  1.86it/s] 63%|██████▎   | 30168/48008 [4:19:58<2:37:07,  1.89it/s] 63%|██████▎   | 30169/48008 [4:19:59<3:08:13,  1.58it/s] 63%|██████▎   | 30170/48008 [4:20:00<2:56:45,  1.68it/s] 63%|██████▎   | 30171/48008 [4:20:00<2:47:02,  1.78it/s] 63%|██████▎   | 30172/48008 [4:20:01<2:40:13,  1.86it/s] 63%|██████▎   | 30173/48008 [4:20:01<2:29:52,  1.98it/s] 63%|██████▎   | 30174/48008 [4:20:02<2:22:33,  2.08it/s] 63%|██████▎   | 30175/48008 [4:20:02<2:28:54,  2.00it/s] 63%|██████▎   | 30176/48008 [4:20:03<2:33:21,  1.94it/s] 63%|██████▎   | 30177/48008 [4:20:03<2:32:48,  1.94it/s] 63%|██████▎   | 30178/48008 [4:20:04<2:29:59,  1.98it/s] 63%|██████▎   | 30179/48008 [4:20:04<2:45:11,  1.80it/s] 63%|██████▎   | 30180/48008 [4:20:05<2:41:21,  1.84it/s] 63%|██████▎   | 30181/48008 [4:20:05<2:38:29,  1.87it/s] 63%|██████▎   | 30182/48008 [4:20:06<2:28:11,  2.00it/s] 63%|██████▎   | 30183/48008 [4:20:06<2:30:20,  1.98it/s] 63%|██████▎   | 30184/48008 [4:20:07<2:29:04,  1.99it/s] 63%|██████▎   | 30185/48008 [4:20:07<2:27:23,  2.02it/s] 63%|██████▎   | 30186/48008 [4:20:08<2:26:13,  2.03it/s] 63%|██████▎   | 30187/48008 [4:20:08<2:25:27,  2.04it/s] 63%|██████▎   | 30188/48008 [4:20:09<2:18:23,  2.15it/s] 63%|██████▎   | 30189/48008 [4:20:09<2:20:00,  2.12it/s] 63%|██████▎   | 30190/48008 [4:20:10<2:21:14,  2.10it/s] 63%|██████▎   | 30191/48008 [4:20:10<2:22:13,  2.09it/s] 63%|██████▎   | 30192/48008 [4:20:11<2:16:49,  2.17it/s] 63%|██████▎   | 30193/48008 [4:20:11<2:10:12,  2.28it/s] 63%|██████▎   | 30194/48008 [4:20:11<2:09:11,  2.30it/s] 63%|██████▎   | 30195/48008 [4:20:12<2:15:17,  2.19it/s] 63%|██████▎   | 30196/48008 [4:20:12<2:17:59,  2.15it/s] 63%|██████▎   | 30197/48008 [4:20:13<2:25:14,  2.04it/s] 63%|██████▎   | 30198/48008 [4:20:13<2:24:11,  2.06it/s] 63%|██████▎   | 30199/48008 [4:20:14<2:18:45,  2.14it/s] 63%|██████▎   | 30200/48008 [4:20:14<2:20:42,  2.11it/s]                                                         {'loss': 4.2106, 'grad_norm': 0.09357994049787521, 'learning_rate': 7.419180136643893e-05, 'epoch': 0.63}
 63%|██████▎   | 30200/48008 [4:20:14<2:20:42,  2.11it/s] 63%|██████▎   | 30201/48008 [4:20:15<2:23:18,  2.07it/s] 63%|██████▎   | 30202/48008 [4:20:15<2:23:03,  2.07it/s] 63%|██████▎   | 30203/48008 [4:20:16<2:17:45,  2.15it/s] 63%|██████▎   | 30204/48008 [4:20:16<2:20:10,  2.12it/s] 63%|██████▎   | 30205/48008 [4:20:17<2:21:09,  2.10it/s] 63%|██████▎   | 30206/48008 [4:20:17<2:16:12,  2.18it/s] 63%|██████▎   | 30207/48008 [4:20:18<2:12:23,  2.24it/s] 63%|██████▎   | 30208/48008 [4:20:18<2:09:43,  2.29it/s] 63%|██████▎   | 30209/48008 [4:20:19<2:31:05,  1.96it/s] 63%|██████▎   | 30210/48008 [4:20:19<2:28:56,  1.99it/s] 63%|██████▎   | 30211/48008 [4:20:20<2:29:21,  1.99it/s] 63%|██████▎   | 30212/48008 [4:20:20<2:27:54,  2.01it/s] 63%|██████▎   | 30213/48008 [4:20:21<2:29:25,  1.98it/s] 63%|██████▎   | 30214/48008 [4:20:21<2:28:19,  2.00it/s] 63%|██████▎   | 30215/48008 [4:20:22<2:32:42,  1.94it/s] 63%|██████▎   | 30216/48008 [4:20:22<2:30:15,  1.97it/s] 63%|██████▎   | 30217/48008 [4:20:23<2:28:24,  2.00it/s] 63%|██████▎   | 30218/48008 [4:20:23<2:17:43,  2.15it/s] 63%|██████▎   | 30219/48008 [4:20:24<2:19:01,  2.13it/s] 63%|██████▎   | 30220/48008 [4:20:24<2:24:15,  2.06it/s] 63%|██████▎   | 30221/48008 [4:20:25<2:26:53,  2.02it/s] 63%|██████▎   | 30222/48008 [4:20:25<2:20:03,  2.12it/s] 63%|██████▎   | 30223/48008 [4:20:26<2:25:47,  2.03it/s] 63%|██████▎   | 30224/48008 [4:20:26<2:25:27,  2.04it/s] 63%|██████▎   | 30225/48008 [4:20:27<2:25:04,  2.04it/s] 63%|██████▎   | 30226/48008 [4:20:27<2:18:41,  2.14it/s] 63%|██████▎   | 30227/48008 [4:20:27<2:26:06,  2.03it/s] 63%|██████▎   | 30228/48008 [4:20:28<2:27:04,  2.01it/s] 63%|██████▎   | 30229/48008 [4:20:28<2:28:16,  2.00it/s] 63%|██████▎   | 30230/48008 [4:20:29<2:28:56,  1.99it/s] 63%|██████▎   | 30231/48008 [4:20:29<2:27:16,  2.01it/s] 63%|██████▎   | 30232/48008 [4:20:30<2:20:16,  2.11it/s] 63%|██████▎   | 30233/48008 [4:20:30<2:21:19,  2.10it/s] 63%|██████▎   | 30234/48008 [4:20:31<2:15:16,  2.19it/s] 63%|██████▎   | 30235/48008 [4:20:31<2:17:39,  2.15it/s] 63%|██████▎   | 30236/48008 [4:20:32<2:18:44,  2.13it/s] 63%|██████▎   | 30237/48008 [4:20:32<2:14:43,  2.20it/s] 63%|██████▎   | 30238/48008 [4:20:33<2:19:16,  2.13it/s] 63%|██████▎   | 30239/48008 [4:20:33<2:20:51,  2.10it/s] 63%|██████▎   | 30240/48008 [4:20:34<2:21:50,  2.09it/s] 63%|██████▎   | 30241/48008 [4:20:34<2:22:22,  2.08it/s] 63%|██████▎   | 30242/48008 [4:20:35<2:16:51,  2.16it/s] 63%|██████▎   | 30243/48008 [4:20:35<2:20:39,  2.11it/s] 63%|██████▎   | 30244/48008 [4:20:36<2:24:57,  2.04it/s] 63%|██████▎   | 30245/48008 [4:20:36<2:24:23,  2.05it/s] 63%|██████▎   | 30246/48008 [4:20:36<2:18:26,  2.14it/s] 63%|██████▎   | 30247/48008 [4:20:37<2:19:33,  2.12it/s] 63%|██████▎   | 30248/48008 [4:20:37<2:21:58,  2.08it/s] 63%|██████▎   | 30249/48008 [4:20:38<2:16:17,  2.17it/s] 63%|██████▎   | 30250/48008 [4:20:38<2:18:10,  2.14it/s]                                                         {'loss': 4.1974, 'grad_norm': 0.08794962614774704, 'learning_rate': 7.398350274954174e-05, 'epoch': 0.63}
 63%|██████▎   | 30250/48008 [4:20:38<2:18:10,  2.14it/s] 63%|██████▎   | 30251/48008 [4:20:39<2:23:35,  2.06it/s] 63%|██████▎   | 30252/48008 [4:20:39<2:17:30,  2.15it/s] 63%|██████▎   | 30253/48008 [4:20:40<2:13:53,  2.21it/s] 63%|██████▎   | 30254/48008 [4:20:40<2:10:50,  2.26it/s] 63%|██████▎   | 30255/48008 [4:20:41<2:16:06,  2.17it/s] 63%|██████▎   | 30256/48008 [4:20:41<2:18:09,  2.14it/s] 63%|██████▎   | 30257/48008 [4:20:42<2:14:11,  2.20it/s] 63%|██████▎   | 30258/48008 [4:20:42<2:16:57,  2.16it/s] 63%|██████▎   | 30259/48008 [4:20:43<2:18:53,  2.13it/s] 63%|██████▎   | 30260/48008 [4:20:43<2:19:48,  2.12it/s] 63%|██████▎   | 30261/48008 [4:20:44<2:22:25,  2.08it/s] 63%|██████▎   | 30262/48008 [4:20:44<2:17:09,  2.16it/s] 63%|██████▎   | 30263/48008 [4:20:44<2:22:54,  2.07it/s] 63%|██████▎   | 30264/48008 [4:20:45<2:24:28,  2.05it/s] 63%|██████▎   | 30265/48008 [4:20:45<2:24:00,  2.05it/s] 63%|██████▎   | 30266/48008 [4:20:46<2:26:06,  2.02it/s] 63%|██████▎   | 30267/48008 [4:20:46<2:25:43,  2.03it/s] 63%|██████▎   | 30268/48008 [4:20:47<2:24:46,  2.04it/s] 63%|██████▎   | 30269/48008 [4:20:47<2:25:51,  2.03it/s] 63%|██████▎   | 30270/48008 [4:20:48<2:24:49,  2.04it/s] 63%|██████▎   | 30271/48008 [4:20:49<3:31:48,  1.40it/s] 63%|██████▎   | 30272/48008 [4:20:50<3:12:33,  1.54it/s] 63%|██████▎   | 30273/48008 [4:20:50<2:59:42,  1.64it/s] 63%|██████▎   | 30274/48008 [4:20:51<2:48:50,  1.75it/s] 63%|██████▎   | 30275/48008 [4:20:51<2:58:00,  1.66it/s] 63%|██████▎   | 30276/48008 [4:20:52<2:51:11,  1.73it/s] 63%|██████▎   | 30277/48008 [4:20:52<2:46:52,  1.77it/s] 63%|██████▎   | 30278/48008 [4:20:53<2:39:47,  1.85it/s] 63%|██████▎   | 30279/48008 [4:20:53<2:36:36,  1.89it/s] 63%|██████▎   | 30280/48008 [4:20:54<2:34:35,  1.91it/s] 63%|██████▎   | 30281/48008 [4:20:54<2:31:17,  1.95it/s] 63%|██████▎   | 30282/48008 [4:20:55<2:28:39,  1.99it/s] 63%|██████▎   | 30283/48008 [4:20:55<2:27:09,  2.01it/s] 63%|██████▎   | 30284/48008 [4:20:56<2:25:53,  2.02it/s] 63%|██████▎   | 30285/48008 [4:20:56<2:27:00,  2.01it/s] 63%|██████▎   | 30286/48008 [4:20:57<2:28:03,  1.99it/s] 63%|██████▎   | 30287/48008 [4:20:57<2:26:01,  2.02it/s] 63%|██████▎   | 30288/48008 [4:20:58<2:27:35,  2.00it/s] 63%|██████▎   | 30289/48008 [4:20:58<2:27:52,  2.00it/s] 63%|██████▎   | 30290/48008 [4:20:59<2:20:46,  2.10it/s] 63%|██████▎   | 30291/48008 [4:20:59<2:23:42,  2.05it/s] 63%|██████▎   | 30292/48008 [4:21:00<2:25:30,  2.03it/s] 63%|██████▎   | 30293/48008 [4:21:00<2:26:41,  2.01it/s] 63%|██████▎   | 30294/48008 [4:21:01<2:25:21,  2.03it/s] 63%|██████▎   | 30295/48008 [4:21:01<2:28:01,  1.99it/s] 63%|██████▎   | 30296/48008 [4:21:02<2:26:45,  2.01it/s] 63%|██████▎   | 30297/48008 [4:21:02<2:27:51,  2.00it/s] 63%|██████▎   | 30298/48008 [4:21:03<2:20:28,  2.10it/s] 63%|██████▎   | 30299/48008 [4:21:03<2:21:40,  2.08it/s] 63%|██████▎   | 30300/48008 [4:21:04<2:23:51,  2.05it/s]                                                         {'loss': 4.2987, 'grad_norm': 0.08663498610258102, 'learning_rate': 7.377520413264456e-05, 'epoch': 0.63}
 63%|██████▎   | 30300/48008 [4:21:04<2:23:51,  2.05it/s] 63%|██████▎   | 30301/48008 [4:21:04<2:23:26,  2.06it/s] 63%|██████▎   | 30302/48008 [4:21:05<2:17:15,  2.15it/s] 63%|██████▎   | 30303/48008 [4:21:05<2:20:30,  2.10it/s] 63%|██████▎   | 30304/48008 [4:21:06<2:23:58,  2.05it/s] 63%|██████▎   | 30305/48008 [4:21:06<2:23:44,  2.05it/s] 63%|██████▎   | 30306/48008 [4:21:07<2:26:40,  2.01it/s] 63%|██████▎   | 30307/48008 [4:21:07<2:30:37,  1.96it/s] 63%|██████▎   | 30308/48008 [4:21:08<2:30:36,  1.96it/s] 63%|██████▎   | 30309/48008 [4:21:08<2:28:15,  1.99it/s] 63%|██████▎   | 30310/48008 [4:21:09<2:26:09,  2.02it/s] 63%|██████▎   | 30311/48008 [4:21:09<2:24:53,  2.04it/s] 63%|██████▎   | 30312/48008 [4:21:10<2:58:59,  1.65it/s] 63%|██████▎   | 30313/48008 [4:21:10<2:51:01,  1.72it/s] 63%|██████▎   | 30314/48008 [4:21:11<2:45:25,  1.78it/s] 63%|██████▎   | 30315/48008 [4:21:11<2:38:13,  1.86it/s] 63%|██████▎   | 30316/48008 [4:21:12<2:38:08,  1.86it/s] 63%|██████▎   | 30317/48008 [4:21:13<2:35:30,  1.90it/s] 63%|██████▎   | 30318/48008 [4:21:13<2:31:30,  1.95it/s] 63%|██████▎   | 30319/48008 [4:21:13<2:22:41,  2.07it/s] 63%|██████▎   | 30320/48008 [4:21:14<2:25:27,  2.03it/s] 63%|██████▎   | 30321/48008 [4:21:14<2:27:37,  2.00it/s] 63%|██████▎   | 30322/48008 [4:21:15<2:25:59,  2.02it/s] 63%|██████▎   | 30323/48008 [4:21:15<2:29:34,  1.97it/s] 63%|██████▎   | 30324/48008 [4:21:16<2:28:51,  1.98it/s] 63%|██████▎   | 30325/48008 [4:21:16<2:27:05,  2.00it/s] 63%|██████▎   | 30326/48008 [4:21:17<2:42:12,  1.82it/s] 63%|██████▎   | 30327/48008 [4:21:18<2:36:23,  1.88it/s] 63%|██████▎   | 30328/48008 [4:21:18<2:31:51,  1.94it/s] 63%|██████▎   | 30329/48008 [4:21:19<2:32:41,  1.93it/s] 63%|██████▎   | 30330/48008 [4:21:19<2:31:26,  1.95it/s] 63%|██████▎   | 30331/48008 [4:21:20<2:28:32,  1.98it/s] 63%|██████▎   | 30332/48008 [4:21:20<2:26:16,  2.01it/s] 63%|██████▎   | 30333/48008 [4:21:21<2:27:18,  2.00it/s] 63%|██████▎   | 30334/48008 [4:21:21<2:25:41,  2.02it/s] 63%|██████▎   | 30335/48008 [4:21:22<2:29:38,  1.97it/s] 63%|██████▎   | 30336/48008 [4:21:22<2:30:43,  1.95it/s] 63%|██████▎   | 30337/48008 [4:21:23<2:30:29,  1.96it/s] 63%|██████▎   | 30338/48008 [4:21:23<2:29:51,  1.97it/s] 63%|██████▎   | 30339/48008 [4:21:24<2:30:17,  1.96it/s] 63%|██████▎   | 30340/48008 [4:21:24<2:29:44,  1.97it/s] 63%|██████▎   | 30341/48008 [4:21:25<2:26:53,  2.00it/s] 63%|██████▎   | 30342/48008 [4:21:25<2:25:25,  2.02it/s] 63%|██████▎   | 30343/48008 [4:21:26<2:29:45,  1.97it/s] 63%|██████▎   | 30344/48008 [4:21:27<3:23:36,  1.45it/s] 63%|██████▎   | 30345/48008 [4:21:27<3:05:42,  1.59it/s] 63%|██████▎   | 30346/48008 [4:21:28<2:52:52,  1.70it/s] 63%|██████▎   | 30347/48008 [4:21:28<2:43:26,  1.80it/s] 63%|██████▎   | 30348/48008 [4:21:29<2:39:22,  1.85it/s] 63%|██████▎   | 30349/48008 [4:21:29<2:28:43,  1.98it/s] 63%|██████▎   | 30350/48008 [4:21:30<2:27:00,  2.00it/s]                                                         {'loss': 4.2511, 'grad_norm': 0.10024019330739975, 'learning_rate': 7.356690551574738e-05, 'epoch': 0.63}
 63%|██████▎   | 30350/48008 [4:21:30<2:27:00,  2.00it/s] 63%|██████▎   | 30351/48008 [4:21:30<2:30:46,  1.95it/s] 63%|██████▎   | 30352/48008 [4:21:31<2:22:22,  2.07it/s] 63%|██████▎   | 30353/48008 [4:21:31<2:16:20,  2.16it/s] 63%|██████▎   | 30354/48008 [4:21:32<2:18:21,  2.13it/s] 63%|██████▎   | 30355/48008 [4:21:32<2:37:02,  1.87it/s] 63%|██████▎   | 30356/48008 [4:21:33<2:34:32,  1.90it/s] 63%|██████▎   | 30357/48008 [4:21:33<2:31:10,  1.95it/s] 63%|██████▎   | 30358/48008 [4:21:34<2:31:43,  1.94it/s] 63%|██████▎   | 30359/48008 [4:21:34<2:32:50,  1.92it/s] 63%|██████▎   | 30360/48008 [4:21:35<2:29:45,  1.96it/s] 63%|██████▎   | 30361/48008 [4:21:35<2:26:49,  2.00it/s] 63%|██████▎   | 30362/48008 [4:21:36<2:25:27,  2.02it/s] 63%|██████▎   | 30363/48008 [4:21:36<2:28:02,  1.99it/s] 63%|██████▎   | 30364/48008 [4:21:37<2:27:53,  1.99it/s] 63%|██████▎   | 30365/48008 [4:21:37<2:20:26,  2.09it/s] 63%|██████▎   | 30366/48008 [4:21:38<2:23:00,  2.06it/s] 63%|██████▎   | 30367/48008 [4:21:38<2:26:16,  2.01it/s] 63%|██████▎   | 30368/48008 [4:21:39<2:24:38,  2.03it/s] 63%|██████▎   | 30369/48008 [4:21:39<2:24:20,  2.04it/s] 63%|██████▎   | 30370/48008 [4:21:40<2:23:37,  2.05it/s] 63%|██████▎   | 30371/48008 [4:21:40<2:40:15,  1.83it/s] 63%|██████▎   | 30372/48008 [4:21:41<2:34:34,  1.90it/s] 63%|██████▎   | 30373/48008 [4:21:41<2:33:06,  1.92it/s] 63%|██████▎   | 30374/48008 [4:21:42<2:32:01,  1.93it/s] 63%|██████▎   | 30375/48008 [4:21:42<2:29:21,  1.97it/s] 63%|██████▎   | 30376/48008 [4:21:43<2:29:21,  1.97it/s] 63%|██████▎   | 30377/48008 [4:21:43<2:27:16,  2.00it/s] 63%|██████▎   | 30378/48008 [4:21:44<2:25:48,  2.02it/s] 63%|██████▎   | 30379/48008 [4:21:44<2:24:45,  2.03it/s] 63%|██████▎   | 30380/48008 [4:21:45<2:24:11,  2.04it/s] 63%|██████▎   | 30381/48008 [4:21:45<2:18:07,  2.13it/s] 63%|██████▎   | 30382/48008 [4:21:46<2:19:16,  2.11it/s] 63%|██████▎   | 30383/48008 [4:21:46<2:22:12,  2.07it/s] 63%|██████▎   | 30384/48008 [4:21:47<2:22:07,  2.07it/s] 63%|██████▎   | 30385/48008 [4:21:47<2:22:01,  2.07it/s] 63%|██████▎   | 30386/48008 [4:21:48<2:21:49,  2.07it/s] 63%|██████▎   | 30387/48008 [4:21:48<2:23:56,  2.04it/s] 63%|██████▎   | 30388/48008 [4:21:49<2:28:30,  1.98it/s] 63%|██████▎   | 30389/48008 [4:21:49<2:26:07,  2.01it/s] 63%|██████▎   | 30390/48008 [4:21:50<2:24:52,  2.03it/s] 63%|██████▎   | 30391/48008 [4:21:50<2:26:00,  2.01it/s] 63%|██████▎   | 30392/48008 [4:21:51<2:25:15,  2.02it/s] 63%|██████▎   | 30393/48008 [4:21:51<2:58:35,  1.64it/s] 63%|██████▎   | 30394/48008 [4:21:52<2:47:40,  1.75it/s] 63%|██████▎   | 30395/48008 [4:21:52<2:39:49,  1.84it/s] 63%|██████▎   | 30396/48008 [4:21:53<2:28:44,  1.97it/s] 63%|██████▎   | 30397/48008 [4:21:54<3:34:20,  1.37it/s] 63%|██████▎   | 30398/48008 [4:21:55<3:12:40,  1.52it/s] 63%|██████▎   | 30399/48008 [4:21:55<2:57:18,  1.66it/s] 63%|██████▎   | 30400/48008 [4:21:56<2:46:49,  1.76it/s]                                                         {'loss': 4.2637, 'grad_norm': 0.09491369873285294, 'learning_rate': 7.33586068988502e-05, 'epoch': 0.63}
 63%|██████▎   | 30400/48008 [4:21:56<2:46:49,  1.76it/s] 63%|██████▎   | 30401/48008 [4:21:56<2:33:28,  1.91it/s] 63%|██████▎   | 30402/48008 [4:21:57<3:37:45,  1.35it/s] 63%|██████▎   | 30403/48008 [4:21:58<3:09:28,  1.55it/s] 63%|██████▎   | 30404/48008 [4:21:58<2:56:36,  1.66it/s] 63%|██████▎   | 30405/48008 [4:21:59<2:47:57,  1.75it/s] 63%|██████▎   | 30406/48008 [4:21:59<2:41:33,  1.82it/s] 63%|██████▎   | 30407/48008 [4:22:00<2:35:36,  1.89it/s] 63%|██████▎   | 30408/48008 [4:22:00<2:32:52,  1.92it/s] 63%|██████▎   | 30409/48008 [4:22:01<2:29:01,  1.97it/s] 63%|██████▎   | 30410/48008 [4:22:01<2:26:43,  2.00it/s] 63%|██████▎   | 30411/48008 [4:22:02<2:25:06,  2.02it/s] 63%|██████▎   | 30412/48008 [4:22:02<2:40:58,  1.82it/s] 63%|██████▎   | 30413/48008 [4:22:03<2:38:20,  1.85it/s] 63%|██████▎   | 30414/48008 [4:22:03<2:50:05,  1.72it/s] 63%|██████▎   | 30415/48008 [4:22:04<2:41:11,  1.82it/s] 63%|██████▎   | 30416/48008 [4:22:05<3:10:05,  1.54it/s] 63%|██████▎   | 30417/48008 [4:22:05<2:57:15,  1.65it/s] 63%|██████▎   | 30418/48008 [4:22:06<2:46:37,  1.76it/s] 63%|██████▎   | 30419/48008 [4:22:06<2:56:23,  1.66it/s] 63%|██████▎   | 30420/48008 [4:22:07<2:47:47,  1.75it/s] 63%|██████▎   | 30421/48008 [4:22:08<2:44:58,  1.78it/s] 63%|██████▎   | 30422/48008 [4:22:08<2:40:20,  1.83it/s] 63%|██████▎   | 30423/48008 [4:22:09<2:34:55,  1.89it/s] 63%|██████▎   | 30424/48008 [4:22:09<2:25:05,  2.02it/s] 63%|██████▎   | 30425/48008 [4:22:09<2:23:40,  2.04it/s] 63%|██████▎   | 30426/48008 [4:22:10<2:26:43,  2.00it/s] 63%|██████▎   | 30427/48008 [4:22:10<2:25:06,  2.02it/s] 63%|██████▎   | 30428/48008 [4:22:11<2:27:17,  1.99it/s] 63%|██████▎   | 30429/48008 [4:22:11<2:30:57,  1.94it/s] 63%|██████▎   | 30430/48008 [4:22:12<2:31:41,  1.93it/s] 63%|██████▎   | 30431/48008 [4:22:12<2:28:20,  1.97it/s] 63%|██████▎   | 30432/48008 [4:22:13<2:26:33,  2.00it/s] 63%|██████▎   | 30433/48008 [4:22:13<2:15:59,  2.15it/s] 63%|██████▎   | 30434/48008 [4:22:14<2:19:31,  2.10it/s] 63%|██████▎   | 30435/48008 [4:22:14<2:14:23,  2.18it/s] 63%|██████▎   | 30436/48008 [4:22:15<2:18:15,  2.12it/s] 63%|██████▎   | 30437/48008 [4:22:15<2:19:08,  2.10it/s] 63%|██████▎   | 30438/48008 [4:22:16<2:22:58,  2.05it/s] 63%|██████▎   | 30439/48008 [4:22:16<2:24:26,  2.03it/s] 63%|██████▎   | 30440/48008 [4:22:17<2:26:43,  2.00it/s] 63%|██████▎   | 30441/48008 [4:22:17<2:25:02,  2.02it/s] 63%|██████▎   | 30442/48008 [4:22:18<2:58:32,  1.64it/s] 63%|██████▎   | 30443/48008 [4:22:19<2:47:34,  1.75it/s] 63%|██████▎   | 30444/48008 [4:22:19<2:56:17,  1.66it/s] 63%|██████▎   | 30445/48008 [4:22:20<2:45:44,  1.77it/s] 63%|██████▎   | 30446/48008 [4:22:20<2:38:27,  1.85it/s] 63%|██████▎   | 30447/48008 [4:22:21<2:32:52,  1.91it/s] 63%|██████▎   | 30448/48008 [4:22:21<2:29:35,  1.96it/s] 63%|██████▎   | 30449/48008 [4:22:22<2:30:09,  1.95it/s] 63%|██████▎   | 30450/48008 [4:22:22<2:30:57,  1.94it/s]                                                         {'loss': 4.2996, 'grad_norm': 0.09766797721385956, 'learning_rate': 7.3150308281953e-05, 'epoch': 0.63}
 63%|██████▎   | 30450/48008 [4:22:22<2:30:57,  1.94it/s] 63%|██████▎   | 30451/48008 [4:22:23<2:31:10,  1.94it/s] 63%|██████▎   | 30452/48008 [4:22:24<3:35:47,  1.36it/s] 63%|██████▎   | 30453/48008 [4:22:25<3:30:03,  1.39it/s] 63%|██████▎   | 30454/48008 [4:22:26<3:44:28,  1.30it/s] 63%|██████▎   | 30455/48008 [4:22:26<3:19:20,  1.47it/s] 63%|██████▎   | 30456/48008 [4:22:27<3:01:48,  1.61it/s] 63%|██████▎   | 30457/48008 [4:22:27<3:06:12,  1.57it/s] 63%|██████▎   | 30458/48008 [4:22:28<4:00:16,  1.22it/s] 63%|██████▎   | 30459/48008 [4:22:29<3:30:18,  1.39it/s] 63%|██████▎   | 30460/48008 [4:22:29<3:09:14,  1.55it/s] 63%|██████▎   | 30461/48008 [4:22:30<2:54:10,  1.68it/s] 63%|██████▎   | 30462/48008 [4:22:30<2:38:19,  1.85it/s] 63%|██████▎   | 30463/48008 [4:22:31<2:27:00,  1.99it/s] 63%|██████▎   | 30464/48008 [4:22:31<2:25:00,  2.02it/s] 63%|██████▎   | 30465/48008 [4:22:32<2:23:40,  2.03it/s] 63%|██████▎   | 30466/48008 [4:22:32<2:22:41,  2.05it/s] 63%|██████▎   | 30467/48008 [4:22:33<2:16:11,  2.15it/s] 63%|██████▎   | 30468/48008 [4:22:33<2:19:47,  2.09it/s] 63%|██████▎   | 30469/48008 [4:22:34<2:20:01,  2.09it/s] 63%|██████▎   | 30470/48008 [4:22:34<2:20:09,  2.09it/s] 63%|██████▎   | 30471/48008 [4:22:35<2:20:39,  2.08it/s] 63%|██████▎   | 30472/48008 [4:22:36<3:41:16,  1.32it/s] 63%|██████▎   | 30473/48008 [4:22:36<3:19:12,  1.47it/s] 63%|██████▎   | 30474/48008 [4:22:37<3:01:56,  1.61it/s] 63%|██████▎   | 30475/48008 [4:22:37<2:49:44,  1.72it/s] 63%|██████▎   | 30476/48008 [4:22:38<2:43:14,  1.79it/s] 63%|██████▎   | 30477/48008 [4:22:38<2:36:36,  1.87it/s] 63%|██████▎   | 30478/48008 [4:22:40<3:52:50,  1.25it/s] 63%|██████▎   | 30479/48008 [4:22:41<3:42:05,  1.32it/s] 63%|██████▎   | 30480/48008 [4:22:41<3:17:24,  1.48it/s] 63%|██████▎   | 30481/48008 [4:22:41<3:00:37,  1.62it/s] 63%|██████▎   | 30482/48008 [4:22:42<2:53:49,  1.68it/s] 63%|██████▎   | 30483/48008 [4:22:42<2:43:20,  1.79it/s] 63%|██████▎   | 30484/48008 [4:22:44<3:27:07,  1.41it/s] 63%|██████▎   | 30485/48008 [4:22:44<3:06:46,  1.56it/s] 64%|██████▎   | 30486/48008 [4:22:45<2:53:00,  1.69it/s] 64%|██████▎   | 30487/48008 [4:22:45<2:43:25,  1.79it/s] 64%|██████▎   | 30488/48008 [4:22:45<2:36:32,  1.87it/s] 64%|██████▎   | 30489/48008 [4:22:46<2:33:41,  1.90it/s] 64%|██████▎   | 30490/48008 [4:22:47<3:17:41,  1.48it/s] 64%|██████▎   | 30491/48008 [4:22:48<3:02:59,  1.60it/s] 64%|██████▎   | 30492/48008 [4:22:48<2:50:15,  1.71it/s] 64%|██████▎   | 30493/48008 [4:22:49<2:43:28,  1.79it/s] 64%|██████▎   | 30494/48008 [4:22:49<2:36:20,  1.87it/s] 64%|██████▎   | 30495/48008 [4:22:49<2:31:58,  1.92it/s] 64%|██████▎   | 30496/48008 [4:22:50<2:45:45,  1.76it/s] 64%|██████▎   | 30497/48008 [4:22:51<2:40:03,  1.82it/s] 64%|██████▎   | 30498/48008 [4:22:51<2:34:31,  1.89it/s] 64%|██████▎   | 30499/48008 [4:22:52<2:32:24,  1.91it/s] 64%|██████▎   | 30500/48008 [4:22:52<2:32:04,  1.92it/s]                                                         {'loss': 4.2657, 'grad_norm': 0.09544958174228668, 'learning_rate': 7.294200966505583e-05, 'epoch': 0.64} 64%|██████▎   | 30500/48008 [4:22:52<2:32:04,  1.92it/s]
 64%|██████▎   | 30501/48008 [4:22:53<2:29:01,  1.96it/s] 64%|██████▎   | 30502/48008 [4:22:53<2:26:34,  1.99it/s] 64%|██████▎   | 30503/48008 [4:22:54<2:26:33,  1.99it/s] 64%|██████▎   | 30504/48008 [4:22:54<2:24:51,  2.01it/s] 64%|██████▎   | 30505/48008 [4:22:55<2:40:58,  1.81it/s] 64%|██████▎   | 30506/48008 [4:22:55<2:29:23,  1.95it/s] 64%|██████▎   | 30507/48008 [4:22:56<2:20:59,  2.07it/s] 64%|██████▎   | 30508/48008 [4:22:56<2:24:04,  2.02it/s] 64%|██████▎   | 30509/48008 [4:22:57<2:22:21,  2.05it/s] 64%|██████▎   | 30510/48008 [4:22:58<2:56:23,  1.65it/s] 64%|██████▎   | 30511/48008 [4:22:58<2:45:28,  1.76it/s] 64%|██████▎   | 30512/48008 [4:22:58<2:40:19,  1.82it/s] 64%|██████▎   | 30513/48008 [4:22:59<2:38:02,  1.85it/s] 64%|██████▎   | 30514/48008 [4:23:00<2:50:05,  1.71it/s] 64%|██████▎   | 30515/48008 [4:23:00<2:35:22,  1.88it/s] 64%|██████▎   | 30516/48008 [4:23:01<2:35:57,  1.87it/s] 64%|██████▎   | 30517/48008 [4:23:01<2:31:04,  1.93it/s] 64%|██████▎   | 30518/48008 [4:23:02<2:22:12,  2.05it/s] 64%|██████▎   | 30519/48008 [4:23:02<2:23:59,  2.02it/s] 64%|██████▎   | 30520/48008 [4:23:03<2:26:20,  1.99it/s] 64%|██████▎   | 30521/48008 [4:23:03<2:29:43,  1.95it/s] 64%|██████▎   | 30522/48008 [4:23:04<2:27:08,  1.98it/s] 64%|██████▎   | 30523/48008 [4:23:04<2:25:15,  2.01it/s] 64%|██████▎   | 30524/48008 [4:23:05<2:26:10,  1.99it/s] 64%|██████▎   | 30525/48008 [4:23:05<2:24:27,  2.02it/s] 64%|██████▎   | 30526/48008 [4:23:06<2:25:33,  2.00it/s] 64%|██████▎   | 30527/48008 [4:23:06<2:18:20,  2.11it/s] 64%|██████▎   | 30528/48008 [4:23:07<2:22:32,  2.04it/s] 64%|██████▎   | 30529/48008 [4:23:07<2:26:38,  1.99it/s] 64%|██████▎   | 30530/48008 [4:23:08<2:28:08,  1.97it/s] 64%|██████▎   | 30531/48008 [4:23:08<2:28:10,  1.97it/s] 64%|██████▎   | 30532/48008 [4:23:09<2:25:57,  2.00it/s] 64%|██████▎   | 30533/48008 [4:23:09<2:24:24,  2.02it/s] 64%|██████▎   | 30534/48008 [4:23:09<2:17:31,  2.12it/s] 64%|██████▎   | 30535/48008 [4:23:10<2:21:22,  2.06it/s] 64%|██████▎   | 30536/48008 [4:23:10<2:20:52,  2.07it/s] 64%|██████▎   | 30537/48008 [4:23:11<2:24:19,  2.02it/s] 64%|██████▎   | 30538/48008 [4:23:12<2:58:00,  1.64it/s] 64%|██████▎   | 30539/48008 [4:23:12<2:46:44,  1.75it/s] 64%|██████▎   | 30540/48008 [4:23:13<2:38:23,  1.84it/s] 64%|██████▎   | 30541/48008 [4:23:13<2:32:57,  1.90it/s] 64%|██████▎   | 30542/48008 [4:23:14<2:23:32,  2.03it/s] 64%|██████▎   | 30543/48008 [4:23:14<2:24:22,  2.02it/s] 64%|██████▎   | 30544/48008 [4:23:15<2:23:06,  2.03it/s] 64%|██████▎   | 30545/48008 [4:23:15<2:22:07,  2.05it/s] 64%|██████▎   | 30546/48008 [4:23:16<2:23:42,  2.03it/s] 64%|██████▎   | 30547/48008 [4:23:16<2:22:36,  2.04it/s] 64%|██████▎   | 30548/48008 [4:23:17<2:21:59,  2.05it/s] 64%|██████▎   | 30549/48008 [4:23:17<2:21:57,  2.05it/s] 64%|██████▎   | 30550/48008 [4:23:18<2:15:52,  2.14it/s]                                                         {'loss': 4.2699, 'grad_norm': 0.1731705367565155, 'learning_rate': 7.273371104815865e-05, 'epoch': 0.64}
 64%|██████▎   | 30550/48008 [4:23:18<2:15:52,  2.14it/s] 64%|██████▎   | 30551/48008 [4:23:18<2:21:56,  2.05it/s] 64%|██████▎   | 30552/48008 [4:23:19<2:38:47,  1.83it/s] 64%|██████▎   | 30553/48008 [4:23:19<2:33:38,  1.89it/s] 64%|██████▎   | 30554/48008 [4:23:20<2:29:00,  1.95it/s] 64%|██████▎   | 30555/48008 [4:23:20<2:26:35,  1.98it/s] 64%|██████▎   | 30556/48008 [4:23:21<2:18:51,  2.09it/s] 64%|██████▎   | 30557/48008 [4:23:21<2:21:22,  2.06it/s] 64%|██████▎   | 30558/48008 [4:23:22<2:20:41,  2.07it/s] 64%|██████▎   | 30559/48008 [4:23:22<2:24:17,  2.02it/s] 64%|██████▎   | 30560/48008 [4:23:23<3:30:06,  1.38it/s] 64%|██████▎   | 30561/48008 [4:23:24<3:09:33,  1.53it/s] 64%|██████▎   | 30562/48008 [4:23:25<3:11:50,  1.52it/s] 64%|██████▎   | 30563/48008 [4:23:25<2:58:37,  1.63it/s] 64%|██████▎   | 30564/48008 [4:23:26<2:47:38,  1.73it/s] 64%|██████▎   | 30565/48008 [4:23:26<2:41:12,  1.80it/s] 64%|██████▎   | 30566/48008 [4:23:26<2:29:23,  1.95it/s] 64%|██████▎   | 30567/48008 [4:23:27<2:17:50,  2.11it/s] 64%|██████▎   | 30568/48008 [4:23:27<2:12:43,  2.19it/s] 64%|██████▎   | 30569/48008 [4:23:28<2:17:24,  2.12it/s] 64%|██████▎   | 30570/48008 [4:23:28<2:18:31,  2.10it/s] 64%|██████▎   | 30571/48008 [4:23:29<2:19:16,  2.09it/s] 64%|██████▎   | 30572/48008 [4:23:29<2:19:49,  2.08it/s] 64%|██████▎   | 30573/48008 [4:23:30<2:20:10,  2.07it/s] 64%|██████▎   | 30574/48008 [4:23:30<2:20:18,  2.07it/s] 64%|██████▎   | 30575/48008 [4:23:31<2:15:03,  2.15it/s] 64%|██████▎   | 30576/48008 [4:23:31<2:16:03,  2.14it/s] 64%|██████▎   | 30577/48008 [4:23:32<2:20:41,  2.06it/s] 64%|██████▎   | 30578/48008 [4:23:32<2:23:47,  2.02it/s] 64%|██████▎   | 30579/48008 [4:23:33<2:24:59,  2.00it/s] 64%|██████▎   | 30580/48008 [4:23:33<2:23:32,  2.02it/s] 64%|██████▎   | 30581/48008 [4:23:34<3:29:54,  1.38it/s] 64%|██████▎   | 30582/48008 [4:23:35<3:09:26,  1.53it/s] 64%|██████▎   | 30583/48008 [4:23:36<3:11:36,  1.52it/s] 64%|██████▎   | 30584/48008 [4:23:36<3:01:28,  1.60it/s] 64%|██████▎   | 30585/48008 [4:23:37<2:52:28,  1.68it/s] 64%|██████▎   | 30586/48008 [4:23:37<2:44:38,  1.76it/s] 64%|██████▎   | 30587/48008 [4:23:38<2:39:18,  1.82it/s] 64%|██████▎   | 30588/48008 [4:23:38<2:33:29,  1.89it/s] 64%|██████▎   | 30589/48008 [4:23:39<2:31:30,  1.92it/s] 64%|██████▎   | 30590/48008 [4:23:39<2:22:25,  2.04it/s] 64%|██████▎   | 30591/48008 [4:23:40<2:21:27,  2.05it/s] 64%|██████▎   | 30592/48008 [4:23:40<2:12:17,  2.19it/s] 64%|██████▎   | 30593/48008 [4:23:40<2:08:52,  2.25it/s] 64%|██████▎   | 30594/48008 [4:23:41<2:06:33,  2.29it/s] 64%|██████▎   | 30595/48008 [4:23:41<2:14:00,  2.17it/s] 64%|██████▎   | 30596/48008 [4:23:42<2:10:13,  2.23it/s] 64%|██████▎   | 30597/48008 [4:23:42<2:12:28,  2.19it/s] 64%|██████▎   | 30598/48008 [4:23:43<2:31:55,  1.91it/s] 64%|██████▎   | 30599/48008 [4:23:43<2:30:13,  1.93it/s] 64%|██████▎   | 30600/48008 [4:23:44<2:27:00,  1.97it/s]                                                         {'loss': 4.2686, 'grad_norm': 0.14166595041751862, 'learning_rate': 7.252541243126147e-05, 'epoch': 0.64} 64%|██████▎   | 30600/48008 [4:23:44<2:27:00,  1.97it/s]
 64%|██████▎   | 30601/48008 [4:23:44<2:18:47,  2.09it/s] 64%|██████▎   | 30602/48008 [4:23:45<2:22:22,  2.04it/s] 64%|██████▎   | 30603/48008 [4:23:45<2:23:53,  2.02it/s] 64%|██████▎   | 30604/48008 [4:23:46<2:16:45,  2.12it/s] 64%|██████▎   | 30605/48008 [4:23:46<2:17:50,  2.10it/s] 64%|██████▍   | 30606/48008 [4:23:47<2:23:07,  2.03it/s] 64%|██████▍   | 30607/48008 [4:23:47<2:21:45,  2.05it/s] 64%|██████▍   | 30608/48008 [4:23:48<2:15:26,  2.14it/s] 64%|██████▍   | 30609/48008 [4:23:48<2:18:55,  2.09it/s] 64%|██████▍   | 30610/48008 [4:23:49<2:20:41,  2.06it/s] 64%|██████▍   | 30611/48008 [4:23:49<2:20:23,  2.07it/s] 64%|██████▍   | 30612/48008 [4:23:50<2:20:07,  2.07it/s] 64%|██████▍   | 30613/48008 [4:23:50<2:11:03,  2.21it/s] 64%|██████▍   | 30614/48008 [4:23:50<2:07:50,  2.27it/s] 64%|██████▍   | 30615/48008 [4:23:51<2:28:16,  1.96it/s] 64%|██████▍   | 30616/48008 [4:23:52<2:27:47,  1.96it/s] 64%|██████▍   | 30617/48008 [4:23:52<2:25:04,  2.00it/s] 64%|██████▍   | 30618/48008 [4:23:52<2:17:50,  2.10it/s] 64%|██████▍   | 30619/48008 [4:23:53<2:35:02,  1.87it/s] 64%|██████▍   | 30620/48008 [4:23:54<2:30:33,  1.92it/s] 64%|██████▍   | 30621/48008 [4:23:54<2:31:59,  1.91it/s] 64%|██████▍   | 30622/48008 [4:23:55<2:28:25,  1.95it/s] 64%|██████▍   | 30623/48008 [4:23:55<2:20:08,  2.07it/s] 64%|██████▍   | 30624/48008 [4:23:56<2:23:14,  2.02it/s] 64%|██████▍   | 30625/48008 [4:23:56<2:25:17,  1.99it/s] 64%|██████▍   | 30626/48008 [4:23:57<2:25:36,  1.99it/s] 64%|██████▍   | 30627/48008 [4:23:57<2:17:49,  2.10it/s] 64%|██████▍   | 30628/48008 [4:23:57<2:12:46,  2.18it/s] 64%|██████▍   | 30629/48008 [4:23:58<2:09:20,  2.24it/s] 64%|██████▍   | 30630/48008 [4:23:58<2:12:40,  2.18it/s] 64%|██████▍   | 30631/48008 [4:23:59<2:17:35,  2.10it/s] 64%|██████▍   | 30632/48008 [4:23:59<2:18:03,  2.10it/s] 64%|██████▍   | 30633/48008 [4:24:01<3:25:06,  1.41it/s] 64%|██████▍   | 30634/48008 [4:24:01<3:09:14,  1.53it/s] 64%|██████▍   | 30635/48008 [4:24:02<2:57:49,  1.63it/s] 64%|██████▍   | 30636/48008 [4:24:02<2:49:58,  1.70it/s] 64%|██████▍   | 30637/48008 [4:24:03<2:41:05,  1.80it/s] 64%|██████▍   | 30638/48008 [4:24:03<2:36:44,  1.85it/s] 64%|██████▍   | 30639/48008 [4:24:04<2:36:28,  1.85it/s] 64%|██████▍   | 30640/48008 [4:24:04<2:25:34,  1.99it/s] 64%|██████▍   | 30641/48008 [4:24:05<2:27:02,  1.97it/s] 64%|██████▍   | 30642/48008 [4:24:05<2:26:10,  1.98it/s] 64%|██████▍   | 30643/48008 [4:24:06<2:24:07,  2.01it/s] 64%|██████▍   | 30644/48008 [4:24:06<2:23:10,  2.02it/s] 64%|██████▍   | 30645/48008 [4:24:07<2:22:07,  2.04it/s] 64%|██████▍   | 30646/48008 [4:24:07<2:15:41,  2.13it/s] 64%|██████▍   | 30647/48008 [4:24:08<2:21:35,  2.04it/s] 64%|██████▍   | 30648/48008 [4:24:08<2:15:10,  2.14it/s] 64%|██████▍   | 30649/48008 [4:24:08<2:16:28,  2.12it/s] 64%|██████▍   | 30650/48008 [4:24:09<2:19:42,  2.07it/s]                                                         {'loss': 4.2286, 'grad_norm': 0.1256369799375534, 'learning_rate': 7.231711381436428e-05, 'epoch': 0.64}
 64%|██████▍   | 30650/48008 [4:24:09<2:19:42,  2.07it/s] 64%|██████▍   | 30651/48008 [4:24:10<2:54:28,  1.66it/s] 64%|██████▍   | 30652/48008 [4:24:10<2:43:57,  1.76it/s] 64%|██████▍   | 30653/48008 [4:24:11<2:41:32,  1.79it/s] 64%|██████▍   | 30654/48008 [4:24:11<2:37:20,  1.84it/s] 64%|██████▍   | 30655/48008 [4:24:12<2:26:25,  1.98it/s] 64%|██████▍   | 30656/48008 [4:24:12<2:24:22,  2.00it/s] 64%|██████▍   | 30657/48008 [4:24:13<2:23:11,  2.02it/s] 64%|██████▍   | 30658/48008 [4:24:13<2:22:05,  2.04it/s] 64%|██████▍   | 30659/48008 [4:24:14<2:21:13,  2.05it/s] 64%|██████▍   | 30660/48008 [4:24:14<2:24:02,  2.01it/s] 64%|██████▍   | 30661/48008 [4:24:15<2:22:23,  2.03it/s] 64%|██████▍   | 30662/48008 [4:24:15<2:20:56,  2.05it/s] 64%|██████▍   | 30663/48008 [4:24:16<2:24:00,  2.01it/s] 64%|██████▍   | 30664/48008 [4:24:16<2:22:42,  2.03it/s] 64%|██████▍   | 30665/48008 [4:24:17<2:16:11,  2.12it/s] 64%|██████▍   | 30666/48008 [4:24:18<3:24:16,  1.41it/s] 64%|██████▍   | 30667/48008 [4:24:18<2:59:12,  1.61it/s] 64%|██████▍   | 30668/48008 [4:24:19<2:47:30,  1.73it/s] 64%|██████▍   | 30669/48008 [4:24:19<2:39:29,  1.81it/s] 64%|██████▍   | 30670/48008 [4:24:20<2:25:09,  1.99it/s] 64%|██████▍   | 30671/48008 [4:24:20<2:27:16,  1.96it/s] 64%|██████▍   | 30672/48008 [4:24:21<2:59:49,  1.61it/s] 64%|██████▍   | 30673/48008 [4:24:22<2:51:09,  1.69it/s] 64%|██████▍   | 30674/48008 [4:24:22<2:35:59,  1.85it/s] 64%|██████▍   | 30675/48008 [4:24:22<2:31:22,  1.91it/s] 64%|██████▍   | 30676/48008 [4:24:23<2:21:58,  2.03it/s] 64%|██████▍   | 30677/48008 [4:24:23<2:23:13,  2.02it/s] 64%|██████▍   | 30678/48008 [4:24:24<2:22:33,  2.03it/s] 64%|██████▍   | 30679/48008 [4:24:24<2:21:26,  2.04it/s] 64%|██████▍   | 30680/48008 [4:24:25<2:15:01,  2.14it/s] 64%|██████▍   | 30681/48008 [4:24:25<2:16:44,  2.11it/s] 64%|██████▍   | 30682/48008 [4:24:26<2:19:28,  2.07it/s] 64%|██████▍   | 30683/48008 [4:24:26<2:25:04,  1.99it/s] 64%|██████▍   | 30684/48008 [4:24:27<2:25:07,  1.99it/s] 64%|██████▍   | 30685/48008 [4:24:27<2:39:57,  1.80it/s] 64%|██████▍   | 30686/48008 [4:24:28<2:33:31,  1.88it/s] 64%|██████▍   | 30687/48008 [4:24:28<2:28:55,  1.94it/s] 64%|██████▍   | 30688/48008 [4:24:29<2:28:02,  1.95it/s] 64%|██████▍   | 30689/48008 [4:24:29<2:27:28,  1.96it/s] 64%|██████▍   | 30690/48008 [4:24:30<2:24:46,  1.99it/s] 64%|██████▍   | 30691/48008 [4:24:30<2:26:53,  1.96it/s] 64%|██████▍   | 30692/48008 [4:24:31<2:24:35,  2.00it/s] 64%|██████▍   | 30693/48008 [4:24:31<2:22:47,  2.02it/s] 64%|██████▍   | 30694/48008 [4:24:32<2:23:38,  2.01it/s] 64%|██████▍   | 30695/48008 [4:24:33<2:39:21,  1.81it/s] 64%|██████▍   | 30696/48008 [4:24:33<2:32:54,  1.89it/s] 64%|██████▍   | 30697/48008 [4:24:34<2:28:53,  1.94it/s] 64%|██████▍   | 30698/48008 [4:24:34<2:28:00,  1.95it/s] 64%|██████▍   | 30699/48008 [4:24:35<2:27:25,  1.96it/s] 64%|██████▍   | 30700/48008 [4:24:35<2:27:03,  1.96it/s]                                                         {'loss': 4.2651, 'grad_norm': 0.10613225400447845, 'learning_rate': 7.21088151974671e-05, 'epoch': 0.64}
 64%|██████▍   | 30700/48008 [4:24:35<2:27:03,  1.96it/s] 64%|██████▍   | 30701/48008 [4:24:36<2:41:24,  1.79it/s] 64%|██████▍   | 30702/48008 [4:24:36<2:36:35,  1.84it/s] 64%|██████▍   | 30703/48008 [4:24:37<2:30:41,  1.91it/s] 64%|██████▍   | 30704/48008 [4:24:37<2:26:35,  1.97it/s] 64%|██████▍   | 30705/48008 [4:24:38<2:28:02,  1.95it/s] 64%|██████▍   | 30706/48008 [4:24:38<2:19:53,  2.06it/s] 64%|██████▍   | 30707/48008 [4:24:39<2:21:55,  2.03it/s] 64%|██████▍   | 30708/48008 [4:24:39<2:15:19,  2.13it/s] 64%|██████▍   | 30709/48008 [4:24:40<2:16:48,  2.11it/s] 64%|██████▍   | 30710/48008 [4:24:40<2:17:09,  2.10it/s] 64%|██████▍   | 30711/48008 [4:24:41<2:17:37,  2.09it/s] 64%|██████▍   | 30712/48008 [4:24:41<2:21:46,  2.03it/s] 64%|██████▍   | 30713/48008 [4:24:42<2:21:04,  2.04it/s] 64%|██████▍   | 30714/48008 [4:24:42<2:21:57,  2.03it/s] 64%|██████▍   | 30715/48008 [4:24:43<2:20:51,  2.05it/s] 64%|██████▍   | 30716/48008 [4:24:43<2:14:43,  2.14it/s] 64%|██████▍   | 30717/48008 [4:24:43<2:19:07,  2.07it/s] 64%|██████▍   | 30718/48008 [4:24:44<2:24:06,  2.00it/s] 64%|██████▍   | 30719/48008 [4:24:44<2:22:47,  2.02it/s] 64%|██████▍   | 30720/48008 [4:24:45<2:21:38,  2.03it/s] 64%|██████▍   | 30721/48008 [4:24:45<2:22:50,  2.02it/s] 64%|██████▍   | 30722/48008 [4:24:46<2:16:05,  2.12it/s] 64%|██████▍   | 30723/48008 [4:24:46<2:19:00,  2.07it/s] 64%|██████▍   | 30724/48008 [4:24:47<2:22:25,  2.02it/s] 64%|██████▍   | 30725/48008 [4:24:48<2:38:22,  1.82it/s] 64%|██████▍   | 30726/48008 [4:24:48<2:26:55,  1.96it/s] 64%|██████▍   | 30727/48008 [4:24:48<2:24:29,  1.99it/s] 64%|██████▍   | 30728/48008 [4:24:49<2:24:58,  1.99it/s] 64%|██████▍   | 30729/48008 [4:24:49<2:22:56,  2.01it/s] 64%|██████▍   | 30730/48008 [4:24:50<2:25:08,  1.98it/s] 64%|██████▍   | 30731/48008 [4:24:51<2:25:15,  1.98it/s] 64%|██████▍   | 30732/48008 [4:24:51<2:57:27,  1.62it/s] 64%|██████▍   | 30733/48008 [4:24:52<2:45:50,  1.74it/s] 64%|██████▍   | 30734/48008 [4:24:52<2:37:36,  1.83it/s] 64%|██████▍   | 30735/48008 [4:24:53<2:32:01,  1.89it/s] 64%|██████▍   | 30736/48008 [4:24:54<3:34:34,  1.34it/s] 64%|██████▍   | 30737/48008 [4:24:55<3:11:54,  1.50it/s] 64%|██████▍   | 30738/48008 [4:24:55<2:55:47,  1.64it/s] 64%|██████▍   | 30739/48008 [4:24:56<2:44:38,  1.75it/s] 64%|██████▍   | 30740/48008 [4:24:56<2:40:08,  1.80it/s] 64%|██████▍   | 30741/48008 [4:24:57<2:35:26,  1.85it/s] 64%|██████▍   | 30742/48008 [4:24:57<2:33:49,  1.87it/s] 64%|██████▍   | 30743/48008 [4:24:58<2:34:18,  1.86it/s] 64%|██████▍   | 30744/48008 [4:24:58<2:29:03,  1.93it/s] 64%|██████▍   | 30745/48008 [4:24:59<2:25:40,  1.98it/s] 64%|██████▍   | 30746/48008 [4:24:59<2:28:26,  1.94it/s] 64%|██████▍   | 30747/48008 [4:25:00<2:28:47,  1.93it/s] 64%|██████▍   | 30748/48008 [4:25:00<2:25:24,  1.98it/s] 64%|██████▍   | 30749/48008 [4:25:01<2:23:07,  2.01it/s] 64%|██████▍   | 30750/48008 [4:25:01<2:56:17,  1.63it/s]                                                         {'loss': 4.2499, 'grad_norm': 0.2604418098926544, 'learning_rate': 7.19005165805699e-05, 'epoch': 0.64}
 64%|██████▍   | 30750/48008 [4:25:01<2:56:17,  1.63it/s] 64%|██████▍   | 30751/48008 [4:25:02<2:47:08,  1.72it/s] 64%|██████▍   | 30752/48008 [4:25:03<2:55:07,  1.64it/s] 64%|██████▍   | 30753/48008 [4:25:03<3:01:08,  1.59it/s] 64%|██████▍   | 30754/48008 [4:25:04<3:22:29,  1.42it/s] 64%|██████▍   | 30755/48008 [4:25:05<2:57:43,  1.62it/s] 64%|██████▍   | 30756/48008 [4:25:05<2:49:06,  1.70it/s] 64%|██████▍   | 30757/48008 [4:25:06<2:42:02,  1.77it/s] 64%|██████▍   | 30758/48008 [4:25:06<2:29:19,  1.93it/s] 64%|██████▍   | 30759/48008 [4:25:07<2:25:56,  1.97it/s] 64%|██████▍   | 30760/48008 [4:25:07<2:23:40,  2.00it/s] 64%|██████▍   | 30761/48008 [4:25:07<2:16:20,  2.11it/s] 64%|██████▍   | 30762/48008 [4:25:08<2:17:11,  2.10it/s] 64%|██████▍   | 30763/48008 [4:25:08<2:17:30,  2.09it/s] 64%|██████▍   | 30764/48008 [4:25:09<2:20:44,  2.04it/s] 64%|██████▍   | 30765/48008 [4:25:09<2:14:35,  2.14it/s] 64%|██████▍   | 30766/48008 [4:25:10<2:10:05,  2.21it/s] 64%|██████▍   | 30767/48008 [4:25:10<2:07:09,  2.26it/s] 64%|██████▍   | 30768/48008 [4:25:11<2:13:58,  2.14it/s] 64%|██████▍   | 30769/48008 [4:25:11<2:17:23,  2.09it/s] 64%|██████▍   | 30770/48008 [4:25:12<2:17:09,  2.09it/s] 64%|██████▍   | 30771/48008 [4:25:12<2:17:24,  2.09it/s] 64%|██████▍   | 30772/48008 [4:25:13<2:19:35,  2.06it/s] 64%|██████▍   | 30773/48008 [4:25:13<2:22:39,  2.01it/s] 64%|██████▍   | 30774/48008 [4:25:14<2:21:07,  2.04it/s] 64%|██████▍   | 30775/48008 [4:25:14<2:20:07,  2.05it/s] 64%|██████▍   | 30776/48008 [4:25:15<2:53:14,  1.66it/s] 64%|██████▍   | 30777/48008 [4:25:16<2:44:36,  1.74it/s] 64%|██████▍   | 30778/48008 [4:25:16<2:38:29,  1.81it/s] 64%|██████▍   | 30779/48008 [4:25:16<2:32:37,  1.88it/s] 64%|██████▍   | 30780/48008 [4:25:17<2:30:13,  1.91it/s] 64%|██████▍   | 30781/48008 [4:25:18<2:29:58,  1.91it/s] 64%|██████▍   | 30782/48008 [4:25:18<2:20:47,  2.04it/s] 64%|██████▍   | 30783/48008 [4:25:18<2:21:32,  2.03it/s] 64%|██████▍   | 30784/48008 [4:25:19<2:25:06,  1.98it/s] 64%|██████▍   | 30785/48008 [4:25:20<2:57:00,  1.62it/s] 64%|██████▍   | 30786/48008 [4:25:21<3:51:11,  1.24it/s] 64%|██████▍   | 30787/48008 [4:25:22<3:23:18,  1.41it/s] 64%|██████▍   | 30788/48008 [4:25:22<3:03:29,  1.56it/s] 64%|██████▍   | 30789/48008 [4:25:23<2:49:32,  1.69it/s] 64%|██████▍   | 30790/48008 [4:25:23<2:45:21,  1.74it/s] 64%|██████▍   | 30791/48008 [4:25:24<2:39:17,  1.80it/s] 64%|██████▍   | 30792/48008 [4:25:24<3:06:54,  1.54it/s] 64%|██████▍   | 30793/48008 [4:25:25<2:52:09,  1.67it/s] 64%|██████▍   | 30794/48008 [4:25:25<2:41:59,  1.77it/s] 64%|██████▍   | 30795/48008 [4:25:26<2:34:51,  1.85it/s] 64%|██████▍   | 30796/48008 [4:25:26<2:29:51,  1.91it/s] 64%|██████▍   | 30797/48008 [4:25:27<2:26:18,  1.96it/s] 64%|██████▍   | 30798/48008 [4:25:27<2:25:23,  1.97it/s] 64%|██████▍   | 30799/48008 [4:25:28<2:23:24,  2.00it/s] 64%|██████▍   | 30800/48008 [4:25:28<2:16:07,  2.11it/s]                                                         {'loss': 4.2537, 'grad_norm': 0.1738353967666626, 'learning_rate': 7.169221796367272e-05, 'epoch': 0.64} 64%|██████▍   | 30800/48008 [4:25:28<2:16:07,  2.11it/s]
 64%|██████▍   | 30801/48008 [4:25:29<2:11:28,  2.18it/s] 64%|██████▍   | 30802/48008 [4:25:29<2:13:20,  2.15it/s] 64%|██████▍   | 30803/48008 [4:25:30<2:15:08,  2.12it/s] 64%|██████▍   | 30804/48008 [4:25:30<2:32:13,  1.88it/s] 64%|██████▍   | 30805/48008 [4:25:31<2:22:20,  2.01it/s] 64%|██████▍   | 30806/48008 [4:25:31<2:15:33,  2.11it/s] 64%|██████▍   | 30807/48008 [4:25:32<2:18:42,  2.07it/s] 64%|██████▍   | 30808/48008 [4:25:32<2:23:10,  2.00it/s] 64%|██████▍   | 30809/48008 [4:25:33<3:28:37,  1.37it/s] 64%|██████▍   | 30810/48008 [4:25:34<3:07:27,  1.53it/s] 64%|██████▍   | 30811/48008 [4:25:34<2:54:40,  1.64it/s] 64%|██████▍   | 30812/48008 [4:25:35<2:44:16,  1.74it/s] 64%|██████▍   | 30813/48008 [4:25:35<2:36:44,  1.83it/s] 64%|██████▍   | 30814/48008 [4:25:36<2:34:29,  1.85it/s] 64%|██████▍   | 30815/48008 [4:25:36<2:23:53,  1.99it/s] 64%|██████▍   | 30816/48008 [4:25:37<2:16:36,  2.10it/s] 64%|██████▍   | 30817/48008 [4:25:38<3:23:18,  1.41it/s] 64%|██████▍   | 30818/48008 [4:25:39<3:07:13,  1.53it/s] 64%|██████▍   | 30819/48008 [4:25:39<2:53:56,  1.65it/s] 64%|██████▍   | 30820/48008 [4:25:39<2:37:35,  1.82it/s] 64%|██████▍   | 30821/48008 [4:25:40<2:33:33,  1.87it/s] 64%|██████▍   | 30822/48008 [4:25:40<2:30:55,  1.90it/s] 64%|██████▍   | 30823/48008 [4:25:41<2:28:51,  1.92it/s] 64%|██████▍   | 30824/48008 [4:25:41<2:19:51,  2.05it/s] 64%|██████▍   | 30825/48008 [4:25:42<2:19:13,  2.06it/s] 64%|██████▍   | 30826/48008 [4:25:42<2:19:00,  2.06it/s] 64%|██████▍   | 30827/48008 [4:25:43<2:18:41,  2.06it/s] 64%|██████▍   | 30828/48008 [4:25:43<2:20:14,  2.04it/s] 64%|██████▍   | 30829/48008 [4:25:44<2:18:52,  2.06it/s] 64%|██████▍   | 30830/48008 [4:25:44<2:22:20,  2.01it/s] 64%|██████▍   | 30831/48008 [4:25:45<2:20:59,  2.03it/s] 64%|██████▍   | 30832/48008 [4:25:45<2:22:06,  2.01it/s] 64%|██████▍   | 30833/48008 [4:25:46<2:15:06,  2.12it/s] 64%|██████▍   | 30834/48008 [4:25:46<2:17:58,  2.07it/s] 64%|██████▍   | 30835/48008 [4:25:47<2:21:31,  2.02it/s] 64%|██████▍   | 30836/48008 [4:25:47<2:22:31,  2.01it/s] 64%|██████▍   | 30837/48008 [4:25:48<2:24:42,  1.98it/s] 64%|██████▍   | 30838/48008 [4:25:48<2:25:53,  1.96it/s] 64%|██████▍   | 30839/48008 [4:25:49<2:23:15,  2.00it/s] 64%|██████▍   | 30840/48008 [4:25:49<2:16:08,  2.10it/s] 64%|██████▍   | 30841/48008 [4:25:50<2:11:06,  2.18it/s] 64%|██████▍   | 30842/48008 [4:25:50<2:18:06,  2.07it/s] 64%|██████▍   | 30843/48008 [4:25:51<2:20:58,  2.03it/s] 64%|██████▍   | 30844/48008 [4:25:51<2:14:25,  2.13it/s] 64%|██████▍   | 30845/48008 [4:25:52<2:18:42,  2.06it/s] 64%|██████▍   | 30846/48008 [4:25:52<2:18:26,  2.07it/s] 64%|██████▍   | 30847/48008 [4:25:53<2:12:36,  2.16it/s] 64%|██████▍   | 30848/48008 [4:25:53<2:08:28,  2.23it/s] 64%|██████▍   | 30849/48008 [4:25:53<2:11:14,  2.18it/s] 64%|██████▍   | 30850/48008 [4:25:54<2:13:26,  2.14it/s]                                                         {'loss': 4.2793, 'grad_norm': 0.3355526924133301, 'learning_rate': 7.148391934677554e-05, 'epoch': 0.64}
 64%|██████▍   | 30850/48008 [4:25:54<2:13:26,  2.14it/s] 64%|██████▍   | 30851/48008 [4:25:54<2:14:50,  2.12it/s] 64%|██████▍   | 30852/48008 [4:25:55<2:15:27,  2.11it/s] 64%|██████▍   | 30853/48008 [4:25:55<2:10:40,  2.19it/s] 64%|██████▍   | 30854/48008 [4:25:56<2:14:54,  2.12it/s] 64%|██████▍   | 30855/48008 [4:25:56<2:15:47,  2.11it/s] 64%|██████▍   | 30856/48008 [4:25:57<2:16:09,  2.10it/s] 64%|██████▍   | 30857/48008 [4:25:57<2:16:02,  2.10it/s] 64%|██████▍   | 30858/48008 [4:25:58<2:18:11,  2.07it/s] 64%|██████▍   | 30859/48008 [4:25:58<2:17:52,  2.07it/s] 64%|██████▍   | 30860/48008 [4:25:59<2:19:23,  2.05it/s] 64%|██████▍   | 30861/48008 [4:25:59<2:19:06,  2.05it/s] 64%|██████▍   | 30862/48008 [4:26:00<2:18:46,  2.06it/s] 64%|██████▍   | 30863/48008 [4:26:00<2:20:34,  2.03it/s] 64%|██████▍   | 30864/48008 [4:26:01<2:19:49,  2.04it/s] 64%|██████▍   | 30865/48008 [4:26:01<2:13:31,  2.14it/s] 64%|██████▍   | 30866/48008 [4:26:02<2:17:41,  2.08it/s] 64%|██████▍   | 30867/48008 [4:26:02<2:19:34,  2.05it/s] 64%|██████▍   | 30868/48008 [4:26:03<2:18:37,  2.06it/s] 64%|██████▍   | 30869/48008 [4:26:03<2:18:28,  2.06it/s] 64%|██████▍   | 30870/48008 [4:26:04<2:18:29,  2.06it/s] 64%|██████▍   | 30871/48008 [4:26:04<2:18:24,  2.06it/s] 64%|██████▍   | 30872/48008 [4:26:05<2:18:11,  2.07it/s] 64%|██████▍   | 30873/48008 [4:26:05<2:18:02,  2.07it/s] 64%|██████▍   | 30874/48008 [4:26:06<2:19:37,  2.05it/s] 64%|██████▍   | 30875/48008 [4:26:06<2:20:33,  2.03it/s] 64%|██████▍   | 30876/48008 [4:26:06<2:19:17,  2.05it/s] 64%|██████▍   | 30877/48008 [4:26:07<2:19:06,  2.05it/s] 64%|██████▍   | 30878/48008 [4:26:07<2:18:36,  2.06it/s] 64%|██████▍   | 30879/48008 [4:26:08<2:18:32,  2.06it/s] 64%|██████▍   | 30880/48008 [4:26:08<2:21:37,  2.02it/s] 64%|██████▍   | 30881/48008 [4:26:09<2:20:07,  2.04it/s] 64%|██████▍   | 30882/48008 [4:26:09<2:13:24,  2.14it/s] 64%|██████▍   | 30883/48008 [4:26:10<2:14:22,  2.12it/s] 64%|██████▍   | 30884/48008 [4:26:10<2:16:50,  2.09it/s] 64%|██████▍   | 30885/48008 [4:26:11<2:19:06,  2.05it/s] 64%|██████▍   | 30886/48008 [4:26:11<2:20:22,  2.03it/s] 64%|██████▍   | 30887/48008 [4:26:12<2:24:41,  1.97it/s] 64%|██████▍   | 30888/48008 [4:26:12<2:24:32,  1.97it/s] 64%|██████▍   | 30889/48008 [4:26:13<2:16:59,  2.08it/s] 64%|██████▍   | 30890/48008 [4:26:13<2:17:16,  2.08it/s] 64%|██████▍   | 30891/48008 [4:26:14<2:17:20,  2.08it/s] 64%|██████▍   | 30892/48008 [4:26:14<2:11:43,  2.17it/s] 64%|██████▍   | 30893/48008 [4:26:15<2:16:50,  2.08it/s] 64%|██████▍   | 30894/48008 [4:26:15<2:21:57,  2.01it/s] 64%|██████▍   | 30895/48008 [4:26:16<2:23:34,  1.99it/s] 64%|██████▍   | 30896/48008 [4:26:16<2:23:50,  1.98it/s] 64%|██████▍   | 30897/48008 [4:26:17<2:16:05,  2.10it/s] 64%|██████▍   | 30898/48008 [4:26:17<2:19:51,  2.04it/s] 64%|██████▍   | 30899/48008 [4:26:18<2:13:28,  2.14it/s] 64%|██████▍   | 30900/48008 [4:26:18<2:16:57,  2.08it/s]                                                         {'loss': 4.256, 'grad_norm': 0.20833554863929749, 'learning_rate': 7.127562072987836e-05, 'epoch': 0.64} 64%|██████▍   | 30900/48008 [4:26:18<2:16:57,  2.08it/s]
 64%|██████▍   | 30901/48008 [4:26:19<2:18:42,  2.06it/s] 64%|██████▍   | 30902/48008 [4:26:19<2:18:26,  2.06it/s] 64%|██████▍   | 30903/48008 [4:26:20<2:18:09,  2.06it/s] 64%|██████▍   | 30904/48008 [4:26:20<2:17:57,  2.07it/s] 64%|██████▍   | 30905/48008 [4:26:21<2:18:05,  2.06it/s] 64%|██████▍   | 30906/48008 [4:26:21<2:21:08,  2.02it/s] 64%|██████▍   | 30907/48008 [4:26:22<2:22:06,  2.01it/s] 64%|██████▍   | 30908/48008 [4:26:22<2:20:40,  2.03it/s] 64%|██████▍   | 30909/48008 [4:26:23<2:23:18,  1.99it/s] 64%|██████▍   | 30910/48008 [4:26:23<2:21:37,  2.01it/s] 64%|██████▍   | 30911/48008 [4:26:24<2:22:13,  2.00it/s] 64%|██████▍   | 30912/48008 [4:26:24<2:22:38,  2.00it/s] 64%|██████▍   | 30913/48008 [4:26:25<2:23:26,  1.99it/s] 64%|██████▍   | 30914/48008 [4:26:25<2:24:42,  1.97it/s] 64%|██████▍   | 30915/48008 [4:26:26<2:16:58,  2.08it/s] 64%|██████▍   | 30916/48008 [4:26:26<2:17:05,  2.08it/s] 64%|██████▍   | 30917/48008 [4:26:26<2:16:53,  2.08it/s] 64%|██████▍   | 30918/48008 [4:26:27<2:16:50,  2.08it/s] 64%|██████▍   | 30919/48008 [4:26:27<2:16:28,  2.09it/s] 64%|██████▍   | 30920/48008 [4:26:28<2:16:42,  2.08it/s] 64%|██████▍   | 30921/48008 [4:26:28<2:19:17,  2.04it/s] 64%|██████▍   | 30922/48008 [4:26:29<2:20:10,  2.03it/s] 64%|██████▍   | 30923/48008 [4:26:29<2:13:51,  2.13it/s] 64%|██████▍   | 30924/48008 [4:26:30<2:14:38,  2.11it/s] 64%|██████▍   | 30925/48008 [4:26:30<2:09:46,  2.19it/s] 64%|██████▍   | 30926/48008 [4:26:31<2:12:15,  2.15it/s] 64%|██████▍   | 30927/48008 [4:26:31<2:14:06,  2.12it/s] 64%|██████▍   | 30928/48008 [4:26:32<2:16:47,  2.08it/s] 64%|██████▍   | 30929/48008 [4:26:32<2:19:23,  2.04it/s] 64%|██████▍   | 30930/48008 [4:26:33<2:18:54,  2.05it/s] 64%|██████▍   | 30931/48008 [4:26:33<2:18:28,  2.06it/s] 64%|██████▍   | 30932/48008 [4:26:34<2:18:15,  2.06it/s] 64%|██████▍   | 30933/48008 [4:26:34<2:12:09,  2.15it/s] 64%|██████▍   | 30934/48008 [4:26:35<2:14:02,  2.12it/s] 64%|██████▍   | 30935/48008 [4:26:35<2:09:53,  2.19it/s] 64%|██████▍   | 30936/48008 [4:26:35<2:11:56,  2.16it/s] 64%|██████▍   | 30937/48008 [4:26:36<2:17:03,  2.08it/s] 64%|██████▍   | 30938/48008 [4:26:37<2:17:07,  2.07it/s] 64%|██████▍   | 30939/48008 [4:26:37<2:17:09,  2.07it/s] 64%|██████▍   | 30940/48008 [4:26:38<2:21:33,  2.01it/s] 64%|██████▍   | 30941/48008 [4:26:38<2:24:42,  1.97it/s] 64%|██████▍   | 30942/48008 [4:26:39<2:22:20,  2.00it/s] 64%|██████▍   | 30943/48008 [4:26:39<2:21:16,  2.01it/s] 64%|██████▍   | 30944/48008 [4:26:40<2:22:54,  1.99it/s] 64%|██████▍   | 30945/48008 [4:26:40<2:21:49,  2.01it/s] 64%|██████▍   | 30946/48008 [4:26:41<2:20:31,  2.02it/s] 64%|██████▍   | 30947/48008 [4:26:41<2:21:25,  2.01it/s] 64%|██████▍   | 30948/48008 [4:26:42<2:23:19,  1.98it/s] 64%|██████▍   | 30949/48008 [4:26:42<2:23:24,  1.98it/s] 64%|██████▍   | 30950/48008 [4:26:43<2:21:52,  2.00it/s]                                                         {'loss': 4.2347, 'grad_norm': 0.35837146639823914, 'learning_rate': 7.106732211298117e-05, 'epoch': 0.64}
 64%|██████▍   | 30950/48008 [4:26:43<2:21:52,  2.00it/s] 64%|██████▍   | 30951/48008 [4:26:43<2:20:14,  2.03it/s] 64%|██████▍   | 30952/48008 [4:26:44<2:52:55,  1.64it/s] 64%|██████▍   | 30953/48008 [4:26:44<2:44:08,  1.73it/s] 64%|██████▍   | 30954/48008 [4:26:45<2:39:30,  1.78it/s] 64%|██████▍   | 30955/48008 [4:26:45<2:32:27,  1.86it/s] 64%|██████▍   | 30956/48008 [4:26:46<2:29:25,  1.90it/s] 64%|██████▍   | 30957/48008 [4:26:46<2:25:45,  1.95it/s] 64%|██████▍   | 30958/48008 [4:26:47<2:27:54,  1.92it/s] 64%|██████▍   | 30959/48008 [4:26:47<2:27:44,  1.92it/s] 64%|██████▍   | 30960/48008 [4:26:48<2:26:32,  1.94it/s] 64%|██████▍   | 30961/48008 [4:26:48<2:18:18,  2.05it/s] 64%|██████▍   | 30962/48008 [4:26:49<2:12:08,  2.15it/s] 64%|██████▍   | 30963/48008 [4:26:50<3:19:11,  1.43it/s] 64%|██████▍   | 30964/48008 [4:26:51<3:00:12,  1.58it/s] 64%|██████▍   | 30965/48008 [4:26:51<2:47:29,  1.70it/s] 65%|██████▍   | 30966/48008 [4:26:52<3:12:28,  1.48it/s] 65%|██████▍   | 30967/48008 [4:26:52<2:55:53,  1.61it/s] 65%|██████▍   | 30968/48008 [4:26:53<2:44:17,  1.73it/s] 65%|██████▍   | 30969/48008 [4:26:53<2:30:22,  1.89it/s] 65%|██████▍   | 30970/48008 [4:26:54<2:28:26,  1.91it/s] 65%|██████▍   | 30971/48008 [4:26:54<2:24:25,  1.97it/s] 65%|██████▍   | 30972/48008 [4:26:55<2:25:27,  1.95it/s] 65%|██████▍   | 30973/48008 [4:26:55<2:22:59,  1.99it/s] 65%|██████▍   | 30974/48008 [4:26:56<2:24:26,  1.97it/s] 65%|██████▍   | 30975/48008 [4:26:56<2:22:05,  2.00it/s] 65%|██████▍   | 30976/48008 [4:26:57<2:14:52,  2.10it/s] 65%|██████▍   | 30977/48008 [4:26:57<2:17:29,  2.06it/s] 65%|██████▍   | 30978/48008 [4:26:58<2:20:58,  2.01it/s] 65%|██████▍   | 30979/48008 [4:26:58<2:21:12,  2.01it/s] 65%|██████▍   | 30980/48008 [4:26:59<2:21:58,  2.00it/s] 65%|██████▍   | 30981/48008 [4:26:59<2:14:56,  2.10it/s] 65%|██████▍   | 30982/48008 [4:27:00<2:10:06,  2.18it/s] 65%|██████▍   | 30983/48008 [4:27:00<2:28:27,  1.91it/s] 65%|██████▍   | 30984/48008 [4:27:01<2:25:19,  1.95it/s] 65%|██████▍   | 30985/48008 [4:27:01<2:24:34,  1.96it/s] 65%|██████▍   | 30986/48008 [4:27:02<2:24:18,  1.97it/s] 65%|██████▍   | 30987/48008 [4:27:02<2:16:29,  2.08it/s] 65%|██████▍   | 30988/48008 [4:27:03<2:18:56,  2.04it/s] 65%|██████▍   | 30989/48008 [4:27:03<2:12:38,  2.14it/s] 65%|██████▍   | 30990/48008 [4:27:04<2:13:50,  2.12it/s] 65%|██████▍   | 30991/48008 [4:27:04<2:14:52,  2.10it/s] 65%|██████▍   | 30992/48008 [4:27:05<2:31:48,  1.87it/s] 65%|██████▍   | 30993/48008 [4:27:05<2:21:49,  2.00it/s] 65%|██████▍   | 30994/48008 [4:27:06<2:20:14,  2.02it/s] 65%|██████▍   | 30995/48008 [4:27:06<2:19:09,  2.04it/s] 65%|██████▍   | 30996/48008 [4:27:07<2:18:24,  2.05it/s] 65%|██████▍   | 30997/48008 [4:27:07<2:17:50,  2.06it/s] 65%|██████▍   | 30998/48008 [4:27:08<2:17:37,  2.06it/s] 65%|██████▍   | 30999/48008 [4:27:08<2:20:34,  2.02it/s] 65%|██████▍   | 31000/48008 [4:27:09<2:19:16,  2.04it/s]                                                         {'loss': 4.2709, 'grad_norm': 0.164352148771286, 'learning_rate': 7.085902349608399e-05, 'epoch': 0.65}
 65%|██████▍   | 31000/48008 [4:27:09<2:19:16,  2.04it/s] 65%|██████▍   | 31001/48008 [4:27:09<2:18:58,  2.04it/s] 65%|██████▍   | 31002/48008 [4:27:10<2:20:02,  2.02it/s] 65%|██████▍   | 31003/48008 [4:27:10<2:18:29,  2.05it/s] 65%|██████▍   | 31004/48008 [4:27:10<2:12:34,  2.14it/s] 65%|██████▍   | 31005/48008 [4:27:11<2:15:17,  2.09it/s] 65%|██████▍   | 31006/48008 [4:27:11<2:15:22,  2.09it/s] 65%|██████▍   | 31007/48008 [4:27:12<2:15:27,  2.09it/s] 65%|██████▍   | 31008/48008 [4:27:12<2:10:24,  2.17it/s] 65%|██████▍   | 31009/48008 [4:27:13<2:12:11,  2.14it/s] 65%|██████▍   | 31010/48008 [4:27:13<2:14:52,  2.10it/s] 65%|██████▍   | 31011/48008 [4:27:14<2:31:36,  1.87it/s] 65%|██████▍   | 31012/48008 [4:27:14<2:26:47,  1.93it/s] 65%|██████▍   | 31013/48008 [4:27:15<2:23:28,  1.97it/s] 65%|██████▍   | 31014/48008 [4:27:15<2:24:26,  1.96it/s] 65%|██████▍   | 31015/48008 [4:27:16<2:26:58,  1.93it/s] 65%|██████▍   | 31016/48008 [4:27:16<2:23:32,  1.97it/s] 65%|██████▍   | 31017/48008 [4:27:17<2:15:53,  2.08it/s] 65%|██████▍   | 31018/48008 [4:27:17<2:20:51,  2.01it/s] 65%|██████▍   | 31019/48008 [4:27:19<3:25:01,  1.38it/s] 65%|██████▍   | 31020/48008 [4:27:19<3:04:21,  1.54it/s] 65%|██████▍   | 31021/48008 [4:27:20<2:49:59,  1.67it/s] 65%|██████▍   | 31022/48008 [4:27:20<2:34:28,  1.83it/s] 65%|██████▍   | 31023/48008 [4:27:20<2:29:10,  1.90it/s] 65%|██████▍   | 31024/48008 [4:27:21<2:26:59,  1.93it/s] 65%|██████▍   | 31025/48008 [4:27:21<2:17:58,  2.05it/s] 65%|██████▍   | 31026/48008 [4:27:22<2:17:30,  2.06it/s] 65%|██████▍   | 31027/48008 [4:27:22<2:11:31,  2.15it/s] 65%|██████▍   | 31028/48008 [4:27:23<2:12:51,  2.13it/s] 65%|██████▍   | 31029/48008 [4:27:23<2:08:18,  2.21it/s] 65%|██████▍   | 31030/48008 [4:27:24<2:10:42,  2.16it/s] 65%|██████▍   | 31031/48008 [4:27:24<2:12:31,  2.14it/s] 65%|██████▍   | 31032/48008 [4:27:25<3:19:00,  1.42it/s] 65%|██████▍   | 31033/48008 [4:27:26<2:54:46,  1.62it/s] 65%|██████▍   | 31034/48008 [4:27:26<2:48:19,  1.68it/s] 65%|██████▍   | 31035/48008 [4:27:27<2:39:00,  1.78it/s] 65%|██████▍   | 31036/48008 [4:27:27<2:26:26,  1.93it/s] 65%|██████▍   | 31037/48008 [4:27:28<2:28:32,  1.90it/s] 65%|██████▍   | 31038/48008 [4:27:28<2:26:57,  1.92it/s] 65%|██████▍   | 31039/48008 [4:27:29<2:18:03,  2.05it/s] 65%|██████▍   | 31040/48008 [4:27:29<2:11:50,  2.15it/s] 65%|██████▍   | 31041/48008 [4:27:30<2:14:54,  2.10it/s] 65%|██████▍   | 31042/48008 [4:27:30<2:31:49,  1.86it/s] 65%|██████▍   | 31043/48008 [4:27:31<2:27:08,  1.92it/s] 65%|██████▍   | 31044/48008 [4:27:31<2:18:20,  2.04it/s] 65%|██████▍   | 31045/48008 [4:27:32<2:22:13,  1.99it/s] 65%|██████▍   | 31046/48008 [4:27:32<2:15:24,  2.09it/s] 65%|██████▍   | 31047/48008 [4:27:33<2:17:39,  2.05it/s] 65%|██████▍   | 31048/48008 [4:27:33<2:20:30,  2.01it/s] 65%|██████▍   | 31049/48008 [4:27:34<2:21:27,  2.00it/s] 65%|██████▍   | 31050/48008 [4:27:34<2:21:44,  1.99it/s]                                                         {'loss': 4.1981, 'grad_norm': 0.14920927584171295, 'learning_rate': 7.065072487918681e-05, 'epoch': 0.65} 65%|██████▍   | 31050/48008 [4:27:34<2:21:44,  1.99it/s]
 65%|██████▍   | 31051/48008 [4:27:35<2:19:45,  2.02it/s] 65%|██████▍   | 31052/48008 [4:27:36<3:23:42,  1.39it/s] 65%|██████▍   | 31053/48008 [4:27:36<3:06:32,  1.51it/s] 65%|██████▍   | 31054/48008 [4:27:37<2:45:51,  1.70it/s] 65%|██████▍   | 31055/48008 [4:27:38<3:11:19,  1.48it/s] 65%|██████▍   | 31056/48008 [4:27:39<3:28:43,  1.35it/s] 65%|██████▍   | 31057/48008 [4:27:39<3:10:19,  1.48it/s] 65%|██████▍   | 31058/48008 [4:27:40<2:48:34,  1.68it/s] 65%|██████▍   | 31059/48008 [4:27:40<2:38:40,  1.78it/s] 65%|██████▍   | 31060/48008 [4:27:41<2:32:15,  1.86it/s] 65%|██████▍   | 31061/48008 [4:27:41<2:21:49,  1.99it/s] 65%|██████▍   | 31062/48008 [4:27:41<2:20:16,  2.01it/s] 65%|██████▍   | 31063/48008 [4:27:42<2:22:12,  1.99it/s] 65%|██████▍   | 31064/48008 [4:27:42<2:22:07,  1.99it/s] 65%|██████▍   | 31065/48008 [4:27:43<2:22:33,  1.98it/s] 65%|██████▍   | 31066/48008 [4:27:44<2:24:15,  1.96it/s] 65%|██████▍   | 31067/48008 [4:27:44<2:26:19,  1.93it/s] 65%|██████▍   | 31068/48008 [4:27:45<2:56:40,  1.60it/s] 65%|██████▍   | 31069/48008 [4:27:45<2:39:05,  1.77it/s] 65%|██████▍   | 31070/48008 [4:27:46<2:32:01,  1.86it/s] 65%|██████▍   | 31071/48008 [4:27:46<2:27:22,  1.92it/s] 65%|██████▍   | 31072/48008 [4:27:47<2:24:03,  1.96it/s] 65%|██████▍   | 31073/48008 [4:27:47<2:26:49,  1.92it/s] 65%|██████▍   | 31074/48008 [4:27:48<2:25:39,  1.94it/s] 65%|██████▍   | 31075/48008 [4:27:48<2:22:59,  1.97it/s] 65%|██████▍   | 31076/48008 [4:27:49<2:20:28,  2.01it/s] 65%|██████▍   | 31077/48008 [4:27:49<2:19:52,  2.02it/s] 65%|██████▍   | 31078/48008 [4:27:50<2:12:58,  2.12it/s] 65%|██████▍   | 31079/48008 [4:27:50<2:13:20,  2.12it/s] 65%|██████▍   | 31080/48008 [4:27:51<2:14:30,  2.10it/s] 65%|██████▍   | 31081/48008 [4:27:51<2:19:45,  2.02it/s] 65%|██████▍   | 31082/48008 [4:27:52<2:21:45,  1.99it/s] 65%|██████▍   | 31083/48008 [4:27:52<2:25:32,  1.94it/s] 65%|██████▍   | 31084/48008 [4:27:53<2:22:36,  1.98it/s] 65%|██████▍   | 31085/48008 [4:27:53<2:23:24,  1.97it/s] 65%|██████▍   | 31086/48008 [4:27:54<2:23:00,  1.97it/s] 65%|██████▍   | 31087/48008 [4:27:54<2:23:01,  1.97it/s] 65%|██████▍   | 31088/48008 [4:27:55<2:20:52,  2.00it/s] 65%|██████▍   | 31089/48008 [4:27:55<2:19:21,  2.02it/s] 65%|██████▍   | 31090/48008 [4:27:56<2:12:27,  2.13it/s] 65%|██████▍   | 31091/48008 [4:27:56<2:13:12,  2.12it/s] 65%|██████▍   | 31092/48008 [4:27:57<2:16:07,  2.07it/s] 65%|██████▍   | 31093/48008 [4:27:57<2:17:49,  2.05it/s] 65%|██████▍   | 31094/48008 [4:27:58<2:17:28,  2.05it/s] 65%|██████▍   | 31095/48008 [4:27:58<2:19:53,  2.01it/s] 65%|██████▍   | 31096/48008 [4:27:59<2:10:03,  2.17it/s] 65%|██████▍   | 31097/48008 [4:27:59<2:05:57,  2.24it/s] 65%|██████▍   | 31098/48008 [4:27:59<2:08:38,  2.19it/s] 65%|██████▍   | 31099/48008 [4:28:00<2:10:51,  2.15it/s] 65%|██████▍   | 31100/48008 [4:28:00<2:06:43,  2.22it/s]                                                         {'loss': 4.2306, 'grad_norm': 0.2687179744243622, 'learning_rate': 7.044242626228961e-05, 'epoch': 0.65}
 65%|██████▍   | 31100/48008 [4:28:00<2:06:43,  2.22it/s] 65%|██████▍   | 31101/48008 [4:28:01<2:09:14,  2.18it/s] 65%|██████▍   | 31102/48008 [4:28:01<2:11:06,  2.15it/s] 65%|██████▍   | 31103/48008 [4:28:02<2:07:13,  2.21it/s] 65%|██████▍   | 31104/48008 [4:28:02<2:15:23,  2.08it/s] 65%|██████▍   | 31105/48008 [4:28:03<2:07:18,  2.21it/s] 65%|██████▍   | 31106/48008 [4:28:03<2:10:19,  2.16it/s] 65%|██████▍   | 31107/48008 [4:28:04<2:06:53,  2.22it/s] 65%|██████▍   | 31108/48008 [4:28:04<2:04:11,  2.27it/s] 65%|██████▍   | 31109/48008 [4:28:04<2:01:51,  2.31it/s] 65%|██████▍   | 31110/48008 [4:28:05<2:08:07,  2.20it/s] 65%|██████▍   | 31111/48008 [4:28:05<2:12:24,  2.13it/s] 65%|██████▍   | 31112/48008 [4:28:06<2:13:40,  2.11it/s] 65%|██████▍   | 31113/48008 [4:28:06<2:14:18,  2.10it/s] 65%|██████▍   | 31114/48008 [4:28:07<2:15:18,  2.08it/s] 65%|██████▍   | 31115/48008 [4:28:07<2:17:40,  2.05it/s] 65%|██████▍   | 31116/48008 [4:28:08<2:18:55,  2.03it/s] 65%|██████▍   | 31117/48008 [4:28:08<2:19:43,  2.01it/s] 65%|██████▍   | 31118/48008 [4:28:09<2:18:28,  2.03it/s] 65%|██████▍   | 31119/48008 [4:28:09<2:20:48,  2.00it/s] 65%|██████▍   | 31120/48008 [4:28:10<2:21:02,  2.00it/s] 65%|██████▍   | 31121/48008 [4:28:11<3:32:06,  1.33it/s] 65%|██████▍   | 31122/48008 [4:28:12<3:09:02,  1.49it/s] 65%|██████▍   | 31123/48008 [4:28:12<2:53:13,  1.62it/s] 65%|██████▍   | 31124/48008 [4:28:13<2:42:11,  1.73it/s] 65%|██████▍   | 31125/48008 [4:28:13<2:37:00,  1.79it/s] 65%|██████▍   | 31126/48008 [4:28:14<3:03:26,  1.53it/s] 65%|██████▍   | 31127/48008 [4:28:16<4:12:58,  1.11it/s] 65%|██████▍   | 31128/48008 [4:28:16<3:38:33,  1.29it/s] 65%|██████▍   | 31129/48008 [4:28:16<3:08:14,  1.49it/s] 65%|██████▍   | 31130/48008 [4:28:17<2:55:09,  1.61it/s] 65%|██████▍   | 31131/48008 [4:28:17<2:45:34,  1.70it/s] 65%|██████▍   | 31132/48008 [4:28:19<3:40:57,  1.27it/s] 65%|██████▍   | 31133/48008 [4:28:20<4:14:12,  1.11it/s] 65%|██████▍   | 31134/48008 [4:28:21<4:43:12,  1.01s/it] 65%|██████▍   | 31135/48008 [4:28:22<3:58:46,  1.18it/s] 65%|██████▍   | 31136/48008 [4:28:22<3:31:12,  1.33it/s] 65%|██████▍   | 31137/48008 [4:28:23<4:13:09,  1.11it/s] 65%|██████▍   | 31138/48008 [4:28:24<3:39:11,  1.28it/s] 65%|██████▍   | 31139/48008 [4:28:25<4:05:39,  1.14it/s] 65%|██████▍   | 31140/48008 [4:28:26<3:38:01,  1.29it/s] 65%|██████▍   | 31141/48008 [4:28:26<3:07:59,  1.50it/s] 65%|██████▍   | 31142/48008 [4:28:26<2:47:00,  1.68it/s] 65%|██████▍   | 31143/48008 [4:28:27<2:37:16,  1.79it/s] 65%|██████▍   | 31144/48008 [4:28:27<2:31:02,  1.86it/s] 65%|██████▍   | 31145/48008 [4:28:28<2:43:22,  1.72it/s] 65%|██████▍   | 31146/48008 [4:28:29<2:37:39,  1.78it/s] 65%|██████▍   | 31147/48008 [4:28:29<2:35:01,  1.81it/s] 65%|██████▍   | 31148/48008 [4:28:30<2:31:12,  1.86it/s] 65%|██████▍   | 31149/48008 [4:28:30<2:26:27,  1.92it/s] 65%|██████▍   | 31150/48008 [4:28:31<2:25:18,  1.93it/s]                                                         {'loss': 4.2871, 'grad_norm': 0.20026536285877228, 'learning_rate': 7.023412764539243e-05, 'epoch': 0.65} 65%|██████▍   | 31150/48008 [4:28:31<2:25:18,  1.93it/s]
 65%|██████▍   | 31151/48008 [4:28:31<2:25:56,  1.93it/s] 65%|██████▍   | 31152/48008 [4:28:32<2:27:53,  1.90it/s] 65%|██████▍   | 31153/48008 [4:28:32<2:24:30,  1.94it/s] 65%|██████▍   | 31154/48008 [4:28:33<2:21:46,  1.98it/s] 65%|██████▍   | 31155/48008 [4:28:33<2:21:37,  1.98it/s] 65%|██████▍   | 31156/48008 [4:28:34<2:20:20,  2.00it/s] 65%|██████▍   | 31157/48008 [4:28:34<2:35:29,  1.81it/s] 65%|██████▍   | 31158/48008 [4:28:35<2:31:24,  1.85it/s] 65%|██████▍   | 31159/48008 [4:28:35<2:31:17,  1.86it/s] 65%|██████▍   | 31160/48008 [4:28:36<2:27:12,  1.91it/s] 65%|██████▍   | 31161/48008 [4:28:36<2:18:31,  2.03it/s] 65%|██████▍   | 31162/48008 [4:28:37<2:21:49,  1.98it/s] 65%|██████▍   | 31163/48008 [4:28:37<2:14:25,  2.09it/s] 65%|██████▍   | 31164/48008 [4:28:38<2:16:26,  2.06it/s] 65%|██████▍   | 31165/48008 [4:28:38<2:16:37,  2.05it/s] 65%|██████▍   | 31166/48008 [4:28:39<2:19:17,  2.02it/s] 65%|██████▍   | 31167/48008 [4:28:39<2:21:30,  1.98it/s] 65%|██████▍   | 31168/48008 [4:28:40<2:20:05,  2.00it/s] 65%|██████▍   | 31169/48008 [4:28:40<2:18:39,  2.02it/s] 65%|██████▍   | 31170/48008 [4:28:41<2:33:47,  1.82it/s] 65%|██████▍   | 31171/48008 [4:28:41<2:28:04,  1.90it/s] 65%|██████▍   | 31172/48008 [4:28:42<2:24:18,  1.94it/s] 65%|██████▍   | 31173/48008 [4:28:42<2:21:49,  1.98it/s] 65%|██████▍   | 31174/48008 [4:28:43<2:35:59,  1.80it/s] 65%|██████▍   | 31175/48008 [4:28:43<2:29:44,  1.87it/s] 65%|██████▍   | 31176/48008 [4:28:44<2:26:01,  1.92it/s] 65%|██████▍   | 31177/48008 [4:28:44<2:22:33,  1.97it/s] 65%|██████▍   | 31178/48008 [4:28:45<2:20:33,  2.00it/s] 65%|██████▍   | 31179/48008 [4:28:45<2:21:41,  1.98it/s] 65%|██████▍   | 31180/48008 [4:28:46<2:35:54,  1.80it/s] 65%|██████▍   | 31181/48008 [4:28:47<2:29:13,  1.88it/s] 65%|██████▍   | 31182/48008 [4:28:47<2:25:25,  1.93it/s] 65%|██████▍   | 31183/48008 [4:28:48<2:22:29,  1.97it/s] 65%|██████▍   | 31184/48008 [4:28:48<2:20:22,  2.00it/s] 65%|██████▍   | 31185/48008 [4:28:49<2:19:07,  2.02it/s] 65%|██████▍   | 31186/48008 [4:28:49<2:17:52,  2.03it/s] 65%|██████▍   | 31187/48008 [4:28:49<2:11:33,  2.13it/s] 65%|██████▍   | 31188/48008 [4:28:50<2:12:27,  2.12it/s] 65%|██████▍   | 31189/48008 [4:28:50<2:12:46,  2.11it/s] 65%|██████▍   | 31190/48008 [4:28:51<2:15:26,  2.07it/s] 65%|██████▍   | 31191/48008 [4:28:51<2:09:47,  2.16it/s] 65%|██████▍   | 31192/48008 [4:28:52<2:14:19,  2.09it/s] 65%|██████▍   | 31193/48008 [4:28:52<2:14:51,  2.08it/s] 65%|██████▍   | 31194/48008 [4:28:53<2:16:55,  2.05it/s] 65%|██████▍   | 31195/48008 [4:28:54<3:20:42,  1.40it/s] 65%|██████▍   | 31196/48008 [4:28:55<3:03:59,  1.52it/s] 65%|██████▍   | 31197/48008 [4:28:55<2:53:25,  1.62it/s] 65%|██████▍   | 31198/48008 [4:28:56<2:41:33,  1.73it/s] 65%|██████▍   | 31199/48008 [4:28:56<2:35:21,  1.80it/s] 65%|██████▍   | 31200/48008 [4:28:57<2:28:55,  1.88it/s]                                                         {'loss': 4.2829, 'grad_norm': 0.15818241238594055, 'learning_rate': 7.002582902849525e-05, 'epoch': 0.65}
 65%|██████▍   | 31200/48008 [4:28:57<2:28:55,  1.88it/s] 65%|██████▍   | 31201/48008 [4:28:57<2:26:18,  1.91it/s] 65%|██████▍   | 31202/48008 [4:28:58<2:24:13,  1.94it/s] 65%|██████▍   | 31203/48008 [4:28:58<2:21:27,  1.98it/s] 65%|██████▍   | 31204/48008 [4:28:58<2:11:19,  2.13it/s] 65%|██████▍   | 31205/48008 [4:28:59<2:12:33,  2.11it/s] 65%|██████▌   | 31206/48008 [4:28:59<2:13:36,  2.10it/s] 65%|██████▌   | 31207/48008 [4:29:01<3:19:29,  1.40it/s] 65%|██████▌   | 31208/48008 [4:29:02<4:04:49,  1.14it/s] 65%|██████▌   | 31209/48008 [4:29:02<3:32:19,  1.32it/s] 65%|██████▌   | 31210/48008 [4:29:03<3:10:51,  1.47it/s] 65%|██████▌   | 31211/48008 [4:29:03<2:56:05,  1.59it/s] 65%|██████▌   | 31212/48008 [4:29:04<2:44:17,  1.70it/s] 65%|██████▌   | 31213/48008 [4:29:05<3:39:33,  1.27it/s] 65%|██████▌   | 31214/48008 [4:29:06<3:14:35,  1.44it/s] 65%|██████▌   | 31215/48008 [4:29:06<2:56:31,  1.59it/s] 65%|██████▌   | 31216/48008 [4:29:07<2:44:26,  1.70it/s] 65%|██████▌   | 31217/48008 [4:29:07<2:35:09,  1.80it/s] 65%|██████▌   | 31218/48008 [4:29:08<2:32:27,  1.84it/s] 65%|██████▌   | 31219/48008 [4:29:08<2:27:45,  1.89it/s] 65%|██████▌   | 31220/48008 [4:29:09<2:58:00,  1.57it/s] 65%|██████▌   | 31221/48008 [4:29:09<2:39:34,  1.75it/s] 65%|██████▌   | 31222/48008 [4:29:10<2:32:11,  1.84it/s] 65%|██████▌   | 31223/48008 [4:29:10<2:28:43,  1.88it/s] 65%|██████▌   | 31224/48008 [4:29:11<2:19:30,  2.01it/s] 65%|██████▌   | 31225/48008 [4:29:12<3:22:39,  1.38it/s] 65%|██████▌   | 31226/48008 [4:29:13<3:03:51,  1.52it/s] 65%|██████▌   | 31227/48008 [4:29:13<3:22:14,  1.38it/s] 65%|██████▌   | 31228/48008 [4:29:14<3:04:16,  1.52it/s] 65%|██████▌   | 31229/48008 [4:29:14<2:49:37,  1.65it/s] 65%|██████▌   | 31230/48008 [4:29:15<2:39:19,  1.76it/s] 65%|██████▌   | 31231/48008 [4:29:15<2:32:02,  1.84it/s] 65%|██████▌   | 31232/48008 [4:29:16<2:26:59,  1.90it/s] 65%|██████▌   | 31233/48008 [4:29:16<2:17:48,  2.03it/s] 65%|██████▌   | 31234/48008 [4:29:17<2:11:04,  2.13it/s] 65%|██████▌   | 31235/48008 [4:29:17<2:14:31,  2.08it/s] 65%|██████▌   | 31236/48008 [4:29:18<2:14:41,  2.08it/s] 65%|██████▌   | 31237/48008 [4:29:18<2:09:20,  2.16it/s] 65%|██████▌   | 31238/48008 [4:29:19<2:14:31,  2.08it/s] 65%|██████▌   | 31239/48008 [4:29:19<2:16:17,  2.05it/s] 65%|██████▌   | 31240/48008 [4:29:20<2:18:38,  2.02it/s] 65%|██████▌   | 31241/48008 [4:29:20<2:12:01,  2.12it/s] 65%|██████▌   | 31242/48008 [4:29:21<2:12:59,  2.10it/s] 65%|██████▌   | 31243/48008 [4:29:21<2:13:12,  2.10it/s] 65%|██████▌   | 31244/48008 [4:29:21<2:08:11,  2.18it/s] 65%|██████▌   | 31245/48008 [4:29:22<2:04:35,  2.24it/s] 65%|██████▌   | 31246/48008 [4:29:22<2:10:57,  2.13it/s] 65%|██████▌   | 31247/48008 [4:29:23<2:14:04,  2.08it/s] 65%|██████▌   | 31248/48008 [4:29:23<2:09:15,  2.16it/s] 65%|██████▌   | 31249/48008 [4:29:24<2:12:32,  2.11it/s] 65%|██████▌   | 31250/48008 [4:29:24<2:13:06,  2.10it/s]                                                         {'loss': 4.2676, 'grad_norm': 0.2791273593902588, 'learning_rate': 6.981753041159808e-05, 'epoch': 0.65} 65%|██████▌   | 31250/48008 [4:29:24<2:13:06,  2.10it/s]
 65%|██████▌   | 31251/48008 [4:29:25<2:15:46,  2.06it/s] 65%|██████▌   | 31252/48008 [4:29:25<2:17:26,  2.03it/s] 65%|██████▌   | 31253/48008 [4:29:26<2:20:01,  1.99it/s] 65%|██████▌   | 31254/48008 [4:29:26<2:18:23,  2.02it/s] 65%|██████▌   | 31255/48008 [4:29:27<2:17:06,  2.04it/s] 65%|██████▌   | 31256/48008 [4:29:27<2:18:21,  2.02it/s] 65%|██████▌   | 31257/48008 [4:29:28<2:19:03,  2.01it/s] 65%|██████▌   | 31258/48008 [4:29:28<2:09:36,  2.15it/s] 65%|██████▌   | 31259/48008 [4:29:29<2:11:12,  2.13it/s] 65%|██████▌   | 31260/48008 [4:29:29<2:06:52,  2.20it/s] 65%|██████▌   | 31261/48008 [4:29:30<2:09:19,  2.16it/s] 65%|██████▌   | 31262/48008 [4:29:30<2:15:39,  2.06it/s] 65%|██████▌   | 31263/48008 [4:29:31<2:17:04,  2.04it/s] 65%|██████▌   | 31264/48008 [4:29:31<2:18:33,  2.01it/s] 65%|██████▌   | 31265/48008 [4:29:32<2:17:34,  2.03it/s] 65%|██████▌   | 31266/48008 [4:29:32<2:16:47,  2.04it/s] 65%|██████▌   | 31267/48008 [4:29:32<2:08:12,  2.18it/s] 65%|██████▌   | 31268/48008 [4:29:33<2:10:42,  2.13it/s] 65%|██████▌   | 31269/48008 [4:29:33<2:11:51,  2.12it/s] 65%|██████▌   | 31270/48008 [4:29:34<2:06:59,  2.20it/s] 65%|██████▌   | 31271/48008 [4:29:34<2:12:37,  2.10it/s] 65%|██████▌   | 31272/48008 [4:29:35<2:13:22,  2.09it/s] 65%|██████▌   | 31273/48008 [4:29:35<2:08:32,  2.17it/s] 65%|██████▌   | 31274/48008 [4:29:36<2:10:32,  2.14it/s] 65%|██████▌   | 31275/48008 [4:29:36<2:11:35,  2.12it/s] 65%|██████▌   | 31276/48008 [4:29:37<2:14:14,  2.08it/s] 65%|██████▌   | 31277/48008 [4:29:37<2:14:31,  2.07it/s] 65%|██████▌   | 31278/48008 [4:29:38<2:06:21,  2.21it/s] 65%|██████▌   | 31279/48008 [4:29:39<3:12:41,  1.45it/s] 65%|██████▌   | 31280/48008 [4:29:39<2:49:59,  1.64it/s] 65%|██████▌   | 31281/48008 [4:29:40<2:38:44,  1.76it/s] 65%|██████▌   | 31282/48008 [4:29:40<2:30:54,  1.85it/s] 65%|██████▌   | 31283/48008 [4:29:41<2:20:27,  1.98it/s] 65%|██████▌   | 31284/48008 [4:29:41<2:13:29,  2.09it/s] 65%|██████▌   | 31285/48008 [4:29:42<2:13:47,  2.08it/s] 65%|██████▌   | 31286/48008 [4:29:42<2:16:30,  2.04it/s] 65%|██████▌   | 31287/48008 [4:29:43<2:48:51,  1.65it/s] 65%|██████▌   | 31288/48008 [4:29:43<2:38:18,  1.76it/s] 65%|██████▌   | 31289/48008 [4:29:44<2:26:04,  1.91it/s] 65%|██████▌   | 31290/48008 [4:29:44<2:22:32,  1.95it/s] 65%|██████▌   | 31291/48008 [4:29:45<2:22:09,  1.96it/s] 65%|██████▌   | 31292/48008 [4:29:46<2:52:43,  1.61it/s] 65%|██████▌   | 31293/48008 [4:29:47<3:13:54,  1.44it/s] 65%|██████▌   | 31294/48008 [4:29:47<3:28:39,  1.33it/s] 65%|██████▌   | 31295/48008 [4:29:48<3:06:19,  1.50it/s] 65%|██████▌   | 31296/48008 [4:29:48<2:51:19,  1.63it/s] 65%|██████▌   | 31297/48008 [4:29:49<2:40:07,  1.74it/s] 65%|██████▌   | 31298/48008 [4:29:49<2:26:47,  1.90it/s] 65%|██████▌   | 31299/48008 [4:29:50<2:25:48,  1.91it/s] 65%|██████▌   | 31300/48008 [4:29:50<2:22:20,  1.96it/s]                                                         {'loss': 4.2103, 'grad_norm': 0.12080289423465729, 'learning_rate': 6.96092317947009e-05, 'epoch': 0.65}
 65%|██████▌   | 31300/48008 [4:29:50<2:22:20,  1.96it/s] 65%|██████▌   | 31301/48008 [4:29:51<2:14:38,  2.07it/s] 65%|██████▌   | 31302/48008 [4:29:51<2:14:29,  2.07it/s] 65%|██████▌   | 31303/48008 [4:29:52<2:14:18,  2.07it/s] 65%|██████▌   | 31304/48008 [4:29:52<2:14:08,  2.08it/s] 65%|██████▌   | 31305/48008 [4:29:53<2:13:56,  2.08it/s] 65%|██████▌   | 31306/48008 [4:29:53<2:16:03,  2.05it/s] 65%|██████▌   | 31307/48008 [4:29:54<2:14:53,  2.06it/s] 65%|██████▌   | 31308/48008 [4:29:55<3:18:50,  1.40it/s] 65%|██████▌   | 31309/48008 [4:29:55<2:59:09,  1.55it/s] 65%|██████▌   | 31310/48008 [4:29:56<2:45:40,  1.68it/s] 65%|██████▌   | 31311/48008 [4:29:56<2:38:14,  1.76it/s] 65%|██████▌   | 31312/48008 [4:29:57<2:31:34,  1.84it/s] 65%|██████▌   | 31313/48008 [4:29:58<2:42:03,  1.72it/s] 65%|██████▌   | 31314/48008 [4:29:59<3:38:34,  1.27it/s] 65%|██████▌   | 31315/48008 [4:29:59<3:17:41,  1.41it/s] 65%|██████▌   | 31316/48008 [4:30:00<2:52:48,  1.61it/s] 65%|██████▌   | 31317/48008 [4:30:00<2:40:46,  1.73it/s] 65%|██████▌   | 31318/48008 [4:30:01<2:33:21,  1.81it/s] 65%|██████▌   | 31319/48008 [4:30:01<2:29:19,  1.86it/s] 65%|██████▌   | 31320/48008 [4:30:02<2:28:10,  1.88it/s] 65%|██████▌   | 31321/48008 [4:30:02<2:18:23,  2.01it/s] 65%|██████▌   | 31322/48008 [4:30:03<2:20:38,  1.98it/s] 65%|██████▌   | 31323/48008 [4:30:03<2:23:06,  1.94it/s] 65%|██████▌   | 31324/48008 [4:30:04<2:20:19,  1.98it/s] 65%|██████▌   | 31325/48008 [4:30:04<2:18:36,  2.01it/s] 65%|██████▌   | 31326/48008 [4:30:05<2:11:43,  2.11it/s] 65%|██████▌   | 31327/48008 [4:30:05<2:12:38,  2.10it/s] 65%|██████▌   | 31328/48008 [4:30:06<2:13:15,  2.09it/s] 65%|██████▌   | 31329/48008 [4:30:06<2:46:25,  1.67it/s] 65%|██████▌   | 31330/48008 [4:30:07<2:36:48,  1.77it/s] 65%|██████▌   | 31331/48008 [4:30:07<2:32:15,  1.83it/s] 65%|██████▌   | 31332/48008 [4:30:08<2:28:27,  1.87it/s] 65%|██████▌   | 31333/48008 [4:30:08<2:24:07,  1.93it/s] 65%|██████▌   | 31334/48008 [4:30:09<2:22:48,  1.95it/s] 65%|██████▌   | 31335/48008 [4:30:09<2:19:48,  1.99it/s] 65%|██████▌   | 31336/48008 [4:30:10<2:18:02,  2.01it/s] 65%|██████▌   | 31337/48008 [4:30:10<2:17:02,  2.03it/s] 65%|██████▌   | 31338/48008 [4:30:11<2:16:05,  2.04it/s] 65%|██████▌   | 31339/48008 [4:30:11<2:09:53,  2.14it/s] 65%|██████▌   | 31340/48008 [4:30:12<2:13:49,  2.08it/s] 65%|██████▌   | 31341/48008 [4:30:12<2:13:25,  2.08it/s] 65%|██████▌   | 31342/48008 [4:30:13<2:13:07,  2.09it/s] 65%|██████▌   | 31343/48008 [4:30:13<2:13:18,  2.08it/s] 65%|██████▌   | 31344/48008 [4:30:14<2:29:31,  1.86it/s] 65%|██████▌   | 31345/48008 [4:30:14<2:19:37,  1.99it/s] 65%|██████▌   | 31346/48008 [4:30:15<2:17:38,  2.02it/s] 65%|██████▌   | 31347/48008 [4:30:15<2:16:56,  2.03it/s] 65%|██████▌   | 31348/48008 [4:30:16<2:18:10,  2.01it/s] 65%|██████▌   | 31349/48008 [4:30:16<2:16:54,  2.03it/s] 65%|██████▌   | 31350/48008 [4:30:17<2:17:54,  2.01it/s]                                                         {'loss': 4.2307, 'grad_norm': 0.12920184433460236, 'learning_rate': 6.94009331778037e-05, 'epoch': 0.65}
 65%|██████▌   | 31350/48008 [4:30:17<2:17:54,  2.01it/s] 65%|██████▌   | 31351/48008 [4:30:17<2:19:03,  2.00it/s] 65%|██████▌   | 31352/48008 [4:30:18<2:17:12,  2.02it/s] 65%|██████▌   | 31353/48008 [4:30:18<2:19:35,  1.99it/s] 65%|██████▌   | 31354/48008 [4:30:19<2:18:14,  2.01it/s] 65%|██████▌   | 31355/48008 [4:30:19<2:17:02,  2.03it/s] 65%|██████▌   | 31356/48008 [4:30:20<2:10:55,  2.12it/s] 65%|██████▌   | 31357/48008 [4:30:20<2:11:51,  2.10it/s] 65%|██████▌   | 31358/48008 [4:30:21<2:12:39,  2.09it/s] 65%|██████▌   | 31359/48008 [4:30:21<2:14:43,  2.06it/s] 65%|██████▌   | 31360/48008 [4:30:22<2:16:26,  2.03it/s] 65%|██████▌   | 31361/48008 [4:30:22<2:18:44,  2.00it/s] 65%|██████▌   | 31362/48008 [4:30:23<2:11:50,  2.10it/s] 65%|██████▌   | 31363/48008 [4:30:23<2:07:02,  2.18it/s] 65%|██████▌   | 31364/48008 [4:30:24<2:11:05,  2.12it/s] 65%|██████▌   | 31365/48008 [4:30:24<2:12:02,  2.10it/s] 65%|██████▌   | 31366/48008 [4:30:24<2:06:57,  2.18it/s] 65%|██████▌   | 31367/48008 [4:30:25<2:03:39,  2.24it/s] 65%|██████▌   | 31368/48008 [4:30:25<2:07:00,  2.18it/s] 65%|██████▌   | 31369/48008 [4:30:26<2:14:04,  2.07it/s] 65%|██████▌   | 31370/48008 [4:30:26<2:16:46,  2.03it/s] 65%|██████▌   | 31371/48008 [4:30:27<2:16:37,  2.03it/s] 65%|██████▌   | 31372/48008 [4:30:27<2:10:55,  2.12it/s] 65%|██████▌   | 31373/48008 [4:30:28<2:14:06,  2.07it/s] 65%|██████▌   | 31374/48008 [4:30:28<2:15:56,  2.04it/s] 65%|██████▌   | 31375/48008 [4:30:29<2:15:10,  2.05it/s] 65%|██████▌   | 31376/48008 [4:30:29<2:19:45,  1.98it/s] 65%|██████▌   | 31377/48008 [4:30:30<2:17:38,  2.01it/s] 65%|██████▌   | 31378/48008 [4:30:31<2:49:15,  1.64it/s] 65%|██████▌   | 31379/48008 [4:30:31<2:40:59,  1.72it/s] 65%|██████▌   | 31380/48008 [4:30:32<2:34:43,  1.79it/s] 65%|██████▌   | 31381/48008 [4:30:32<2:28:25,  1.87it/s] 65%|██████▌   | 31382/48008 [4:30:33<3:27:59,  1.33it/s] 65%|██████▌   | 31383/48008 [4:30:34<3:00:47,  1.53it/s] 65%|██████▌   | 31384/48008 [4:30:34<2:46:20,  1.67it/s] 65%|██████▌   | 31385/48008 [4:30:35<2:36:36,  1.77it/s] 65%|██████▌   | 31386/48008 [4:30:35<2:30:21,  1.84it/s] 65%|██████▌   | 31387/48008 [4:30:36<2:24:49,  1.91it/s] 65%|██████▌   | 31388/48008 [4:30:36<2:16:00,  2.04it/s] 65%|██████▌   | 31389/48008 [4:30:37<2:15:49,  2.04it/s] 65%|██████▌   | 31390/48008 [4:30:37<2:17:39,  2.01it/s] 65%|██████▌   | 31391/48008 [4:30:38<2:16:01,  2.04it/s] 65%|██████▌   | 31392/48008 [4:30:38<2:17:14,  2.02it/s] 65%|██████▌   | 31393/48008 [4:30:39<2:16:05,  2.03it/s] 65%|██████▌   | 31394/48008 [4:30:39<2:15:04,  2.05it/s] 65%|██████▌   | 31395/48008 [4:30:40<2:30:13,  1.84it/s] 65%|██████▌   | 31396/48008 [4:30:40<2:19:34,  1.98it/s] 65%|██████▌   | 31397/48008 [4:30:41<2:18:14,  2.00it/s] 65%|██████▌   | 31398/48008 [4:30:41<2:18:55,  1.99it/s] 65%|██████▌   | 31399/48008 [4:30:42<2:16:59,  2.02it/s] 65%|██████▌   | 31400/48008 [4:30:42<2:17:41,  2.01it/s]                                                         {'loss': 4.2593, 'grad_norm': 0.08631892502307892, 'learning_rate': 6.919263456090652e-05, 'epoch': 0.65}
 65%|██████▌   | 31400/48008 [4:30:42<2:17:41,  2.01it/s] 65%|██████▌   | 31401/48008 [4:30:43<2:11:27,  2.11it/s] 65%|██████▌   | 31402/48008 [4:30:43<2:14:04,  2.06it/s] 65%|██████▌   | 31403/48008 [4:30:44<2:13:53,  2.07it/s] 65%|██████▌   | 31404/48008 [4:30:44<2:46:30,  1.66it/s] 65%|██████▌   | 31405/48008 [4:30:45<2:36:00,  1.77it/s] 65%|██████▌   | 31406/48008 [4:30:46<2:34:01,  1.80it/s] 65%|██████▌   | 31407/48008 [4:30:46<2:27:22,  1.88it/s] 65%|██████▌   | 31408/48008 [4:30:46<2:24:32,  1.91it/s] 65%|██████▌   | 31409/48008 [4:30:47<2:21:09,  1.96it/s] 65%|██████▌   | 31410/48008 [4:30:47<2:18:43,  1.99it/s] 65%|██████▌   | 31411/48008 [4:30:48<2:17:22,  2.01it/s] 65%|██████▌   | 31412/48008 [4:30:48<2:17:47,  2.01it/s] 65%|██████▌   | 31413/48008 [4:30:49<2:16:36,  2.02it/s] 65%|██████▌   | 31414/48008 [4:30:49<2:18:29,  2.00it/s] 65%|██████▌   | 31415/48008 [4:30:50<2:16:49,  2.02it/s] 65%|██████▌   | 31416/48008 [4:30:50<2:20:47,  1.96it/s] 65%|██████▌   | 31417/48008 [4:30:51<2:18:16,  2.00it/s] 65%|██████▌   | 31418/48008 [4:30:51<2:16:44,  2.02it/s] 65%|██████▌   | 31419/48008 [4:30:52<2:17:22,  2.01it/s] 65%|██████▌   | 31420/48008 [4:30:52<2:19:22,  1.98it/s] 65%|██████▌   | 31421/48008 [4:30:53<2:17:18,  2.01it/s] 65%|██████▌   | 31422/48008 [4:30:53<2:17:47,  2.01it/s] 65%|██████▌   | 31423/48008 [4:30:54<2:19:37,  1.98it/s] 65%|██████▌   | 31424/48008 [4:30:55<2:34:21,  1.79it/s] 65%|██████▌   | 31425/48008 [4:30:55<2:31:23,  1.83it/s] 65%|██████▌   | 31426/48008 [4:30:56<2:29:01,  1.85it/s] 65%|██████▌   | 31427/48008 [4:30:56<2:24:20,  1.91it/s] 65%|██████▌   | 31428/48008 [4:30:57<2:53:31,  1.59it/s] 65%|██████▌   | 31429/48008 [4:30:58<2:44:54,  1.68it/s] 65%|██████▌   | 31430/48008 [4:30:58<2:38:51,  1.74it/s] 65%|██████▌   | 31431/48008 [4:30:59<2:33:09,  1.80it/s] 65%|██████▌   | 31432/48008 [4:30:59<2:27:02,  1.88it/s] 65%|██████▌   | 31433/48008 [4:30:59<2:17:23,  2.01it/s] 65%|██████▌   | 31434/48008 [4:31:00<2:16:19,  2.03it/s] 65%|██████▌   | 31435/48008 [4:31:00<2:17:17,  2.01it/s] 65%|██████▌   | 31436/48008 [4:31:01<2:16:05,  2.03it/s] 65%|██████▌   | 31437/48008 [4:31:02<2:47:54,  1.64it/s] 65%|██████▌   | 31438/48008 [4:31:02<2:40:35,  1.72it/s] 65%|██████▌   | 31439/48008 [4:31:03<2:34:07,  1.79it/s] 65%|██████▌   | 31440/48008 [4:31:03<2:29:12,  1.85it/s] 65%|██████▌   | 31441/48008 [4:31:04<2:26:05,  1.89it/s] 65%|██████▌   | 31442/48008 [4:31:05<2:54:52,  1.58it/s] 65%|██████▌   | 31443/48008 [4:31:05<2:44:22,  1.68it/s] 65%|██████▌   | 31444/48008 [4:31:06<2:35:00,  1.78it/s] 65%|██████▌   | 31445/48008 [4:31:06<2:22:35,  1.94it/s] 66%|██████▌   | 31446/48008 [4:31:07<2:20:11,  1.97it/s] 66%|██████▌   | 31447/48008 [4:31:07<2:21:43,  1.95it/s] 66%|██████▌   | 31448/48008 [4:31:08<2:19:15,  1.98it/s] 66%|██████▌   | 31449/48008 [4:31:08<2:17:32,  2.01it/s] 66%|██████▌   | 31450/48008 [4:31:09<2:16:41,  2.02it/s]                                                         {'loss': 4.2576, 'grad_norm': 0.10185058414936066, 'learning_rate': 6.898433594400933e-05, 'epoch': 0.66}
 66%|██████▌   | 31450/48008 [4:31:09<2:16:41,  2.02it/s] 66%|██████▌   | 31451/48008 [4:31:09<2:19:33,  1.98it/s] 66%|██████▌   | 31452/48008 [4:31:10<2:19:39,  1.98it/s] 66%|██████▌   | 31453/48008 [4:31:10<2:17:49,  2.00it/s] 66%|██████▌   | 31454/48008 [4:31:11<2:10:55,  2.11it/s] 66%|██████▌   | 31455/48008 [4:31:11<2:06:32,  2.18it/s] 66%|██████▌   | 31456/48008 [4:31:12<2:13:54,  2.06it/s] 66%|██████▌   | 31457/48008 [4:31:12<2:13:57,  2.06it/s] 66%|██████▌   | 31458/48008 [4:31:12<2:14:21,  2.05it/s] 66%|██████▌   | 31459/48008 [4:31:13<2:13:56,  2.06it/s] 66%|██████▌   | 31460/48008 [4:31:13<2:13:47,  2.06it/s] 66%|██████▌   | 31461/48008 [4:31:14<2:15:21,  2.04it/s] 66%|██████▌   | 31462/48008 [4:31:14<2:14:25,  2.05it/s] 66%|██████▌   | 31463/48008 [4:31:15<2:13:55,  2.06it/s] 66%|██████▌   | 31464/48008 [4:31:15<2:13:20,  2.07it/s] 66%|██████▌   | 31465/48008 [4:31:16<2:13:14,  2.07it/s] 66%|██████▌   | 31466/48008 [4:31:16<2:16:08,  2.03it/s] 66%|██████▌   | 31467/48008 [4:31:17<2:09:31,  2.13it/s] 66%|██████▌   | 31468/48008 [4:31:17<2:13:54,  2.06it/s] 66%|██████▌   | 31469/48008 [4:31:18<2:13:30,  2.06it/s] 66%|██████▌   | 31470/48008 [4:31:18<2:15:06,  2.04it/s] 66%|██████▌   | 31471/48008 [4:31:19<2:16:29,  2.02it/s] 66%|██████▌   | 31472/48008 [4:31:19<2:09:56,  2.12it/s] 66%|██████▌   | 31473/48008 [4:31:20<2:13:29,  2.06it/s] 66%|██████▌   | 31474/48008 [4:31:20<2:15:02,  2.04it/s] 66%|██████▌   | 31475/48008 [4:31:21<2:17:35,  2.00it/s] 66%|██████▌   | 31476/48008 [4:31:21<2:15:47,  2.03it/s] 66%|██████▌   | 31477/48008 [4:31:22<2:19:19,  1.98it/s] 66%|██████▌   | 31478/48008 [4:31:22<2:17:21,  2.01it/s] 66%|██████▌   | 31479/48008 [4:31:23<2:48:39,  1.63it/s] 66%|██████▌   | 31480/48008 [4:31:24<2:32:28,  1.81it/s] 66%|██████▌   | 31481/48008 [4:31:24<2:26:17,  1.88it/s] 66%|██████▌   | 31482/48008 [4:31:25<2:27:20,  1.87it/s] 66%|██████▌   | 31483/48008 [4:31:25<2:26:01,  1.89it/s] 66%|██████▌   | 31484/48008 [4:31:26<3:05:56,  1.48it/s] 66%|██████▌   | 31485/48008 [4:31:27<2:44:53,  1.67it/s] 66%|██████▌   | 31486/48008 [4:31:27<2:37:31,  1.75it/s] 66%|██████▌   | 31487/48008 [4:31:28<2:30:25,  1.83it/s] 66%|██████▌   | 31488/48008 [4:31:28<2:19:44,  1.97it/s] 66%|██████▌   | 31489/48008 [4:31:28<2:17:22,  2.00it/s] 66%|██████▌   | 31490/48008 [4:31:29<2:15:55,  2.03it/s] 66%|██████▌   | 31491/48008 [4:31:29<2:09:18,  2.13it/s] 66%|██████▌   | 31492/48008 [4:31:30<2:04:58,  2.20it/s] 66%|██████▌   | 31493/48008 [4:31:30<2:01:52,  2.26it/s] 66%|██████▌   | 31494/48008 [4:31:31<2:08:14,  2.15it/s] 66%|██████▌   | 31495/48008 [4:31:32<3:13:42,  1.42it/s] 66%|██████▌   | 31496/48008 [4:31:32<2:57:02,  1.55it/s] 66%|██████▌   | 31497/48008 [4:31:33<2:38:25,  1.74it/s] 66%|██████▌   | 31498/48008 [4:31:33<2:32:34,  1.80it/s] 66%|██████▌   | 31499/48008 [4:31:34<2:28:20,  1.85it/s] 66%|██████▌   | 31500/48008 [4:31:34<2:25:07,  1.90it/s]                                                         {'loss': 4.2851, 'grad_norm': 0.09768413752317429, 'learning_rate': 6.877603732711215e-05, 'epoch': 0.66}
 66%|██████▌   | 31500/48008 [4:31:34<2:25:07,  1.90it/s] 66%|██████▌   | 31501/48008 [4:31:35<2:24:43,  1.90it/s] 66%|██████▌   | 31502/48008 [4:31:35<2:22:44,  1.93it/s] 66%|██████▌   | 31503/48008 [4:31:36<2:19:44,  1.97it/s] 66%|██████▌   | 31504/48008 [4:31:36<2:12:17,  2.08it/s] 66%|██████▌   | 31505/48008 [4:31:37<2:14:06,  2.05it/s] 66%|██████▌   | 31506/48008 [4:31:37<2:13:33,  2.06it/s] 66%|██████▌   | 31507/48008 [4:31:38<2:13:00,  2.07it/s] 66%|██████▌   | 31508/48008 [4:31:38<2:12:30,  2.08it/s] 66%|██████▌   | 31509/48008 [4:31:39<2:07:41,  2.15it/s] 66%|██████▌   | 31510/48008 [4:31:39<2:03:41,  2.22it/s] 66%|██████▌   | 31511/48008 [4:31:39<2:00:55,  2.27it/s] 66%|██████▌   | 31512/48008 [4:31:40<2:06:05,  2.18it/s] 66%|██████▌   | 31513/48008 [4:31:40<2:08:02,  2.15it/s] 66%|██████▌   | 31514/48008 [4:31:41<2:03:52,  2.22it/s] 66%|██████▌   | 31515/48008 [4:31:41<2:06:45,  2.17it/s] 66%|██████▌   | 31516/48008 [4:31:42<2:08:41,  2.14it/s] 66%|██████▌   | 31517/48008 [4:31:42<2:09:49,  2.12it/s] 66%|██████▌   | 31518/48008 [4:31:43<2:04:35,  2.21it/s] 66%|██████▌   | 31519/48008 [4:31:43<2:10:18,  2.11it/s] 66%|██████▌   | 31520/48008 [4:31:44<2:26:46,  1.87it/s] 66%|██████▌   | 31521/48008 [4:31:44<2:24:26,  1.90it/s] 66%|██████▌   | 31522/48008 [4:31:45<2:37:03,  1.75it/s] 66%|██████▌   | 31523/48008 [4:31:46<2:33:11,  1.79it/s] 66%|██████▌   | 31524/48008 [4:31:46<2:28:41,  1.85it/s] 66%|██████▌   | 31525/48008 [4:31:47<2:24:18,  1.90it/s] 66%|██████▌   | 31526/48008 [4:31:47<2:22:53,  1.92it/s] 66%|██████▌   | 31527/48008 [4:31:48<2:20:09,  1.96it/s] 66%|██████▌   | 31528/48008 [4:31:48<2:17:29,  2.00it/s] 66%|██████▌   | 31529/48008 [4:31:49<2:10:18,  2.11it/s] 66%|██████▌   | 31530/48008 [4:31:49<2:11:19,  2.09it/s] 66%|██████▌   | 31531/48008 [4:31:50<2:11:43,  2.08it/s] 66%|██████▌   | 31532/48008 [4:31:50<2:12:02,  2.08it/s] 66%|██████▌   | 31533/48008 [4:31:51<2:14:58,  2.03it/s] 66%|██████▌   | 31534/48008 [4:31:51<2:15:41,  2.02it/s] 66%|██████▌   | 31535/48008 [4:31:51<2:14:31,  2.04it/s] 66%|██████▌   | 31536/48008 [4:31:52<2:13:40,  2.05it/s] 66%|██████▌   | 31537/48008 [4:31:52<2:14:39,  2.04it/s] 66%|██████▌   | 31538/48008 [4:31:53<2:14:11,  2.05it/s] 66%|██████▌   | 31539/48008 [4:31:53<2:13:35,  2.05it/s] 66%|██████▌   | 31540/48008 [4:31:54<2:14:52,  2.04it/s] 66%|██████▌   | 31541/48008 [4:31:54<2:14:20,  2.04it/s] 66%|██████▌   | 31542/48008 [4:31:55<2:08:19,  2.14it/s] 66%|██████▌   | 31543/48008 [4:31:55<2:09:20,  2.12it/s] 66%|██████▌   | 31544/48008 [4:31:56<2:15:27,  2.03it/s] 66%|██████▌   | 31545/48008 [4:31:56<2:14:41,  2.04it/s] 66%|██████▌   | 31546/48008 [4:31:57<2:08:46,  2.13it/s] 66%|██████▌   | 31547/48008 [4:31:57<2:12:10,  2.08it/s] 66%|██████▌   | 31548/48008 [4:31:58<2:06:51,  2.16it/s] 66%|██████▌   | 31549/48008 [4:31:58<2:12:50,  2.07it/s] 66%|██████▌   | 31550/48008 [4:31:59<2:12:38,  2.07it/s]                                                         {'loss': 4.261, 'grad_norm': 0.19832278788089752, 'learning_rate': 6.856773871021497e-05, 'epoch': 0.66}
 66%|██████▌   | 31550/48008 [4:31:59<2:12:38,  2.07it/s] 66%|██████▌   | 31551/48008 [4:31:59<2:17:24,  2.00it/s] 66%|██████▌   | 31552/48008 [4:32:00<2:16:09,  2.01it/s] 66%|██████▌   | 31553/48008 [4:32:00<2:14:29,  2.04it/s] 66%|██████▌   | 31554/48008 [4:32:01<2:08:23,  2.14it/s] 66%|██████▌   | 31555/48008 [4:32:02<3:13:25,  1.42it/s] 66%|██████▌   | 31556/48008 [4:32:02<2:59:22,  1.53it/s] 66%|██████▌   | 31557/48008 [4:32:03<2:45:26,  1.66it/s] 66%|██████▌   | 31558/48008 [4:32:03<2:35:28,  1.76it/s] 66%|██████▌   | 31559/48008 [4:32:04<2:44:50,  1.66it/s] 66%|██████▌   | 31560/48008 [4:32:05<2:37:51,  1.74it/s] 66%|██████▌   | 31561/48008 [4:32:05<2:24:52,  1.89it/s] 66%|██████▌   | 31562/48008 [4:32:05<2:21:09,  1.94it/s] 66%|██████▌   | 31563/48008 [4:32:06<2:19:55,  1.96it/s] 66%|██████▌   | 31564/48008 [4:32:06<2:17:45,  1.99it/s] 66%|██████▌   | 31565/48008 [4:32:07<2:18:43,  1.98it/s] 66%|██████▌   | 31566/48008 [4:32:07<2:11:07,  2.09it/s] 66%|██████▌   | 31567/48008 [4:32:08<2:11:35,  2.08it/s] 66%|██████▌   | 31568/48008 [4:32:08<2:14:47,  2.03it/s] 66%|██████▌   | 31569/48008 [4:32:09<2:15:43,  2.02it/s] 66%|██████▌   | 31570/48008 [4:32:09<2:09:40,  2.11it/s] 66%|██████▌   | 31571/48008 [4:32:10<2:05:19,  2.19it/s] 66%|██████▌   | 31572/48008 [4:32:10<2:12:50,  2.06it/s] 66%|██████▌   | 31573/48008 [4:32:11<2:12:25,  2.07it/s] 66%|██████▌   | 31574/48008 [4:32:11<2:12:36,  2.07it/s] 66%|██████▌   | 31575/48008 [4:32:12<2:12:44,  2.06it/s] 66%|██████▌   | 31576/48008 [4:32:13<3:16:24,  1.39it/s] 66%|██████▌   | 31577/48008 [4:32:14<2:57:09,  1.55it/s] 66%|██████▌   | 31578/48008 [4:32:14<2:46:21,  1.65it/s] 66%|██████▌   | 31579/48008 [4:32:15<2:36:17,  1.75it/s] 66%|██████▌   | 31580/48008 [4:32:15<2:29:29,  1.83it/s] 66%|██████▌   | 31581/48008 [4:32:15<2:24:40,  1.89it/s] 66%|██████▌   | 31582/48008 [4:32:16<2:22:50,  1.92it/s] 66%|██████▌   | 31583/48008 [4:32:17<2:22:34,  1.92it/s] 66%|██████▌   | 31584/48008 [4:32:17<2:19:40,  1.96it/s] 66%|██████▌   | 31585/48008 [4:32:18<2:21:47,  1.93it/s] 66%|██████▌   | 31586/48008 [4:32:18<2:18:54,  1.97it/s] 66%|██████▌   | 31587/48008 [4:32:19<2:21:30,  1.93it/s] 66%|██████▌   | 31588/48008 [4:32:19<2:23:21,  1.91it/s] 66%|██████▌   | 31589/48008 [4:32:20<2:20:03,  1.95it/s] 66%|██████▌   | 31590/48008 [4:32:20<2:17:48,  1.99it/s] 66%|██████▌   | 31591/48008 [4:32:21<2:15:27,  2.02it/s] 66%|██████▌   | 31592/48008 [4:32:21<2:14:14,  2.04it/s] 66%|██████▌   | 31593/48008 [4:32:22<2:16:13,  2.01it/s] 66%|██████▌   | 31594/48008 [4:32:22<2:18:13,  1.98it/s] 66%|██████▌   | 31595/48008 [4:32:22<2:10:20,  2.10it/s] 66%|██████▌   | 31596/48008 [4:32:23<2:12:49,  2.06it/s] 66%|██████▌   | 31597/48008 [4:32:24<2:45:00,  1.66it/s] 66%|██████▌   | 31598/48008 [4:32:24<2:39:27,  1.72it/s] 66%|██████▌   | 31599/48008 [4:32:25<2:33:21,  1.78it/s] 66%|██████▌   | 31600/48008 [4:32:25<2:26:49,  1.86it/s]                                                         {'loss': 4.2597, 'grad_norm': 0.10477619618177414, 'learning_rate': 6.835944009331779e-05, 'epoch': 0.66}
 66%|██████▌   | 31600/48008 [4:32:25<2:26:49,  1.86it/s] 66%|██████▌   | 31601/48008 [4:32:26<2:38:50,  1.72it/s] 66%|██████▌   | 31602/48008 [4:32:26<2:25:22,  1.88it/s] 66%|██████▌   | 31603/48008 [4:32:27<2:26:32,  1.87it/s] 66%|██████▌   | 31604/48008 [4:32:28<2:37:31,  1.74it/s] 66%|██████▌   | 31605/48008 [4:32:28<2:25:04,  1.88it/s] 66%|██████▌   | 31606/48008 [4:32:29<2:15:25,  2.02it/s] 66%|██████▌   | 31607/48008 [4:32:29<2:14:29,  2.03it/s] 66%|██████▌   | 31608/48008 [4:32:30<2:15:42,  2.01it/s] 66%|██████▌   | 31609/48008 [4:32:30<2:14:52,  2.03it/s] 66%|██████▌   | 31610/48008 [4:32:31<2:19:11,  1.96it/s] 66%|██████▌   | 31611/48008 [4:32:31<2:17:15,  1.99it/s] 66%|██████▌   | 31612/48008 [4:32:32<2:31:51,  1.80it/s] 66%|██████▌   | 31613/48008 [4:32:32<2:27:28,  1.85it/s] 66%|██████▌   | 31614/48008 [4:32:33<2:16:58,  1.99it/s] 66%|██████▌   | 31615/48008 [4:32:33<2:15:46,  2.01it/s] 66%|██████▌   | 31616/48008 [4:32:34<2:15:23,  2.02it/s] 66%|██████▌   | 31617/48008 [4:32:34<2:14:13,  2.04it/s] 66%|██████▌   | 31618/48008 [4:32:35<2:13:08,  2.05it/s] 66%|██████▌   | 31619/48008 [4:32:35<2:12:57,  2.05it/s] 66%|██████▌   | 31620/48008 [4:32:36<2:17:28,  1.99it/s] 66%|██████▌   | 31621/48008 [4:32:36<2:17:40,  1.98it/s] 66%|██████▌   | 31622/48008 [4:32:37<2:10:14,  2.10it/s] 66%|██████▌   | 31623/48008 [4:32:37<2:10:20,  2.10it/s] 66%|██████▌   | 31624/48008 [4:32:37<2:10:45,  2.09it/s] 66%|██████▌   | 31625/48008 [4:32:38<2:06:10,  2.16it/s] 66%|██████▌   | 31626/48008 [4:32:38<2:07:51,  2.14it/s] 66%|██████▌   | 31627/48008 [4:32:39<2:11:53,  2.07it/s] 66%|██████▌   | 31628/48008 [4:32:39<2:16:32,  2.00it/s] 66%|██████▌   | 31629/48008 [4:32:40<2:30:48,  1.81it/s] 66%|██████▌   | 31630/48008 [4:32:41<2:25:20,  1.88it/s] 66%|██████▌   | 31631/48008 [4:32:41<2:16:02,  2.01it/s] 66%|██████▌   | 31632/48008 [4:32:41<2:14:44,  2.03it/s] 66%|██████▌   | 31633/48008 [4:32:42<2:46:08,  1.64it/s] 66%|██████▌   | 31634/48008 [4:32:43<2:37:49,  1.73it/s] 66%|██████▌   | 31635/48008 [4:32:44<2:45:40,  1.65it/s] 66%|██████▌   | 31636/48008 [4:32:44<2:35:22,  1.76it/s] 66%|██████▌   | 31637/48008 [4:32:44<2:23:10,  1.91it/s] 66%|██████▌   | 31638/48008 [4:32:45<2:19:33,  1.95it/s] 66%|██████▌   | 31639/48008 [4:32:45<2:17:00,  1.99it/s] 66%|██████▌   | 31640/48008 [4:32:46<2:14:52,  2.02it/s] 66%|██████▌   | 31641/48008 [4:32:46<2:16:06,  2.00it/s] 66%|██████▌   | 31642/48008 [4:32:47<2:14:25,  2.03it/s] 66%|██████▌   | 31643/48008 [4:32:47<2:15:46,  2.01it/s] 66%|██████▌   | 31644/48008 [4:32:48<2:14:26,  2.03it/s] 66%|██████▌   | 31645/48008 [4:32:48<2:13:18,  2.05it/s] 66%|██████▌   | 31646/48008 [4:32:49<2:14:42,  2.02it/s] 66%|██████▌   | 31647/48008 [4:32:49<2:13:08,  2.05it/s] 66%|██████▌   | 31648/48008 [4:32:50<2:12:38,  2.06it/s] 66%|██████▌   | 31649/48008 [4:32:50<2:13:59,  2.03it/s] 66%|██████▌   | 31650/48008 [4:32:51<2:13:26,  2.04it/s]                                                         {'loss': 4.2601, 'grad_norm': 0.09271809458732605, 'learning_rate': 6.81511414764206e-05, 'epoch': 0.66}
 66%|██████▌   | 31650/48008 [4:32:51<2:13:26,  2.04it/s] 66%|██████▌   | 31651/48008 [4:32:51<2:15:34,  2.01it/s] 66%|██████▌   | 31652/48008 [4:32:52<2:14:24,  2.03it/s] 66%|██████▌   | 31653/48008 [4:32:52<2:13:09,  2.05it/s] 66%|██████▌   | 31654/48008 [4:32:53<2:12:35,  2.06it/s] 66%|██████▌   | 31655/48008 [4:32:53<2:13:56,  2.03it/s] 66%|██████▌   | 31656/48008 [4:32:54<2:45:10,  1.65it/s] 66%|██████▌   | 31657/48008 [4:32:55<3:38:02,  1.25it/s] 66%|██████▌   | 31658/48008 [4:32:56<3:06:44,  1.46it/s] 66%|██████▌   | 31659/48008 [4:32:56<2:44:51,  1.65it/s] 66%|██████▌   | 31660/48008 [4:32:57<2:34:57,  1.76it/s] 66%|██████▌   | 31661/48008 [4:32:57<2:29:30,  1.82it/s] 66%|██████▌   | 31662/48008 [4:32:58<2:25:57,  1.87it/s] 66%|██████▌   | 31663/48008 [4:32:58<2:21:27,  1.93it/s] 66%|██████▌   | 31664/48008 [4:32:59<2:18:27,  1.97it/s] 66%|██████▌   | 31665/48008 [4:32:59<2:15:48,  2.01it/s] 66%|██████▌   | 31666/48008 [4:33:00<2:46:47,  1.63it/s] 66%|██████▌   | 31667/48008 [4:33:01<2:52:34,  1.58it/s] 66%|██████▌   | 31668/48008 [4:33:01<2:40:24,  1.70it/s] 66%|██████▌   | 31669/48008 [4:33:02<2:31:50,  1.79it/s] 66%|██████▌   | 31670/48008 [4:33:02<2:26:02,  1.86it/s] 66%|██████▌   | 31671/48008 [4:33:03<2:21:15,  1.93it/s] 66%|██████▌   | 31672/48008 [4:33:04<3:21:12,  1.35it/s] 66%|██████▌   | 31673/48008 [4:33:04<3:00:13,  1.51it/s] 66%|██████▌   | 31674/48008 [4:33:05<2:45:38,  1.64it/s] 66%|██████▌   | 31675/48008 [4:33:06<2:51:01,  1.59it/s] 66%|██████▌   | 31676/48008 [4:33:07<3:42:31,  1.22it/s] 66%|██████▌   | 31677/48008 [4:33:07<3:15:24,  1.39it/s] 66%|██████▌   | 31678/48008 [4:33:08<2:50:55,  1.59it/s] 66%|██████▌   | 31679/48008 [4:33:08<2:41:56,  1.68it/s] 66%|██████▌   | 31680/48008 [4:33:09<2:32:55,  1.78it/s] 66%|██████▌   | 31681/48008 [4:33:09<2:26:23,  1.86it/s] 66%|██████▌   | 31682/48008 [4:33:10<2:23:09,  1.90it/s] 66%|██████▌   | 31683/48008 [4:33:10<2:14:07,  2.03it/s] 66%|██████▌   | 31684/48008 [4:33:11<2:16:04,  2.00it/s] 66%|██████▌   | 31685/48008 [4:33:11<2:14:51,  2.02it/s] 66%|██████▌   | 31686/48008 [4:33:12<2:17:17,  1.98it/s] 66%|██████▌   | 31687/48008 [4:33:12<2:17:11,  1.98it/s] 66%|██████▌   | 31688/48008 [4:33:13<2:09:48,  2.10it/s] 66%|██████▌   | 31689/48008 [4:33:13<2:09:56,  2.09it/s] 66%|██████▌   | 31690/48008 [4:33:14<2:13:36,  2.04it/s] 66%|██████▌   | 31691/48008 [4:33:14<2:15:40,  2.00it/s] 66%|██████▌   | 31692/48008 [4:33:15<2:14:39,  2.02it/s] 66%|██████▌   | 31693/48008 [4:33:15<2:13:04,  2.04it/s] 66%|██████▌   | 31694/48008 [4:33:16<2:13:52,  2.03it/s] 66%|██████▌   | 31695/48008 [4:33:16<2:14:44,  2.02it/s] 66%|██████▌   | 31696/48008 [4:33:17<2:15:12,  2.01it/s] 66%|██████▌   | 31697/48008 [4:33:17<2:14:00,  2.03it/s] 66%|██████▌   | 31698/48008 [4:33:18<2:13:07,  2.04it/s] 66%|██████▌   | 31699/48008 [4:33:18<2:12:35,  2.05it/s] 66%|██████▌   | 31700/48008 [4:33:18<2:12:03,  2.06it/s]                                                         {'loss': 4.343, 'grad_norm': 0.09562484920024872, 'learning_rate': 6.794284285952341e-05, 'epoch': 0.66}
 66%|██████▌   | 31700/48008 [4:33:18<2:12:03,  2.06it/s] 66%|██████▌   | 31701/48008 [4:33:19<2:06:33,  2.15it/s] 66%|██████▌   | 31702/48008 [4:33:19<2:10:34,  2.08it/s] 66%|██████▌   | 31703/48008 [4:33:20<2:14:14,  2.02it/s] 66%|██████▌   | 31704/48008 [4:33:20<2:13:07,  2.04it/s] 66%|██████▌   | 31705/48008 [4:33:21<2:12:38,  2.05it/s] 66%|██████▌   | 31706/48008 [4:33:21<2:12:12,  2.06it/s] 66%|██████▌   | 31707/48008 [4:33:22<2:11:49,  2.06it/s] 66%|██████▌   | 31708/48008 [4:33:22<2:11:30,  2.07it/s] 66%|██████▌   | 31709/48008 [4:33:23<2:05:58,  2.16it/s] 66%|██████▌   | 31710/48008 [4:33:23<2:07:31,  2.13it/s] 66%|██████▌   | 31711/48008 [4:33:24<2:24:34,  1.88it/s] 66%|██████▌   | 31712/48008 [4:33:24<2:20:46,  1.93it/s] 66%|██████▌   | 31713/48008 [4:33:25<2:17:55,  1.97it/s] 66%|██████▌   | 31714/48008 [4:33:25<2:18:47,  1.96it/s] 66%|██████▌   | 31715/48008 [4:33:26<2:21:07,  1.92it/s] 66%|██████▌   | 31716/48008 [4:33:26<2:20:00,  1.94it/s] 66%|██████▌   | 31717/48008 [4:33:27<2:17:16,  1.98it/s] 66%|██████▌   | 31718/48008 [4:33:27<2:09:48,  2.09it/s] 66%|██████▌   | 31719/48008 [4:33:28<2:12:03,  2.06it/s] 66%|██████▌   | 31720/48008 [4:33:29<2:27:00,  1.85it/s] 66%|██████▌   | 31721/48008 [4:33:29<2:17:30,  1.97it/s] 66%|██████▌   | 31722/48008 [4:33:29<2:15:15,  2.01it/s] 66%|██████▌   | 31723/48008 [4:33:30<2:13:54,  2.03it/s] 66%|██████▌   | 31724/48008 [4:33:30<2:13:21,  2.04it/s] 66%|██████▌   | 31725/48008 [4:33:31<2:14:24,  2.02it/s] 66%|██████▌   | 31726/48008 [4:33:31<2:13:27,  2.03it/s] 66%|██████▌   | 31727/48008 [4:33:32<2:12:45,  2.04it/s] 66%|██████▌   | 31728/48008 [4:33:32<2:06:52,  2.14it/s] 66%|██████▌   | 31729/48008 [4:33:33<2:08:24,  2.11it/s] 66%|██████▌   | 31730/48008 [4:33:33<2:08:51,  2.11it/s] 66%|██████▌   | 31731/48008 [4:33:34<2:09:21,  2.10it/s] 66%|██████▌   | 31732/48008 [4:33:34<2:05:21,  2.16it/s] 66%|██████▌   | 31733/48008 [4:33:35<2:10:14,  2.08it/s] 66%|██████▌   | 31734/48008 [4:33:35<2:10:06,  2.08it/s] 66%|██████▌   | 31735/48008 [4:33:36<2:04:52,  2.17it/s] 66%|██████▌   | 31736/48008 [4:33:36<2:38:52,  1.71it/s] 66%|██████▌   | 31737/48008 [4:33:37<2:25:02,  1.87it/s] 66%|██████▌   | 31738/48008 [4:33:37<2:20:58,  1.92it/s] 66%|██████▌   | 31739/48008 [4:33:38<2:20:05,  1.94it/s] 66%|██████▌   | 31740/48008 [4:33:38<2:19:37,  1.94it/s] 66%|██████▌   | 31741/48008 [4:33:39<2:11:42,  2.06it/s] 66%|██████▌   | 31742/48008 [4:33:39<2:11:22,  2.06it/s] 66%|██████▌   | 31743/48008 [4:33:40<2:43:44,  1.66it/s] 66%|██████▌   | 31744/48008 [4:33:41<2:33:14,  1.77it/s] 66%|██████▌   | 31745/48008 [4:33:41<2:26:19,  1.85it/s] 66%|██████▌   | 31746/48008 [4:33:42<2:21:49,  1.91it/s] 66%|██████▌   | 31747/48008 [4:33:42<2:21:11,  1.92it/s] 66%|██████▌   | 31748/48008 [4:33:43<2:17:48,  1.97it/s] 66%|██████▌   | 31749/48008 [4:33:43<2:15:57,  1.99it/s] 66%|██████▌   | 31750/48008 [4:33:44<2:17:35,  1.97it/s]                                                         {'loss': 4.2499, 'grad_norm': 0.10441122204065323, 'learning_rate': 6.773454424262623e-05, 'epoch': 0.66}
 66%|██████▌   | 31750/48008 [4:33:44<2:17:35,  1.97it/s] 66%|██████▌   | 31751/48008 [4:33:44<2:17:23,  1.97it/s] 66%|██████▌   | 31752/48008 [4:33:45<2:15:23,  2.00it/s] 66%|██████▌   | 31753/48008 [4:33:45<2:17:36,  1.97it/s] 66%|██████▌   | 31754/48008 [4:33:46<2:17:07,  1.98it/s] 66%|██████▌   | 31755/48008 [4:33:46<2:30:28,  1.80it/s] 66%|██████▌   | 31756/48008 [4:33:47<2:24:38,  1.87it/s] 66%|██████▌   | 31757/48008 [4:33:47<2:36:00,  1.74it/s] 66%|██████▌   | 31758/48008 [4:33:48<2:31:50,  1.78it/s] 66%|██████▌   | 31759/48008 [4:33:48<2:27:30,  1.84it/s] 66%|██████▌   | 31760/48008 [4:33:49<2:24:20,  1.88it/s] 66%|██████▌   | 31761/48008 [4:33:49<2:21:53,  1.91it/s] 66%|██████▌   | 31762/48008 [4:33:50<2:13:12,  2.03it/s] 66%|██████▌   | 31763/48008 [4:33:50<2:12:36,  2.04it/s] 66%|██████▌   | 31764/48008 [4:33:51<2:15:16,  2.00it/s] 66%|██████▌   | 31765/48008 [4:33:51<2:13:34,  2.03it/s] 66%|██████▌   | 31766/48008 [4:33:52<2:14:57,  2.01it/s] 66%|██████▌   | 31767/48008 [4:33:53<3:16:41,  1.38it/s] 66%|██████▌   | 31768/48008 [4:33:54<2:57:03,  1.53it/s] 66%|██████▌   | 31769/48008 [4:33:55<3:14:47,  1.39it/s] 66%|██████▌   | 31770/48008 [4:33:55<2:57:47,  1.52it/s] 66%|██████▌   | 31771/48008 [4:33:56<2:59:33,  1.51it/s] 66%|██████▌   | 31772/48008 [4:33:56<2:47:49,  1.61it/s] 66%|██████▌   | 31773/48008 [4:33:57<2:31:21,  1.79it/s] 66%|██████▌   | 31774/48008 [4:33:57<2:28:22,  1.82it/s] 66%|██████▌   | 31775/48008 [4:33:58<2:24:37,  1.87it/s] 66%|██████▌   | 31776/48008 [4:33:58<2:20:08,  1.93it/s] 66%|██████▌   | 31777/48008 [4:33:59<2:17:08,  1.97it/s] 66%|██████▌   | 31778/48008 [4:33:59<2:17:23,  1.97it/s] 66%|██████▌   | 31779/48008 [4:34:00<2:15:44,  1.99it/s] 66%|██████▌   | 31780/48008 [4:34:00<2:14:12,  2.02it/s] 66%|██████▌   | 31781/48008 [4:34:01<2:14:37,  2.01it/s] 66%|██████▌   | 31782/48008 [4:34:01<2:08:14,  2.11it/s] 66%|██████▌   | 31783/48008 [4:34:02<2:08:43,  2.10it/s] 66%|██████▌   | 31784/48008 [4:34:02<2:03:42,  2.19it/s] 66%|██████▌   | 31785/48008 [4:34:02<2:05:24,  2.16it/s] 66%|██████▌   | 31786/48008 [4:34:03<2:06:48,  2.13it/s] 66%|██████▌   | 31787/48008 [4:34:03<2:12:11,  2.05it/s] 66%|██████▌   | 31788/48008 [4:34:04<2:14:46,  2.01it/s] 66%|██████▌   | 31789/48008 [4:34:04<2:18:03,  1.96it/s] 66%|██████▌   | 31790/48008 [4:34:05<2:17:13,  1.97it/s] 66%|██████▌   | 31791/48008 [4:34:05<2:15:22,  2.00it/s] 66%|██████▌   | 31792/48008 [4:34:06<2:13:39,  2.02it/s] 66%|██████▌   | 31793/48008 [4:34:06<2:17:33,  1.96it/s] 66%|██████▌   | 31794/48008 [4:34:07<2:31:06,  1.79it/s] 66%|██████▌   | 31795/48008 [4:34:08<2:24:58,  1.86it/s] 66%|██████▌   | 31796/48008 [4:34:08<2:22:33,  1.90it/s] 66%|██████▌   | 31797/48008 [4:34:09<2:19:15,  1.94it/s] 66%|██████▌   | 31798/48008 [4:34:09<2:17:51,  1.96it/s] 66%|██████▌   | 31799/48008 [4:34:10<2:15:30,  1.99it/s] 66%|██████▌   | 31800/48008 [4:34:10<2:08:53,  2.10it/s]                                                         {'loss': 4.2883, 'grad_norm': 0.0999365746974945, 'learning_rate': 6.752624562572904e-05, 'epoch': 0.66} 66%|██████▌   | 31800/48008 [4:34:10<2:08:53,  2.10it/s]
 66%|██████▌   | 31801/48008 [4:34:11<2:08:55,  2.10it/s] 66%|██████▌   | 31802/48008 [4:34:11<2:10:42,  2.07it/s] 66%|██████▌   | 31803/48008 [4:34:12<2:12:14,  2.04it/s] 66%|██████▌   | 31804/48008 [4:34:12<2:11:13,  2.06it/s] 66%|██████▌   | 31805/48008 [4:34:13<2:12:53,  2.03it/s] 66%|██████▋   | 31806/48008 [4:34:13<2:11:38,  2.05it/s] 66%|██████▋   | 31807/48008 [4:34:13<2:05:50,  2.15it/s] 66%|██████▋   | 31808/48008 [4:34:14<2:01:55,  2.21it/s] 66%|██████▋   | 31809/48008 [4:34:14<2:04:19,  2.17it/s] 66%|██████▋   | 31810/48008 [4:34:15<2:09:23,  2.09it/s] 66%|██████▋   | 31811/48008 [4:34:15<2:04:26,  2.17it/s] 66%|██████▋   | 31812/48008 [4:34:16<2:06:29,  2.13it/s] 66%|██████▋   | 31813/48008 [4:34:16<2:10:51,  2.06it/s] 66%|██████▋   | 31814/48008 [4:34:17<2:10:30,  2.07it/s] 66%|██████▋   | 31815/48008 [4:34:17<2:14:40,  2.00it/s] 66%|██████▋   | 31816/48008 [4:34:18<2:07:53,  2.11it/s] 66%|██████▋   | 31817/48008 [4:34:18<2:08:29,  2.10it/s] 66%|██████▋   | 31818/48008 [4:34:19<2:03:35,  2.18it/s] 66%|██████▋   | 31819/48008 [4:34:19<2:05:17,  2.15it/s] 66%|██████▋   | 31820/48008 [4:34:20<2:09:46,  2.08it/s] 66%|██████▋   | 31821/48008 [4:34:20<2:11:31,  2.05it/s] 66%|██████▋   | 31822/48008 [4:34:21<2:12:56,  2.03it/s] 66%|██████▋   | 31823/48008 [4:34:21<2:11:50,  2.05it/s] 66%|██████▋   | 31824/48008 [4:34:21<2:05:58,  2.14it/s] 66%|██████▋   | 31825/48008 [4:34:22<2:09:04,  2.09it/s] 66%|██████▋   | 31826/48008 [4:34:22<2:04:13,  2.17it/s] 66%|██████▋   | 31827/48008 [4:34:23<2:07:54,  2.11it/s] 66%|██████▋   | 31828/48008 [4:34:24<3:10:32,  1.42it/s] 66%|██████▋   | 31829/48008 [4:34:25<2:47:24,  1.61it/s] 66%|██████▋   | 31830/48008 [4:34:25<2:37:35,  1.71it/s] 66%|██████▋   | 31831/48008 [4:34:26<2:31:13,  1.78it/s] 66%|██████▋   | 31832/48008 [4:34:26<2:24:22,  1.87it/s] 66%|██████▋   | 31833/48008 [4:34:26<2:14:36,  2.00it/s] 66%|██████▋   | 31834/48008 [4:34:27<2:28:47,  1.81it/s] 66%|██████▋   | 31835/48008 [4:34:28<2:17:45,  1.96it/s] 66%|██████▋   | 31836/48008 [4:34:28<2:10:06,  2.07it/s] 66%|██████▋   | 31837/48008 [4:34:28<2:11:46,  2.05it/s] 66%|██████▋   | 31838/48008 [4:34:29<2:11:25,  2.05it/s] 66%|██████▋   | 31839/48008 [4:34:29<2:11:00,  2.06it/s] 66%|██████▋   | 31840/48008 [4:34:30<2:05:26,  2.15it/s] 66%|██████▋   | 31841/48008 [4:34:30<2:06:38,  2.13it/s] 66%|██████▋   | 31842/48008 [4:34:31<2:02:24,  2.20it/s] 66%|██████▋   | 31843/48008 [4:34:31<1:59:22,  2.26it/s] 66%|██████▋   | 31844/48008 [4:34:32<1:56:35,  2.31it/s] 66%|██████▋   | 31845/48008 [4:34:32<2:02:14,  2.20it/s] 66%|██████▋   | 31846/48008 [4:34:33<2:20:01,  1.92it/s] 66%|██████▋   | 31847/48008 [4:34:33<2:16:24,  1.97it/s] 66%|██████▋   | 31848/48008 [4:34:34<2:14:20,  2.00it/s] 66%|██████▋   | 31849/48008 [4:34:34<2:14:55,  2.00it/s] 66%|██████▋   | 31850/48008 [4:34:35<2:16:50,  1.97it/s]                                                         {'loss': 4.2365, 'grad_norm': 0.08762778341770172, 'learning_rate': 6.731794700883186e-05, 'epoch': 0.66}
 66%|██████▋   | 31850/48008 [4:34:35<2:16:50,  1.97it/s] 66%|██████▋   | 31851/48008 [4:34:35<2:30:19,  1.79it/s] 66%|██████▋   | 31852/48008 [4:34:36<2:25:37,  1.85it/s] 66%|██████▋   | 31853/48008 [4:34:36<2:20:27,  1.92it/s] 66%|██████▋   | 31854/48008 [4:34:37<2:12:00,  2.04it/s] 66%|██████▋   | 31855/48008 [4:34:37<2:14:10,  2.01it/s] 66%|██████▋   | 31856/48008 [4:34:38<2:13:08,  2.02it/s] 66%|██████▋   | 31857/48008 [4:34:38<2:13:54,  2.01it/s] 66%|██████▋   | 31858/48008 [4:34:39<2:15:39,  1.98it/s] 66%|██████▋   | 31859/48008 [4:34:39<2:15:37,  1.98it/s] 66%|██████▋   | 31860/48008 [4:34:40<2:13:32,  2.02it/s] 66%|██████▋   | 31861/48008 [4:34:40<2:07:18,  2.11it/s] 66%|██████▋   | 31862/48008 [4:34:41<2:08:01,  2.10it/s] 66%|██████▋   | 31863/48008 [4:34:41<2:10:14,  2.07it/s] 66%|██████▋   | 31864/48008 [4:34:42<2:11:59,  2.04it/s] 66%|██████▋   | 31865/48008 [4:34:42<2:12:51,  2.03it/s] 66%|██████▋   | 31866/48008 [4:34:43<2:06:32,  2.13it/s] 66%|██████▋   | 31867/48008 [4:34:43<2:07:20,  2.11it/s] 66%|██████▋   | 31868/48008 [4:34:44<2:02:49,  2.19it/s] 66%|██████▋   | 31869/48008 [4:34:44<1:59:49,  2.24it/s] 66%|██████▋   | 31870/48008 [4:34:44<1:57:38,  2.29it/s] 66%|██████▋   | 31871/48008 [4:34:45<2:17:13,  1.96it/s] 66%|██████▋   | 31872/48008 [4:34:46<2:14:52,  1.99it/s] 66%|██████▋   | 31873/48008 [4:34:46<2:13:31,  2.01it/s] 66%|██████▋   | 31874/48008 [4:34:47<2:13:45,  2.01it/s] 66%|██████▋   | 31875/48008 [4:34:47<2:12:39,  2.03it/s] 66%|██████▋   | 31876/48008 [4:34:47<2:06:04,  2.13it/s] 66%|██████▋   | 31877/48008 [4:34:49<3:09:25,  1.42it/s] 66%|██████▋   | 31878/48008 [4:34:49<2:51:50,  1.56it/s] 66%|██████▋   | 31879/48008 [4:34:50<2:39:21,  1.69it/s] 66%|██████▋   | 31880/48008 [4:34:50<2:33:28,  1.75it/s] 66%|██████▋   | 31881/48008 [4:34:51<2:28:05,  1.82it/s] 66%|██████▋   | 31882/48008 [4:34:51<2:22:26,  1.89it/s] 66%|██████▋   | 31883/48008 [4:34:52<2:13:12,  2.02it/s] 66%|██████▋   | 31884/48008 [4:34:52<2:28:06,  1.81it/s] 66%|██████▋   | 31885/48008 [4:34:53<2:22:37,  1.88it/s] 66%|██████▋   | 31886/48008 [4:34:53<2:18:24,  1.94it/s] 66%|██████▋   | 31887/48008 [4:34:54<2:20:24,  1.91it/s] 66%|██████▋   | 31888/48008 [4:34:54<2:16:41,  1.97it/s] 66%|██████▋   | 31889/48008 [4:34:55<2:09:23,  2.08it/s] 66%|██████▋   | 31890/48008 [4:34:55<2:09:29,  2.07it/s] 66%|██████▋   | 31891/48008 [4:34:56<2:08:56,  2.08it/s] 66%|██████▋   | 31892/48008 [4:34:56<2:08:46,  2.09it/s] 66%|██████▋   | 31893/48008 [4:34:57<2:24:08,  1.86it/s] 66%|██████▋   | 31894/48008 [4:34:57<2:22:48,  1.88it/s] 66%|██████▋   | 31895/48008 [4:34:58<2:20:47,  1.91it/s] 66%|██████▋   | 31896/48008 [4:34:58<2:19:07,  1.93it/s] 66%|██████▋   | 31897/48008 [4:34:59<2:16:01,  1.97it/s] 66%|██████▋   | 31898/48008 [4:34:59<2:14:05,  2.00it/s] 66%|██████▋   | 31899/48008 [4:35:00<2:07:32,  2.10it/s] 66%|██████▋   | 31900/48008 [4:35:00<2:11:32,  2.04it/s]                                                         {'loss': 4.2641, 'grad_norm': 0.1036529541015625, 'learning_rate': 6.710964839193468e-05, 'epoch': 0.66} 66%|██████▋   | 31900/48008 [4:35:00<2:11:32,  2.04it/s]
 66%|██████▋   | 31901/48008 [4:35:01<2:12:37,  2.02it/s] 66%|██████▋   | 31902/48008 [4:35:01<2:11:47,  2.04it/s] 66%|██████▋   | 31903/48008 [4:35:02<2:13:06,  2.02it/s] 66%|██████▋   | 31904/48008 [4:35:02<2:12:13,  2.03it/s] 66%|██████▋   | 31905/48008 [4:35:03<2:13:19,  2.01it/s] 66%|██████▋   | 31906/48008 [4:35:03<2:12:33,  2.02it/s] 66%|██████▋   | 31907/48008 [4:35:04<2:13:49,  2.01it/s] 66%|██████▋   | 31908/48008 [4:35:04<2:12:15,  2.03it/s] 66%|██████▋   | 31909/48008 [4:35:05<2:11:05,  2.05it/s] 66%|██████▋   | 31910/48008 [4:35:05<2:25:54,  1.84it/s] 66%|██████▋   | 31911/48008 [4:35:06<2:23:22,  1.87it/s] 66%|██████▋   | 31912/48008 [4:35:06<2:14:16,  2.00it/s] 66%|██████▋   | 31913/48008 [4:35:07<2:44:48,  1.63it/s] 66%|██████▋   | 31914/48008 [4:35:08<2:37:23,  1.70it/s] 66%|██████▋   | 31915/48008 [4:35:08<2:24:03,  1.86it/s] 66%|██████▋   | 31916/48008 [4:35:08<2:14:13,  2.00it/s] 66%|██████▋   | 31917/48008 [4:35:09<2:07:37,  2.10it/s] 66%|██████▋   | 31918/48008 [4:35:09<2:09:46,  2.07it/s] 66%|██████▋   | 31919/48008 [4:35:10<2:09:43,  2.07it/s] 66%|██████▋   | 31920/48008 [4:35:10<2:09:11,  2.08it/s] 66%|██████▋   | 31921/48008 [4:35:11<2:08:40,  2.08it/s] 66%|██████▋   | 31922/48008 [4:35:11<2:08:50,  2.08it/s] 66%|██████▋   | 31923/48008 [4:35:12<2:10:35,  2.05it/s] 66%|██████▋   | 31924/48008 [4:35:12<2:05:14,  2.14it/s] 66%|██████▋   | 31925/48008 [4:35:13<2:06:24,  2.12it/s] 67%|██████▋   | 31926/48008 [4:35:13<2:07:53,  2.10it/s] 67%|██████▋   | 31927/48008 [4:35:14<2:39:41,  1.68it/s] 67%|██████▋   | 31928/48008 [4:35:15<2:30:20,  1.78it/s] 67%|██████▋   | 31929/48008 [4:35:15<2:26:19,  1.83it/s] 67%|██████▋   | 31930/48008 [4:35:16<2:20:53,  1.90it/s] 67%|██████▋   | 31931/48008 [4:35:16<2:22:29,  1.88it/s] 67%|██████▋   | 31932/48008 [4:35:17<2:13:42,  2.00it/s] 67%|██████▋   | 31933/48008 [4:35:17<2:16:13,  1.97it/s] 67%|██████▋   | 31934/48008 [4:35:18<2:13:52,  2.00it/s] 67%|██████▋   | 31935/48008 [4:35:18<2:12:30,  2.02it/s] 67%|██████▋   | 31936/48008 [4:35:19<2:27:29,  1.82it/s] 67%|██████▋   | 31937/48008 [4:35:19<2:22:07,  1.88it/s] 67%|██████▋   | 31938/48008 [4:35:20<2:20:23,  1.91it/s] 67%|██████▋   | 31939/48008 [4:35:20<2:17:31,  1.95it/s] 67%|██████▋   | 31940/48008 [4:35:21<2:17:14,  1.95it/s] 67%|██████▋   | 31941/48008 [4:35:21<2:14:56,  1.98it/s] 67%|██████▋   | 31942/48008 [4:35:22<2:13:02,  2.01it/s] 67%|██████▋   | 31943/48008 [4:35:22<2:13:42,  2.00it/s] 67%|██████▋   | 31944/48008 [4:35:23<2:14:19,  1.99it/s] 67%|██████▋   | 31945/48008 [4:35:23<2:12:13,  2.02it/s] 67%|██████▋   | 31946/48008 [4:35:24<2:11:12,  2.04it/s] 67%|██████▋   | 31947/48008 [4:35:24<2:10:40,  2.05it/s] 67%|██████▋   | 31948/48008 [4:35:25<2:04:53,  2.14it/s] 67%|██████▋   | 31949/48008 [4:35:25<2:07:28,  2.10it/s] 67%|██████▋   | 31950/48008 [4:35:26<3:09:44,  1.41it/s]                                                         {'loss': 4.3, 'grad_norm': 0.08310015499591827, 'learning_rate': 6.69013497750375e-05, 'epoch': 0.67}
 67%|██████▋   | 31950/48008 [4:35:26<3:09:44,  1.41it/s] 67%|██████▋   | 31951/48008 [4:35:27<3:23:35,  1.31it/s] 67%|██████▋   | 31952/48008 [4:35:28<3:16:46,  1.36it/s] 67%|██████▋   | 31953/48008 [4:35:28<2:58:07,  1.50it/s] 67%|██████▋   | 31954/48008 [4:35:29<2:43:12,  1.64it/s] 67%|██████▋   | 31955/48008 [4:35:30<2:48:29,  1.59it/s] 67%|██████▋   | 31956/48008 [4:35:30<2:31:30,  1.77it/s] 67%|██████▋   | 31957/48008 [4:35:30<2:25:14,  1.84it/s] 67%|██████▋   | 31958/48008 [4:35:31<2:35:26,  1.72it/s] 67%|██████▋   | 31959/48008 [4:35:31<2:22:05,  1.88it/s] 67%|██████▋   | 31960/48008 [4:35:32<2:20:51,  1.90it/s] 67%|██████▋   | 31961/48008 [4:35:33<2:32:41,  1.75it/s] 67%|██████▋   | 31962/48008 [4:35:33<2:25:21,  1.84it/s] 67%|██████▋   | 31963/48008 [4:35:34<2:35:34,  1.72it/s] 67%|██████▋   | 31964/48008 [4:35:34<2:22:13,  1.88it/s] 67%|██████▋   | 31965/48008 [4:35:35<2:20:13,  1.91it/s] 67%|██████▋   | 31966/48008 [4:35:35<2:17:34,  1.94it/s] 67%|██████▋   | 31967/48008 [4:35:36<2:14:50,  1.98it/s] 67%|██████▋   | 31968/48008 [4:35:37<3:14:50,  1.37it/s] 67%|██████▋   | 31969/48008 [4:35:38<3:00:08,  1.48it/s] 67%|██████▋   | 31970/48008 [4:35:38<2:39:48,  1.67it/s] 67%|██████▋   | 31971/48008 [4:35:38<2:30:30,  1.78it/s] 67%|██████▋   | 31972/48008 [4:35:39<2:23:57,  1.86it/s] 67%|██████▋   | 31973/48008 [4:35:39<2:19:49,  1.91it/s] 67%|██████▋   | 31974/48008 [4:35:40<2:16:16,  1.96it/s] 67%|██████▋   | 31975/48008 [4:35:41<2:45:41,  1.61it/s] 67%|██████▋   | 31976/48008 [4:35:41<2:34:50,  1.73it/s] 67%|██████▋   | 31977/48008 [4:35:42<2:28:32,  1.80it/s] 67%|██████▋   | 31978/48008 [4:35:42<2:22:19,  1.88it/s] 67%|██████▋   | 31979/48008 [4:35:43<2:17:52,  1.94it/s] 67%|██████▋   | 31980/48008 [4:35:43<2:15:21,  1.97it/s] 67%|██████▋   | 31981/48008 [4:35:44<2:08:05,  2.09it/s] 67%|██████▋   | 31982/48008 [4:35:44<2:03:20,  2.17it/s] 67%|██████▋   | 31983/48008 [4:35:44<2:04:51,  2.14it/s] 67%|██████▋   | 31984/48008 [4:35:45<2:07:54,  2.09it/s] 67%|██████▋   | 31985/48008 [4:35:45<2:08:23,  2.08it/s] 67%|██████▋   | 31986/48008 [4:35:46<2:00:37,  2.21it/s] 67%|██████▋   | 31987/48008 [4:35:46<1:58:02,  2.26it/s] 67%|██████▋   | 31988/48008 [4:35:47<2:04:21,  2.15it/s] 67%|██████▋   | 31989/48008 [4:35:47<2:07:35,  2.09it/s] 67%|██████▋   | 31990/48008 [4:35:48<2:10:05,  2.05it/s] 67%|██████▋   | 31991/48008 [4:35:48<2:09:26,  2.06it/s] 67%|██████▋   | 31992/48008 [4:35:49<2:11:11,  2.03it/s] 67%|██████▋   | 31993/48008 [4:35:49<2:10:41,  2.04it/s] 67%|██████▋   | 31994/48008 [4:35:50<2:10:56,  2.04it/s] 67%|██████▋   | 31995/48008 [4:35:50<2:09:46,  2.06it/s] 67%|██████▋   | 31996/48008 [4:35:51<2:12:33,  2.01it/s] 67%|██████▋   | 31997/48008 [4:35:51<2:11:38,  2.03it/s] 67%|██████▋   | 31998/48008 [4:35:52<2:12:11,  2.02it/s] 67%|██████▋   | 31999/48008 [4:35:52<2:12:54,  2.01it/s] 67%|██████▋   | 32000/48008 [4:35:53<2:11:36,  2.03it/s]                                                         {'loss': 4.2391, 'grad_norm': 0.10010155290365219, 'learning_rate': 6.669305115814031e-05, 'epoch': 0.67}
 67%|██████▋   | 32000/48008 [4:35:53<2:11:36,  2.03it/s] 67%|██████▋   | 32001/48008 [4:35:53<2:10:24,  2.05it/s] 67%|██████▋   | 32002/48008 [4:35:54<2:10:15,  2.05it/s] 67%|██████▋   | 32003/48008 [4:35:54<2:09:08,  2.07it/s] 67%|██████▋   | 32004/48008 [4:35:55<2:10:56,  2.04it/s] 67%|██████▋   | 32005/48008 [4:35:55<2:10:01,  2.05it/s] 67%|██████▋   | 32006/48008 [4:35:56<2:09:33,  2.06it/s] 67%|██████▋   | 32007/48008 [4:35:56<2:13:59,  1.99it/s] 67%|██████▋   | 32008/48008 [4:35:57<2:12:31,  2.01it/s] 67%|██████▋   | 32009/48008 [4:35:57<2:11:22,  2.03it/s] 67%|██████▋   | 32010/48008 [4:35:58<2:10:29,  2.04it/s] 67%|██████▋   | 32011/48008 [4:35:58<2:11:33,  2.03it/s] 67%|██████▋   | 32012/48008 [4:35:59<2:10:24,  2.04it/s] 67%|██████▋   | 32013/48008 [4:35:59<2:11:52,  2.02it/s] 67%|██████▋   | 32014/48008 [4:36:00<2:10:49,  2.04it/s] 67%|██████▋   | 32015/48008 [4:36:00<2:10:19,  2.05it/s] 67%|██████▋   | 32016/48008 [4:36:01<2:04:37,  2.14it/s] 67%|██████▋   | 32017/48008 [4:36:01<2:06:13,  2.11it/s] 67%|██████▋   | 32018/48008 [4:36:02<2:08:15,  2.08it/s] 67%|██████▋   | 32019/48008 [4:36:02<2:11:17,  2.03it/s] 67%|██████▋   | 32020/48008 [4:36:03<2:15:22,  1.97it/s] 67%|██████▋   | 32021/48008 [4:36:03<2:12:47,  2.01it/s] 67%|██████▋   | 32022/48008 [4:36:04<2:13:13,  2.00it/s] 67%|██████▋   | 32023/48008 [4:36:04<2:12:00,  2.02it/s] 67%|██████▋   | 32024/48008 [4:36:05<2:11:07,  2.03it/s] 67%|██████▋   | 32025/48008 [4:36:05<2:10:19,  2.04it/s] 67%|██████▋   | 32026/48008 [4:36:06<2:10:09,  2.05it/s] 67%|██████▋   | 32027/48008 [4:36:06<2:09:22,  2.06it/s] 67%|██████▋   | 32028/48008 [4:36:07<2:13:43,  1.99it/s] 67%|██████▋   | 32029/48008 [4:36:07<2:04:10,  2.14it/s] 67%|██████▋   | 32030/48008 [4:36:07<2:06:40,  2.10it/s] 67%|██████▋   | 32031/48008 [4:36:08<2:22:35,  1.87it/s] 67%|██████▋   | 32032/48008 [4:36:09<2:19:43,  1.91it/s] 67%|██████▋   | 32033/48008 [4:36:09<2:11:27,  2.03it/s] 67%|██████▋   | 32034/48008 [4:36:09<2:11:01,  2.03it/s] 67%|██████▋   | 32035/48008 [4:36:10<2:05:01,  2.13it/s] 67%|██████▋   | 32036/48008 [4:36:10<2:07:34,  2.09it/s] 67%|██████▋   | 32037/48008 [4:36:11<2:02:31,  2.17it/s] 67%|██████▋   | 32038/48008 [4:36:11<2:03:41,  2.15it/s] 67%|██████▋   | 32039/48008 [4:36:12<2:05:08,  2.13it/s] 67%|██████▋   | 32040/48008 [4:36:12<2:10:42,  2.04it/s] 67%|██████▋   | 32041/48008 [4:36:13<2:10:02,  2.05it/s] 67%|██████▋   | 32042/48008 [4:36:13<2:25:19,  1.83it/s] 67%|██████▋   | 32043/48008 [4:36:14<2:21:35,  1.88it/s] 67%|██████▋   | 32044/48008 [4:36:14<2:17:25,  1.94it/s] 67%|██████▋   | 32045/48008 [4:36:15<2:15:56,  1.96it/s] 67%|██████▋   | 32046/48008 [4:36:15<2:13:41,  1.99it/s] 67%|██████▋   | 32047/48008 [4:36:16<2:12:12,  2.01it/s] 67%|██████▋   | 32048/48008 [4:36:16<2:12:53,  2.00it/s] 67%|██████▋   | 32049/48008 [4:36:17<2:11:33,  2.02it/s] 67%|██████▋   | 32050/48008 [4:36:17<2:10:31,  2.04it/s]                                                         {'loss': 4.1982, 'grad_norm': 0.12564557790756226, 'learning_rate': 6.648475254124313e-05, 'epoch': 0.67}
 67%|██████▋   | 32050/48008 [4:36:17<2:10:31,  2.04it/s] 67%|██████▋   | 32051/48008 [4:36:18<2:14:26,  1.98it/s] 67%|██████▋   | 32052/48008 [4:36:18<2:12:09,  2.01it/s] 67%|██████▋   | 32053/48008 [4:36:19<2:11:02,  2.03it/s] 67%|██████▋   | 32054/48008 [4:36:19<2:09:45,  2.05it/s] 67%|██████▋   | 32055/48008 [4:36:20<2:09:15,  2.06it/s] 67%|██████▋   | 32056/48008 [4:36:20<2:10:29,  2.04it/s] 67%|██████▋   | 32057/48008 [4:36:21<2:25:22,  1.83it/s] 67%|██████▋   | 32058/48008 [4:36:22<2:19:36,  1.90it/s] 67%|██████▋   | 32059/48008 [4:36:22<2:15:53,  1.96it/s] 67%|██████▋   | 32060/48008 [4:36:22<2:13:36,  1.99it/s] 67%|██████▋   | 32061/48008 [4:36:23<2:12:02,  2.01it/s] 67%|██████▋   | 32062/48008 [4:36:23<2:11:05,  2.03it/s] 67%|██████▋   | 32063/48008 [4:36:24<2:10:06,  2.04it/s] 67%|██████▋   | 32064/48008 [4:36:24<2:14:43,  1.97it/s] 67%|██████▋   | 32065/48008 [4:36:25<2:14:25,  1.98it/s] 67%|██████▋   | 32066/48008 [4:36:25<2:12:17,  2.01it/s] 67%|██████▋   | 32067/48008 [4:36:26<2:14:28,  1.98it/s] 67%|██████▋   | 32068/48008 [4:36:26<2:12:30,  2.01it/s] 67%|██████▋   | 32069/48008 [4:36:27<2:06:01,  2.11it/s] 67%|██████▋   | 32070/48008 [4:36:27<2:11:02,  2.03it/s] 67%|██████▋   | 32071/48008 [4:36:28<2:02:08,  2.17it/s] 67%|██████▋   | 32072/48008 [4:36:28<1:58:32,  2.24it/s] 67%|██████▋   | 32073/48008 [4:36:29<2:01:06,  2.19it/s] 67%|██████▋   | 32074/48008 [4:36:29<2:03:08,  2.16it/s] 67%|██████▋   | 32075/48008 [4:36:30<2:04:40,  2.13it/s] 67%|██████▋   | 32076/48008 [4:36:30<2:07:16,  2.09it/s] 67%|██████▋   | 32077/48008 [4:36:31<2:09:54,  2.04it/s] 67%|██████▋   | 32078/48008 [4:36:31<2:09:02,  2.06it/s] 67%|██████▋   | 32079/48008 [4:36:32<2:13:19,  1.99it/s] 67%|██████▋   | 32080/48008 [4:36:32<2:12:28,  2.00it/s] 67%|██████▋   | 32081/48008 [4:36:33<2:26:05,  1.82it/s] 67%|██████▋   | 32082/48008 [4:36:33<2:20:35,  1.89it/s] 67%|██████▋   | 32083/48008 [4:36:34<2:16:57,  1.94it/s] 67%|██████▋   | 32084/48008 [4:36:34<2:17:30,  1.93it/s] 67%|██████▋   | 32085/48008 [4:36:35<2:16:29,  1.94it/s] 67%|██████▋   | 32086/48008 [4:36:35<2:08:52,  2.06it/s] 67%|██████▋   | 32087/48008 [4:36:37<3:10:32,  1.39it/s] 67%|██████▋   | 32088/48008 [4:36:37<2:51:38,  1.55it/s] 67%|██████▋   | 32089/48008 [4:36:37<2:38:20,  1.68it/s] 67%|██████▋   | 32090/48008 [4:36:38<2:33:31,  1.73it/s] 67%|██████▋   | 32091/48008 [4:36:39<2:25:52,  1.82it/s] 67%|██████▋   | 32092/48008 [4:36:39<2:20:48,  1.88it/s] 67%|██████▋   | 32093/48008 [4:36:39<2:17:20,  1.93it/s] 67%|██████▋   | 32094/48008 [4:36:40<2:16:11,  1.95it/s] 67%|██████▋   | 32095/48008 [4:36:40<2:16:00,  1.95it/s] 67%|██████▋   | 32096/48008 [4:36:41<2:08:43,  2.06it/s] 67%|██████▋   | 32097/48008 [4:36:41<2:12:59,  1.99it/s] 67%|██████▋   | 32098/48008 [4:36:42<2:10:59,  2.02it/s] 67%|██████▋   | 32099/48008 [4:36:42<2:09:48,  2.04it/s] 67%|██████▋   | 32100/48008 [4:36:43<2:24:57,  1.83it/s]                                                         {'loss': 4.2207, 'grad_norm': 0.10705572366714478, 'learning_rate': 6.627645392434595e-05, 'epoch': 0.67} 67%|██████▋   | 32100/48008 [4:36:43<2:24:57,  1.83it/s]
 67%|██████▋   | 32101/48008 [4:36:44<2:20:08,  1.89it/s] 67%|██████▋   | 32102/48008 [4:36:44<2:21:11,  1.88it/s] 67%|██████▋   | 32103/48008 [4:36:45<2:18:56,  1.91it/s] 67%|██████▋   | 32104/48008 [4:36:45<2:10:13,  2.04it/s] 67%|██████▋   | 32105/48008 [4:36:46<2:12:43,  2.00it/s] 67%|██████▋   | 32106/48008 [4:36:46<2:27:09,  1.80it/s] 67%|██████▋   | 32107/48008 [4:36:47<2:21:36,  1.87it/s] 67%|██████▋   | 32108/48008 [4:36:47<2:17:47,  1.92it/s] 67%|██████▋   | 32109/48008 [4:36:48<2:14:40,  1.97it/s] 67%|██████▋   | 32110/48008 [4:36:48<2:07:21,  2.08it/s] 67%|██████▋   | 32111/48008 [4:36:49<2:09:08,  2.05it/s] 67%|██████▋   | 32112/48008 [4:36:49<2:08:39,  2.06it/s] 67%|██████▋   | 32113/48008 [4:36:50<2:08:21,  2.06it/s] 67%|██████▋   | 32114/48008 [4:36:50<2:07:41,  2.07it/s] 67%|██████▋   | 32115/48008 [4:36:51<2:07:26,  2.08it/s] 67%|██████▋   | 32116/48008 [4:36:51<2:02:19,  2.17it/s] 67%|██████▋   | 32117/48008 [4:36:51<2:06:09,  2.10it/s] 67%|██████▋   | 32118/48008 [4:36:52<2:08:17,  2.06it/s] 67%|██████▋   | 32119/48008 [4:36:53<2:12:56,  1.99it/s] 67%|██████▋   | 32120/48008 [4:36:53<2:06:27,  2.09it/s] 67%|██████▋   | 32121/48008 [4:36:53<2:09:52,  2.04it/s] 67%|██████▋   | 32122/48008 [4:36:54<2:10:49,  2.02it/s] 67%|██████▋   | 32123/48008 [4:36:54<2:09:38,  2.04it/s] 67%|██████▋   | 32124/48008 [4:36:55<2:09:02,  2.05it/s] 67%|██████▋   | 32125/48008 [4:36:55<2:08:40,  2.06it/s] 67%|██████▋   | 32126/48008 [4:36:56<2:10:26,  2.03it/s] 67%|██████▋   | 32127/48008 [4:36:56<2:11:28,  2.01it/s] 67%|██████▋   | 32128/48008 [4:36:57<2:10:34,  2.03it/s] 67%|██████▋   | 32129/48008 [4:36:57<2:04:25,  2.13it/s] 67%|██████▋   | 32130/48008 [4:36:58<2:10:02,  2.03it/s] 67%|██████▋   | 32131/48008 [4:36:58<2:11:02,  2.02it/s] 67%|██████▋   | 32132/48008 [4:36:59<2:12:14,  2.00it/s] 67%|██████▋   | 32133/48008 [4:37:00<2:52:18,  1.54it/s] 67%|██████▋   | 32134/48008 [4:37:00<2:40:57,  1.64it/s] 67%|██████▋   | 32135/48008 [4:37:01<2:30:32,  1.76it/s] 67%|██████▋   | 32136/48008 [4:37:01<2:23:52,  1.84it/s] 67%|██████▋   | 32137/48008 [4:37:02<2:20:30,  1.88it/s] 67%|██████▋   | 32138/48008 [4:37:03<2:31:53,  1.74it/s] 67%|██████▋   | 32139/48008 [4:37:03<2:25:12,  1.82it/s] 67%|██████▋   | 32140/48008 [4:37:04<2:21:48,  1.87it/s] 67%|██████▋   | 32141/48008 [4:37:04<2:19:18,  1.90it/s] 67%|██████▋   | 32142/48008 [4:37:05<2:20:56,  1.88it/s] 67%|██████▋   | 32143/48008 [4:37:05<2:17:01,  1.93it/s] 67%|██████▋   | 32144/48008 [4:37:06<2:15:50,  1.95it/s] 67%|██████▋   | 32145/48008 [4:37:06<2:08:38,  2.06it/s] 67%|██████▋   | 32146/48008 [4:37:06<2:02:50,  2.15it/s] 67%|██████▋   | 32147/48008 [4:37:07<2:05:49,  2.10it/s] 67%|██████▋   | 32148/48008 [4:37:07<2:09:26,  2.04it/s] 67%|██████▋   | 32149/48008 [4:37:08<2:10:36,  2.02it/s] 67%|██████▋   | 32150/48008 [4:37:08<2:12:32,  1.99it/s]                                                         {'loss': 4.2364, 'grad_norm': 0.10176759213209152, 'learning_rate': 6.606815530744876e-05, 'epoch': 0.67} 67%|██████▋   | 32150/48008 [4:37:08<2:12:32,  1.99it/s]
 67%|██████▋   | 32151/48008 [4:37:09<2:13:22,  1.98it/s] 67%|██████▋   | 32152/48008 [4:37:09<2:14:28,  1.97it/s] 67%|██████▋   | 32153/48008 [4:37:10<2:12:52,  1.99it/s] 67%|██████▋   | 32154/48008 [4:37:10<2:05:59,  2.10it/s] 67%|██████▋   | 32155/48008 [4:37:11<2:06:22,  2.09it/s] 67%|██████▋   | 32156/48008 [4:37:11<2:06:38,  2.09it/s] 67%|██████▋   | 32157/48008 [4:37:12<2:08:29,  2.06it/s] 67%|██████▋   | 32158/48008 [4:37:12<2:03:16,  2.14it/s] 67%|██████▋   | 32159/48008 [4:37:13<2:04:10,  2.13it/s] 67%|██████▋   | 32160/48008 [4:37:13<2:06:43,  2.08it/s] 67%|██████▋   | 32161/48008 [4:37:14<2:06:59,  2.08it/s] 67%|██████▋   | 32162/48008 [4:37:14<2:06:29,  2.09it/s] 67%|██████▋   | 32163/48008 [4:37:15<2:10:16,  2.03it/s] 67%|██████▋   | 32164/48008 [4:37:15<2:09:15,  2.04it/s] 67%|██████▋   | 32165/48008 [4:37:16<2:09:11,  2.04it/s] 67%|██████▋   | 32166/48008 [4:37:16<2:08:33,  2.05it/s] 67%|██████▋   | 32167/48008 [4:37:17<2:08:17,  2.06it/s] 67%|██████▋   | 32168/48008 [4:37:17<2:02:49,  2.15it/s] 67%|██████▋   | 32169/48008 [4:37:18<2:04:22,  2.12it/s] 67%|██████▋   | 32170/48008 [4:37:18<2:05:27,  2.10it/s] 67%|██████▋   | 32171/48008 [4:37:19<3:06:44,  1.41it/s] 67%|██████▋   | 32172/48008 [4:37:20<2:43:57,  1.61it/s] 67%|██████▋   | 32173/48008 [4:37:20<2:34:31,  1.71it/s] 67%|██████▋   | 32174/48008 [4:37:21<2:26:21,  1.80it/s] 67%|██████▋   | 32175/48008 [4:37:21<2:20:36,  1.88it/s] 67%|██████▋   | 32176/48008 [4:37:22<2:16:50,  1.93it/s] 67%|██████▋   | 32177/48008 [4:37:22<2:13:47,  1.97it/s] 67%|██████▋   | 32178/48008 [4:37:23<2:11:30,  2.01it/s] 67%|██████▋   | 32179/48008 [4:37:23<2:11:53,  2.00it/s] 67%|██████▋   | 32180/48008 [4:37:24<2:10:42,  2.02it/s] 67%|██████▋   | 32181/48008 [4:37:24<2:11:10,  2.01it/s] 67%|██████▋   | 32182/48008 [4:37:25<2:04:51,  2.11it/s] 67%|██████▋   | 32183/48008 [4:37:25<2:07:52,  2.06it/s] 67%|██████▋   | 32184/48008 [4:37:25<2:02:29,  2.15it/s] 67%|██████▋   | 32185/48008 [4:37:26<2:04:04,  2.13it/s] 67%|██████▋   | 32186/48008 [4:37:26<2:06:31,  2.08it/s] 67%|██████▋   | 32187/48008 [4:37:27<2:08:23,  2.05it/s] 67%|██████▋   | 32188/48008 [4:37:27<2:08:03,  2.06it/s] 67%|██████▋   | 32189/48008 [4:37:28<2:07:58,  2.06it/s] 67%|██████▋   | 32190/48008 [4:37:28<2:07:37,  2.07it/s] 67%|██████▋   | 32191/48008 [4:37:29<2:07:28,  2.07it/s] 67%|██████▋   | 32192/48008 [4:37:29<2:09:01,  2.04it/s] 67%|██████▋   | 32193/48008 [4:37:30<2:11:37,  2.00it/s] 67%|██████▋   | 32194/48008 [4:37:30<2:10:25,  2.02it/s] 67%|██████▋   | 32195/48008 [4:37:31<2:09:37,  2.03it/s] 67%|██████▋   | 32196/48008 [4:37:31<2:03:56,  2.13it/s] 67%|██████▋   | 32197/48008 [4:37:32<2:04:19,  2.12it/s] 67%|██████▋   | 32198/48008 [4:37:32<2:08:56,  2.04it/s] 67%|██████▋   | 32199/48008 [4:37:33<2:03:38,  2.13it/s] 67%|██████▋   | 32200/48008 [4:37:33<2:04:52,  2.11it/s]                                                         {'loss': 4.2561, 'grad_norm': 0.32504594326019287, 'learning_rate': 6.585985669055158e-05, 'epoch': 0.67} 67%|██████▋   | 32200/48008 [4:37:33<2:04:52,  2.11it/s]
 67%|██████▋   | 32201/48008 [4:37:34<2:01:10,  2.17it/s] 67%|██████▋   | 32202/48008 [4:37:34<2:06:03,  2.09it/s] 67%|██████▋   | 32203/48008 [4:37:35<2:09:16,  2.04it/s] 67%|██████▋   | 32204/48008 [4:37:35<2:13:09,  1.98it/s] 67%|██████▋   | 32205/48008 [4:37:36<2:11:14,  2.01it/s] 67%|██████▋   | 32206/48008 [4:37:36<2:10:22,  2.02it/s] 67%|██████▋   | 32207/48008 [4:37:37<2:09:15,  2.04it/s] 67%|██████▋   | 32208/48008 [4:37:37<2:10:29,  2.02it/s] 67%|██████▋   | 32209/48008 [4:37:38<2:09:31,  2.03it/s] 67%|██████▋   | 32210/48008 [4:37:38<2:09:31,  2.03it/s] 67%|██████▋   | 32211/48008 [4:37:39<2:08:20,  2.05it/s] 67%|██████▋   | 32212/48008 [4:37:39<2:07:19,  2.07it/s] 67%|██████▋   | 32213/48008 [4:37:40<2:08:52,  2.04it/s] 67%|██████▋   | 32214/48008 [4:37:40<2:09:43,  2.03it/s] 67%|██████▋   | 32215/48008 [4:37:41<2:09:13,  2.04it/s] 67%|██████▋   | 32216/48008 [4:37:41<2:08:47,  2.04it/s] 67%|██████▋   | 32217/48008 [4:37:42<2:10:28,  2.02it/s] 67%|██████▋   | 32218/48008 [4:37:42<2:09:39,  2.03it/s] 67%|██████▋   | 32219/48008 [4:37:43<2:10:25,  2.02it/s] 67%|██████▋   | 32220/48008 [4:37:43<2:13:28,  1.97it/s] 67%|██████▋   | 32221/48008 [4:37:44<2:11:47,  2.00it/s] 67%|██████▋   | 32222/48008 [4:37:44<2:10:25,  2.02it/s] 67%|██████▋   | 32223/48008 [4:37:45<2:09:18,  2.03it/s] 67%|██████▋   | 32224/48008 [4:37:45<2:09:49,  2.03it/s] 67%|██████▋   | 32225/48008 [4:37:46<2:11:39,  2.00it/s] 67%|██████▋   | 32226/48008 [4:37:46<2:02:18,  2.15it/s] 67%|██████▋   | 32227/48008 [4:37:46<2:03:55,  2.12it/s] 67%|██████▋   | 32228/48008 [4:37:47<2:04:57,  2.10it/s] 67%|██████▋   | 32229/48008 [4:37:47<2:05:28,  2.10it/s] 67%|██████▋   | 32230/48008 [4:37:48<2:01:01,  2.17it/s] 67%|██████▋   | 32231/48008 [4:37:48<2:02:47,  2.14it/s] 67%|██████▋   | 32232/48008 [4:37:49<1:58:48,  2.21it/s] 67%|██████▋   | 32233/48008 [4:37:50<2:32:10,  1.73it/s] 67%|██████▋   | 32234/48008 [4:37:50<2:26:36,  1.79it/s] 67%|██████▋   | 32235/48008 [4:37:51<2:15:09,  1.95it/s] 67%|██████▋   | 32236/48008 [4:37:51<2:07:28,  2.06it/s] 67%|██████▋   | 32237/48008 [4:37:51<2:11:38,  2.00it/s] 67%|██████▋   | 32238/48008 [4:37:52<2:11:59,  1.99it/s] 67%|██████▋   | 32239/48008 [4:37:53<2:13:48,  1.96it/s] 67%|██████▋   | 32240/48008 [4:37:53<2:11:51,  1.99it/s] 67%|██████▋   | 32241/48008 [4:37:53<2:10:18,  2.02it/s] 67%|██████▋   | 32242/48008 [4:37:54<2:10:58,  2.01it/s] 67%|██████▋   | 32243/48008 [4:37:54<2:09:50,  2.02it/s] 67%|██████▋   | 32244/48008 [4:37:55<2:09:03,  2.04it/s] 67%|██████▋   | 32245/48008 [4:37:55<2:08:11,  2.05it/s] 67%|██████▋   | 32246/48008 [4:37:56<2:02:22,  2.15it/s] 67%|██████▋   | 32247/48008 [4:37:56<2:03:56,  2.12it/s] 67%|██████▋   | 32248/48008 [4:37:57<2:04:57,  2.10it/s] 67%|██████▋   | 32249/48008 [4:37:57<2:06:53,  2.07it/s] 67%|██████▋   | 32250/48008 [4:37:58<2:06:35,  2.07it/s]                                                         {'loss': 4.2151, 'grad_norm': 0.2230541855096817, 'learning_rate': 6.56515580736544e-05, 'epoch': 0.67}
 67%|██████▋   | 32250/48008 [4:37:58<2:06:35,  2.07it/s] 67%|██████▋   | 32251/48008 [4:37:58<2:09:48,  2.02it/s] 67%|██████▋   | 32252/48008 [4:37:59<2:08:35,  2.04it/s] 67%|██████▋   | 32253/48008 [4:38:00<3:09:11,  1.39it/s] 67%|██████▋   | 32254/48008 [4:38:01<2:50:30,  1.54it/s] 67%|██████▋   | 32255/48008 [4:38:01<2:39:10,  1.65it/s] 67%|██████▋   | 32256/48008 [4:38:02<2:32:11,  1.72it/s] 67%|██████▋   | 32257/48008 [4:38:02<2:27:40,  1.78it/s] 67%|██████▋   | 32258/48008 [4:38:03<2:21:23,  1.86it/s] 67%|██████▋   | 32259/48008 [4:38:03<2:11:39,  1.99it/s] 67%|██████▋   | 32260/48008 [4:38:04<2:13:06,  1.97it/s] 67%|██████▋   | 32261/48008 [4:38:04<2:10:47,  2.01it/s] 67%|██████▋   | 32262/48008 [4:38:04<2:11:02,  2.00it/s] 67%|██████▋   | 32263/48008 [4:38:05<2:10:09,  2.02it/s] 67%|██████▋   | 32264/48008 [4:38:05<2:09:11,  2.03it/s] 67%|██████▋   | 32265/48008 [4:38:06<2:08:25,  2.04it/s] 67%|██████▋   | 32266/48008 [4:38:06<2:08:03,  2.05it/s] 67%|██████▋   | 32267/48008 [4:38:08<3:28:01,  1.26it/s] 67%|██████▋   | 32268/48008 [4:38:08<2:58:17,  1.47it/s] 67%|██████▋   | 32269/48008 [4:38:09<2:42:47,  1.61it/s] 67%|██████▋   | 32270/48008 [4:38:09<2:26:46,  1.79it/s] 67%|██████▋   | 32271/48008 [4:38:10<2:15:34,  1.93it/s] 67%|██████▋   | 32272/48008 [4:38:10<2:14:26,  1.95it/s] 67%|██████▋   | 32273/48008 [4:38:12<3:32:31,  1.23it/s] 67%|██████▋   | 32274/48008 [4:38:12<3:06:24,  1.41it/s] 67%|██████▋   | 32275/48008 [4:38:13<2:43:25,  1.60it/s] 67%|██████▋   | 32276/48008 [4:38:13<2:35:26,  1.69it/s] 67%|██████▋   | 32277/48008 [4:38:14<2:30:06,  1.75it/s] 67%|██████▋   | 32278/48008 [4:38:14<2:27:40,  1.78it/s] 67%|██████▋   | 32279/48008 [4:38:15<3:07:41,  1.40it/s] 67%|██████▋   | 32280/48008 [4:38:16<2:51:11,  1.53it/s] 67%|██████▋   | 32281/48008 [4:38:17<3:09:36,  1.38it/s] 67%|██████▋   | 32282/48008 [4:38:17<2:50:40,  1.54it/s] 67%|██████▋   | 32283/48008 [4:38:18<2:32:20,  1.72it/s] 67%|██████▋   | 32284/48008 [4:38:18<2:24:55,  1.81it/s] 67%|██████▋   | 32285/48008 [4:38:19<3:11:57,  1.37it/s] 67%|██████▋   | 32286/48008 [4:38:20<2:54:33,  1.50it/s] 67%|██████▋   | 32287/48008 [4:38:20<2:41:59,  1.62it/s] 67%|██████▋   | 32288/48008 [4:38:21<2:25:59,  1.79it/s] 67%|██████▋   | 32289/48008 [4:38:21<2:20:15,  1.87it/s] 67%|██████▋   | 32290/48008 [4:38:22<2:16:18,  1.92it/s] 67%|██████▋   | 32291/48008 [4:38:22<2:13:07,  1.97it/s] 67%|██████▋   | 32292/48008 [4:38:22<2:05:47,  2.08it/s] 67%|██████▋   | 32293/48008 [4:38:23<2:05:58,  2.08it/s] 67%|██████▋   | 32294/48008 [4:38:23<2:06:18,  2.07it/s] 67%|██████▋   | 32295/48008 [4:38:24<2:06:26,  2.07it/s] 67%|██████▋   | 32296/48008 [4:38:24<2:01:40,  2.15it/s] 67%|██████▋   | 32297/48008 [4:38:25<2:03:15,  2.12it/s] 67%|██████▋   | 32298/48008 [4:38:25<2:18:59,  1.88it/s] 67%|██████▋   | 32299/48008 [4:38:26<2:18:24,  1.89it/s] 67%|██████▋   | 32300/48008 [4:38:27<2:16:28,  1.92it/s]                                                         {'loss': 4.2488, 'grad_norm': 0.29646363854408264, 'learning_rate': 6.544325945675722e-05, 'epoch': 0.67}
 67%|██████▋   | 32300/48008 [4:38:27<2:16:28,  1.92it/s] 67%|██████▋   | 32301/48008 [4:38:27<2:28:21,  1.76it/s] 67%|██████▋   | 32302/48008 [4:38:28<2:21:45,  1.85it/s] 67%|██████▋   | 32303/48008 [4:38:28<2:17:11,  1.91it/s] 67%|██████▋   | 32304/48008 [4:38:29<2:08:59,  2.03it/s] 67%|██████▋   | 32305/48008 [4:38:29<2:11:44,  1.99it/s] 67%|██████▋   | 32306/48008 [4:38:30<2:09:45,  2.02it/s] 67%|██████▋   | 32307/48008 [4:38:30<2:11:39,  1.99it/s] 67%|██████▋   | 32308/48008 [4:38:31<2:10:12,  2.01it/s] 67%|██████▋   | 32309/48008 [4:38:31<2:14:39,  1.94it/s] 67%|██████▋   | 32310/48008 [4:38:32<2:12:21,  1.98it/s] 67%|██████▋   | 32311/48008 [4:38:32<2:10:35,  2.00it/s] 67%|██████▋   | 32312/48008 [4:38:33<2:11:00,  2.00it/s] 67%|██████▋   | 32313/48008 [4:38:33<2:13:40,  1.96it/s] 67%|██████▋   | 32314/48008 [4:38:34<2:13:28,  1.96it/s] 67%|██████▋   | 32315/48008 [4:38:34<2:12:49,  1.97it/s] 67%|██████▋   | 32316/48008 [4:38:35<2:12:43,  1.97it/s] 67%|██████▋   | 32317/48008 [4:38:36<2:42:15,  1.61it/s] 67%|██████▋   | 32318/48008 [4:38:36<2:31:27,  1.73it/s] 67%|██████▋   | 32319/48008 [4:38:37<2:40:04,  1.63it/s] 67%|██████▋   | 32320/48008 [4:38:37<2:25:04,  1.80it/s] 67%|██████▋   | 32321/48008 [4:38:38<2:21:29,  1.85it/s] 67%|██████▋   | 32322/48008 [4:38:38<2:12:20,  1.98it/s] 67%|██████▋   | 32323/48008 [4:38:39<2:12:08,  1.98it/s] 67%|██████▋   | 32324/48008 [4:38:39<2:10:12,  2.01it/s] 67%|██████▋   | 32325/48008 [4:38:40<2:12:00,  1.98it/s] 67%|██████▋   | 32326/48008 [4:38:40<2:05:05,  2.09it/s] 67%|██████▋   | 32327/48008 [4:38:40<2:00:27,  2.17it/s] 67%|██████▋   | 32328/48008 [4:38:41<2:04:37,  2.10it/s] 67%|██████▋   | 32329/48008 [4:38:42<2:20:08,  1.86it/s] 67%|██████▋   | 32330/48008 [4:38:42<2:15:39,  1.93it/s] 67%|██████▋   | 32331/48008 [4:38:43<2:13:21,  1.96it/s] 67%|██████▋   | 32332/48008 [4:38:43<2:11:26,  1.99it/s] 67%|██████▋   | 32333/48008 [4:38:44<2:11:55,  1.98it/s] 67%|██████▋   | 32334/48008 [4:38:44<2:09:38,  2.01it/s] 67%|██████▋   | 32335/48008 [4:38:44<2:03:53,  2.11it/s] 67%|██████▋   | 32336/48008 [4:38:45<2:06:25,  2.07it/s] 67%|██████▋   | 32337/48008 [4:38:45<2:06:05,  2.07it/s] 67%|██████▋   | 32338/48008 [4:38:46<2:09:20,  2.02it/s] 67%|██████▋   | 32339/48008 [4:38:46<2:03:20,  2.12it/s] 67%|██████▋   | 32340/48008 [4:38:47<2:06:48,  2.06it/s] 67%|██████▋   | 32341/48008 [4:38:47<2:06:42,  2.06it/s] 67%|██████▋   | 32342/48008 [4:38:48<2:06:47,  2.06it/s] 67%|██████▋   | 32343/48008 [4:38:49<2:21:57,  1.84it/s] 67%|██████▋   | 32344/48008 [4:38:49<2:17:07,  1.90it/s] 67%|██████▋   | 32345/48008 [4:38:50<2:13:14,  1.96it/s] 67%|██████▋   | 32346/48008 [4:38:50<2:10:58,  1.99it/s] 67%|██████▋   | 32347/48008 [4:38:50<2:09:45,  2.01it/s] 67%|██████▋   | 32348/48008 [4:38:51<2:08:18,  2.03it/s] 67%|██████▋   | 32349/48008 [4:38:51<2:09:18,  2.02it/s] 67%|██████▋   | 32350/48008 [4:38:52<2:00:30,  2.17it/s]                                                         {'loss': 4.235, 'grad_norm': 0.35062506794929504, 'learning_rate': 6.523496083986002e-05, 'epoch': 0.67}
 67%|██████▋   | 32350/48008 [4:38:52<2:00:30,  2.17it/s] 67%|██████▋   | 32351/48008 [4:38:52<2:04:47,  2.09it/s] 67%|██████▋   | 32352/48008 [4:38:53<2:04:46,  2.09it/s] 67%|██████▋   | 32353/48008 [4:38:54<2:35:33,  1.68it/s] 67%|██████▋   | 32354/48008 [4:38:54<2:26:49,  1.78it/s] 67%|██████▋   | 32355/48008 [4:38:55<2:20:45,  1.85it/s] 67%|██████▋   | 32356/48008 [4:38:55<2:15:48,  1.92it/s] 67%|██████▋   | 32357/48008 [4:38:56<2:14:04,  1.95it/s] 67%|██████▋   | 32358/48008 [4:38:57<2:42:54,  1.60it/s] 67%|██████▋   | 32359/48008 [4:38:57<2:31:08,  1.73it/s] 67%|██████▋   | 32360/48008 [4:38:58<3:24:17,  1.28it/s] 67%|██████▋   | 32361/48008 [4:38:59<3:02:13,  1.43it/s] 67%|██████▋   | 32362/48008 [4:38:59<2:45:38,  1.57it/s] 67%|██████▋   | 32363/48008 [4:39:00<2:33:56,  1.69it/s] 67%|██████▋   | 32364/48008 [4:39:00<2:25:39,  1.79it/s] 67%|██████▋   | 32365/48008 [4:39:01<2:22:40,  1.83it/s] 67%|██████▋   | 32366/48008 [4:39:01<2:17:10,  1.90it/s] 67%|██████▋   | 32367/48008 [4:39:02<2:15:45,  1.92it/s] 67%|██████▋   | 32368/48008 [4:39:02<2:12:28,  1.97it/s] 67%|██████▋   | 32369/48008 [4:39:03<2:10:42,  1.99it/s] 67%|██████▋   | 32370/48008 [4:39:03<2:24:36,  1.80it/s] 67%|██████▋   | 32371/48008 [4:39:04<2:23:14,  1.82it/s] 67%|██████▋   | 32372/48008 [4:39:04<2:18:14,  1.89it/s] 67%|██████▋   | 32373/48008 [4:39:05<2:16:28,  1.91it/s] 67%|██████▋   | 32374/48008 [4:39:05<2:15:49,  1.92it/s] 67%|██████▋   | 32375/48008 [4:39:06<2:15:25,  1.92it/s] 67%|██████▋   | 32376/48008 [4:39:06<2:12:34,  1.97it/s] 67%|██████▋   | 32377/48008 [4:39:07<2:10:25,  2.00it/s] 67%|██████▋   | 32378/48008 [4:39:07<2:10:15,  2.00it/s] 67%|██████▋   | 32379/48008 [4:39:08<2:10:57,  1.99it/s] 67%|██████▋   | 32380/48008 [4:39:08<2:11:48,  1.98it/s] 67%|██████▋   | 32381/48008 [4:39:09<2:09:35,  2.01it/s] 67%|██████▋   | 32382/48008 [4:39:09<2:03:22,  2.11it/s] 67%|██████▋   | 32383/48008 [4:39:10<1:59:24,  2.18it/s] 67%|██████▋   | 32384/48008 [4:39:10<2:05:59,  2.07it/s] 67%|██████▋   | 32385/48008 [4:39:11<2:05:35,  2.07it/s] 67%|██████▋   | 32386/48008 [4:39:12<3:05:51,  1.40it/s] 67%|██████▋   | 32387/48008 [4:39:13<2:48:15,  1.55it/s] 67%|██████▋   | 32388/48008 [4:39:13<2:37:25,  1.65it/s] 67%|██████▋   | 32389/48008 [4:39:14<2:31:37,  1.72it/s] 67%|██████▋   | 32390/48008 [4:39:14<2:25:09,  1.79it/s] 67%|██████▋   | 32391/48008 [4:39:15<2:19:19,  1.87it/s] 67%|██████▋   | 32392/48008 [4:39:15<2:10:31,  1.99it/s] 67%|██████▋   | 32393/48008 [4:39:16<2:24:32,  1.80it/s] 67%|██████▋   | 32394/48008 [4:39:16<2:20:24,  1.85it/s] 67%|██████▋   | 32395/48008 [4:39:17<2:16:04,  1.91it/s] 67%|██████▋   | 32396/48008 [4:39:17<2:12:40,  1.96it/s] 67%|██████▋   | 32397/48008 [4:39:18<2:12:51,  1.96it/s] 67%|██████▋   | 32398/48008 [4:39:18<2:10:37,  1.99it/s] 67%|██████▋   | 32399/48008 [4:39:19<2:09:38,  2.01it/s] 67%|██████▋   | 32400/48008 [4:39:19<2:08:31,  2.02it/s]                                                         {'loss': 4.2751, 'grad_norm': 0.2601616084575653, 'learning_rate': 6.502666222296284e-05, 'epoch': 0.67}
 67%|██████▋   | 32400/48008 [4:39:19<2:08:31,  2.02it/s] 67%|██████▋   | 32401/48008 [4:39:20<2:11:09,  1.98it/s] 67%|██████▋   | 32402/48008 [4:39:20<2:11:14,  1.98it/s] 67%|██████▋   | 32403/48008 [4:39:21<2:11:13,  1.98it/s] 67%|██████▋   | 32404/48008 [4:39:21<2:11:08,  1.98it/s] 67%|██████▋   | 32405/48008 [4:39:22<2:09:30,  2.01it/s] 68%|██████▊   | 32406/48008 [4:39:22<2:11:01,  1.98it/s] 68%|██████▊   | 32407/48008 [4:39:23<2:11:09,  1.98it/s] 68%|██████▊   | 32408/48008 [4:39:23<2:04:16,  2.09it/s] 68%|██████▊   | 32409/48008 [4:39:23<1:59:34,  2.17it/s] 68%|██████▊   | 32410/48008 [4:39:24<2:03:12,  2.11it/s] 68%|██████▊   | 32411/48008 [4:39:25<3:03:39,  1.42it/s] 68%|██████▊   | 32412/48008 [4:39:26<2:50:09,  1.53it/s] 68%|██████▊   | 32413/48008 [4:39:27<3:38:01,  1.19it/s] 68%|██████▊   | 32414/48008 [4:39:28<3:13:57,  1.34it/s] 68%|██████▊   | 32415/48008 [4:39:28<2:53:01,  1.50it/s] 68%|██████▊   | 32416/48008 [4:39:29<2:38:35,  1.64it/s] 68%|██████▊   | 32417/48008 [4:39:29<2:28:29,  1.75it/s] 68%|██████▊   | 32418/48008 [4:39:29<2:21:23,  1.84it/s] 68%|██████▊   | 32419/48008 [4:39:30<2:16:03,  1.91it/s] 68%|██████▊   | 32420/48008 [4:39:30<2:13:32,  1.95it/s] 68%|██████▊   | 32421/48008 [4:39:31<2:11:13,  1.98it/s] 68%|██████▊   | 32422/48008 [4:39:31<2:04:29,  2.09it/s] 68%|██████▊   | 32423/48008 [4:39:32<2:08:52,  2.02it/s] 68%|██████▊   | 32424/48008 [4:39:33<2:38:57,  1.63it/s] 68%|██████▊   | 32425/48008 [4:39:33<2:23:41,  1.81it/s] 68%|██████▊   | 32426/48008 [4:39:34<2:21:53,  1.83it/s] 68%|██████▊   | 32427/48008 [4:39:34<2:19:09,  1.87it/s] 68%|██████▊   | 32428/48008 [4:39:35<2:16:37,  1.90it/s] 68%|██████▊   | 32429/48008 [4:39:35<2:17:22,  1.89it/s] 68%|██████▊   | 32430/48008 [4:39:36<2:17:02,  1.89it/s] 68%|██████▊   | 32431/48008 [4:39:36<2:18:17,  1.88it/s] 68%|██████▊   | 32432/48008 [4:39:37<2:14:43,  1.93it/s] 68%|██████▊   | 32433/48008 [4:39:37<2:07:13,  2.04it/s] 68%|██████▊   | 32434/48008 [4:39:38<2:09:36,  2.00it/s] 68%|██████▊   | 32435/48008 [4:39:38<2:08:29,  2.02it/s] 68%|██████▊   | 32436/48008 [4:39:40<3:09:11,  1.37it/s] 68%|██████▊   | 32437/48008 [4:39:40<2:49:38,  1.53it/s] 68%|██████▊   | 32438/48008 [4:39:40<2:31:36,  1.71it/s] 68%|██████▊   | 32439/48008 [4:39:41<2:18:45,  1.87it/s] 68%|██████▊   | 32440/48008 [4:39:41<2:18:05,  1.88it/s] 68%|██████▊   | 32441/48008 [4:39:42<2:09:15,  2.01it/s] 68%|██████▊   | 32442/48008 [4:39:42<2:10:33,  1.99it/s] 68%|██████▊   | 32443/48008 [4:39:43<2:10:45,  1.98it/s] 68%|██████▊   | 32444/48008 [4:39:43<2:09:00,  2.01it/s] 68%|██████▊   | 32445/48008 [4:39:44<2:11:56,  1.97it/s] 68%|██████▊   | 32446/48008 [4:39:44<2:10:08,  1.99it/s] 68%|██████▊   | 32447/48008 [4:39:45<2:11:42,  1.97it/s] 68%|██████▊   | 32448/48008 [4:39:45<2:10:10,  1.99it/s] 68%|██████▊   | 32449/48008 [4:39:46<2:09:16,  2.01it/s] 68%|██████▊   | 32450/48008 [4:39:47<2:39:05,  1.63it/s]                                                         {'loss': 4.3063, 'grad_norm': 0.21192212402820587, 'learning_rate': 6.481836360606565e-05, 'epoch': 0.68}
 68%|██████▊   | 32450/48008 [4:39:47<2:39:05,  1.63it/s] 68%|██████▊   | 32451/48008 [4:39:47<2:30:22,  1.72it/s] 68%|██████▊   | 32452/48008 [4:39:48<2:53:03,  1.50it/s] 68%|██████▊   | 32453/48008 [4:39:49<2:40:37,  1.61it/s] 68%|██████▊   | 32454/48008 [4:39:49<2:29:26,  1.73it/s] 68%|██████▊   | 32455/48008 [4:39:50<2:22:18,  1.82it/s] 68%|██████▊   | 32456/48008 [4:39:50<2:18:39,  1.87it/s] 68%|██████▊   | 32457/48008 [4:39:51<2:14:51,  1.92it/s] 68%|██████▊   | 32458/48008 [4:39:51<2:06:41,  2.05it/s] 68%|██████▊   | 32459/48008 [4:39:51<2:09:24,  2.00it/s] 68%|██████▊   | 32460/48008 [4:39:52<2:08:24,  2.02it/s] 68%|██████▊   | 32461/48008 [4:39:52<2:09:27,  2.00it/s] 68%|██████▊   | 32462/48008 [4:39:53<2:11:21,  1.97it/s] 68%|██████▊   | 32463/48008 [4:39:54<3:10:43,  1.36it/s] 68%|██████▊   | 32464/48008 [4:39:55<2:46:11,  1.56it/s] 68%|██████▊   | 32465/48008 [4:39:55<2:33:57,  1.68it/s] 68%|██████▊   | 32466/48008 [4:39:56<2:28:27,  1.74it/s] 68%|██████▊   | 32467/48008 [4:39:56<2:36:37,  1.65it/s] 68%|██████▊   | 32468/48008 [4:39:57<2:27:18,  1.76it/s] 68%|██████▊   | 32469/48008 [4:39:57<2:22:49,  1.81it/s] 68%|██████▊   | 32470/48008 [4:39:58<2:17:50,  1.88it/s] 68%|██████▊   | 32471/48008 [4:39:58<2:08:56,  2.01it/s] 68%|██████▊   | 32472/48008 [4:39:59<2:09:50,  1.99it/s] 68%|██████▊   | 32473/48008 [4:39:59<2:09:53,  1.99it/s] 68%|██████▊   | 32474/48008 [4:40:00<2:10:11,  1.99it/s] 68%|██████▊   | 32475/48008 [4:40:00<2:10:28,  1.98it/s] 68%|██████▊   | 32476/48008 [4:40:01<2:08:41,  2.01it/s] 68%|██████▊   | 32477/48008 [4:40:01<2:07:33,  2.03it/s] 68%|██████▊   | 32478/48008 [4:40:02<2:09:50,  1.99it/s] 68%|██████▊   | 32479/48008 [4:40:02<2:03:35,  2.09it/s] 68%|██████▊   | 32480/48008 [4:40:03<2:03:59,  2.09it/s] 68%|██████▊   | 32481/48008 [4:40:04<2:35:21,  1.67it/s] 68%|██████▊   | 32482/48008 [4:40:05<3:27:25,  1.25it/s] 68%|██████▊   | 32483/48008 [4:40:05<3:07:40,  1.38it/s] 68%|██████▊   | 32484/48008 [4:40:06<2:52:07,  1.50it/s] 68%|██████▊   | 32485/48008 [4:40:06<2:33:13,  1.69it/s] 68%|██████▊   | 32486/48008 [4:40:07<2:19:25,  1.86it/s] 68%|██████▊   | 32487/48008 [4:40:07<2:16:37,  1.89it/s] 68%|██████▊   | 32488/48008 [4:40:08<2:08:26,  2.01it/s] 68%|██████▊   | 32489/48008 [4:40:08<2:09:10,  2.00it/s] 68%|██████▊   | 32490/48008 [4:40:09<2:08:02,  2.02it/s] 68%|██████▊   | 32491/48008 [4:40:09<2:07:11,  2.03it/s] 68%|██████▊   | 32492/48008 [4:40:10<2:08:04,  2.02it/s] 68%|██████▊   | 32493/48008 [4:40:10<2:07:13,  2.03it/s] 68%|██████▊   | 32494/48008 [4:40:11<2:01:19,  2.13it/s] 68%|██████▊   | 32495/48008 [4:40:11<1:57:24,  2.20it/s] 68%|██████▊   | 32496/48008 [4:40:11<2:01:40,  2.12it/s] 68%|██████▊   | 32497/48008 [4:40:12<2:02:46,  2.11it/s] 68%|██████▊   | 32498/48008 [4:40:13<3:02:46,  1.41it/s] 68%|██████▊   | 32499/48008 [4:40:14<2:47:14,  1.55it/s] 68%|██████▊   | 32500/48008 [4:40:14<2:34:12,  1.68it/s]                                                         {'loss': 4.2741, 'grad_norm': 0.12950605154037476, 'learning_rate': 6.461006498916847e-05, 'epoch': 0.68}
 68%|██████▊   | 32500/48008 [4:40:14<2:34:12,  1.68it/s] 68%|██████▊   | 32501/48008 [4:40:15<2:25:37,  1.77it/s] 68%|██████▊   | 32502/48008 [4:40:15<2:14:37,  1.92it/s] 68%|██████▊   | 32503/48008 [4:40:16<2:11:30,  1.96it/s] 68%|██████▊   | 32504/48008 [4:40:16<2:12:58,  1.94it/s] 68%|██████▊   | 32505/48008 [4:40:17<2:10:58,  1.97it/s] 68%|██████▊   | 32506/48008 [4:40:17<2:09:01,  2.00it/s] 68%|██████▊   | 32507/48008 [4:40:18<2:07:47,  2.02it/s] 68%|██████▊   | 32508/48008 [4:40:18<2:06:46,  2.04it/s] 68%|██████▊   | 32509/48008 [4:40:19<2:08:01,  2.02it/s] 68%|██████▊   | 32510/48008 [4:40:19<2:07:08,  2.03it/s] 68%|██████▊   | 32511/48008 [4:40:20<2:09:09,  2.00it/s] 68%|██████▊   | 32512/48008 [4:40:20<2:09:40,  1.99it/s] 68%|██████▊   | 32513/48008 [4:40:21<2:23:02,  1.81it/s] 68%|██████▊   | 32514/48008 [4:40:21<2:17:26,  1.88it/s] 68%|██████▊   | 32515/48008 [4:40:22<2:18:24,  1.87it/s] 68%|██████▊   | 32516/48008 [4:40:22<2:15:44,  1.90it/s] 68%|██████▊   | 32517/48008 [4:40:23<2:07:28,  2.03it/s] 68%|██████▊   | 32518/48008 [4:40:23<2:10:40,  1.98it/s] 68%|██████▊   | 32519/48008 [4:40:24<2:23:33,  1.80it/s] 68%|██████▊   | 32520/48008 [4:40:24<2:19:44,  1.85it/s] 68%|██████▊   | 32521/48008 [4:40:25<2:17:24,  1.88it/s] 68%|██████▊   | 32522/48008 [4:40:25<2:08:24,  2.01it/s] 68%|██████▊   | 32523/48008 [4:40:26<2:08:51,  2.00it/s] 68%|██████▊   | 32524/48008 [4:40:26<2:12:17,  1.95it/s] 68%|██████▊   | 32525/48008 [4:40:27<2:10:14,  1.98it/s] 68%|██████▊   | 32526/48008 [4:40:28<2:23:17,  1.80it/s] 68%|██████▊   | 32527/48008 [4:40:28<2:12:19,  1.95it/s] 68%|██████▊   | 32528/48008 [4:40:28<2:12:53,  1.94it/s] 68%|██████▊   | 32529/48008 [4:40:29<2:13:00,  1.94it/s] 68%|██████▊   | 32530/48008 [4:40:30<2:13:54,  1.93it/s] 68%|██████▊   | 32531/48008 [4:40:30<2:06:14,  2.04it/s] 68%|██████▊   | 32532/48008 [4:40:30<2:09:56,  1.98it/s] 68%|██████▊   | 32533/48008 [4:40:31<2:08:20,  2.01it/s] 68%|██████▊   | 32534/48008 [4:40:31<2:09:55,  1.98it/s] 68%|██████▊   | 32535/48008 [4:40:32<2:03:18,  2.09it/s] 68%|██████▊   | 32536/48008 [4:40:32<1:58:46,  2.17it/s] 68%|██████▊   | 32537/48008 [4:40:33<2:04:09,  2.08it/s] 68%|██████▊   | 32538/48008 [4:40:33<2:07:04,  2.03it/s] 68%|██████▊   | 32539/48008 [4:40:34<2:07:55,  2.02it/s] 68%|██████▊   | 32540/48008 [4:40:34<2:06:56,  2.03it/s] 68%|██████▊   | 32541/48008 [4:40:35<2:08:54,  2.00it/s] 68%|██████▊   | 32542/48008 [4:40:35<2:09:40,  1.99it/s] 68%|██████▊   | 32543/48008 [4:40:36<2:10:54,  1.97it/s] 68%|██████▊   | 32544/48008 [4:40:37<3:08:47,  1.37it/s] 68%|██████▊   | 32545/48008 [4:40:38<2:44:27,  1.57it/s] 68%|██████▊   | 32546/48008 [4:40:38<2:37:03,  1.64it/s] 68%|██████▊   | 32547/48008 [4:40:39<2:27:11,  1.75it/s] 68%|██████▊   | 32548/48008 [4:40:39<2:15:12,  1.91it/s] 68%|██████▊   | 32549/48008 [4:40:39<2:11:50,  1.95it/s] 68%|██████▊   | 32550/48008 [4:40:40<2:09:03,  2.00it/s]                                                         {'loss': 4.2772, 'grad_norm': 0.13806875050067902, 'learning_rate': 6.440176637227129e-05, 'epoch': 0.68}
 68%|██████▊   | 32550/48008 [4:40:40<2:09:03,  2.00it/s] 68%|██████▊   | 32551/48008 [4:40:40<2:08:11,  2.01it/s] 68%|██████▊   | 32552/48008 [4:40:41<2:11:30,  1.96it/s] 68%|██████▊   | 32553/48008 [4:40:41<2:04:25,  2.07it/s] 68%|██████▊   | 32554/48008 [4:40:42<1:59:12,  2.16it/s] 68%|██████▊   | 32555/48008 [4:40:42<2:03:29,  2.09it/s] 68%|██████▊   | 32556/48008 [4:40:43<2:03:37,  2.08it/s] 68%|██████▊   | 32557/48008 [4:40:43<2:05:28,  2.05it/s] 68%|██████▊   | 32558/48008 [4:40:44<2:06:56,  2.03it/s] 68%|██████▊   | 32559/48008 [4:40:44<2:01:11,  2.12it/s] 68%|██████▊   | 32560/48008 [4:40:45<2:02:11,  2.11it/s] 68%|██████▊   | 32561/48008 [4:40:45<2:02:33,  2.10it/s] 68%|██████▊   | 32562/48008 [4:40:46<2:03:25,  2.09it/s] 68%|██████▊   | 32563/48008 [4:40:46<2:18:16,  1.86it/s] 68%|██████▊   | 32564/48008 [4:40:47<2:14:24,  1.92it/s] 68%|██████▊   | 32565/48008 [4:40:48<2:42:15,  1.59it/s] 68%|██████▊   | 32566/48008 [4:40:48<2:33:57,  1.67it/s] 68%|██████▊   | 32567/48008 [4:40:49<2:19:41,  1.84it/s] 68%|██████▊   | 32568/48008 [4:40:49<2:16:43,  1.88it/s] 68%|██████▊   | 32569/48008 [4:40:50<2:14:50,  1.91it/s] 68%|██████▊   | 32570/48008 [4:40:50<2:11:13,  1.96it/s] 68%|██████▊   | 32571/48008 [4:40:51<2:23:34,  1.79it/s] 68%|██████▊   | 32572/48008 [4:40:51<2:20:53,  1.83it/s] 68%|██████▊   | 32573/48008 [4:40:52<2:15:38,  1.90it/s] 68%|██████▊   | 32574/48008 [4:40:52<2:07:19,  2.02it/s] 68%|██████▊   | 32575/48008 [4:40:53<2:07:53,  2.01it/s] 68%|██████▊   | 32576/48008 [4:40:53<2:06:47,  2.03it/s] 68%|██████▊   | 32577/48008 [4:40:54<2:36:56,  1.64it/s] 68%|██████▊   | 32578/48008 [4:40:55<2:22:03,  1.81it/s] 68%|██████▊   | 32579/48008 [4:40:55<2:18:51,  1.85it/s] 68%|██████▊   | 32580/48008 [4:40:56<2:14:18,  1.91it/s] 68%|██████▊   | 32581/48008 [4:40:56<2:11:14,  1.96it/s] 68%|██████▊   | 32582/48008 [4:40:57<2:39:57,  1.61it/s] 68%|██████▊   | 32583/48008 [4:40:57<2:29:16,  1.72it/s] 68%|██████▊   | 32584/48008 [4:40:58<2:21:31,  1.82it/s] 68%|██████▊   | 32585/48008 [4:40:58<2:16:52,  1.88it/s] 68%|██████▊   | 32586/48008 [4:40:59<2:14:32,  1.91it/s] 68%|██████▊   | 32587/48008 [4:40:59<2:11:38,  1.95it/s] 68%|██████▊   | 32588/48008 [4:41:00<2:09:07,  1.99it/s] 68%|██████▊   | 32589/48008 [4:41:01<2:22:02,  1.81it/s] 68%|██████▊   | 32590/48008 [4:41:01<2:21:02,  1.82it/s] 68%|██████▊   | 32591/48008 [4:41:02<2:18:47,  1.85it/s] 68%|██████▊   | 32592/48008 [4:41:02<2:16:15,  1.89it/s] 68%|██████▊   | 32593/48008 [4:41:03<2:12:27,  1.94it/s] 68%|██████▊   | 32594/48008 [4:41:03<2:04:52,  2.06it/s] 68%|██████▊   | 32595/48008 [4:41:03<2:04:17,  2.07it/s] 68%|██████▊   | 32596/48008 [4:41:04<2:06:34,  2.03it/s] 68%|██████▊   | 32597/48008 [4:41:04<2:07:23,  2.02it/s] 68%|██████▊   | 32598/48008 [4:41:05<2:10:44,  1.96it/s] 68%|██████▊   | 32599/48008 [4:41:06<2:10:47,  1.96it/s] 68%|██████▊   | 32600/48008 [4:41:07<3:08:41,  1.36it/s]                                                         {'loss': 4.3451, 'grad_norm': 0.12124065309762955, 'learning_rate': 6.419346775537411e-05, 'epoch': 0.68}
 68%|██████▊   | 32600/48008 [4:41:07<3:08:41,  1.36it/s] 68%|██████▊   | 32601/48008 [4:41:07<2:48:51,  1.52it/s] 68%|██████▊   | 32602/48008 [4:41:08<2:37:12,  1.63it/s] 68%|██████▊   | 32603/48008 [4:41:08<2:28:56,  1.72it/s] 68%|██████▊   | 32604/48008 [4:41:09<2:35:50,  1.65it/s] 68%|██████▊   | 32605/48008 [4:41:09<2:21:20,  1.82it/s] 68%|██████▊   | 32606/48008 [4:41:10<2:17:47,  1.86it/s] 68%|██████▊   | 32607/48008 [4:41:10<2:08:53,  1.99it/s] 68%|██████▊   | 32608/48008 [4:41:11<2:07:13,  2.02it/s] 68%|██████▊   | 32609/48008 [4:41:11<2:06:37,  2.03it/s] 68%|██████▊   | 32610/48008 [4:41:12<2:06:08,  2.03it/s] 68%|██████▊   | 32611/48008 [4:41:12<2:08:09,  2.00it/s] 68%|██████▊   | 32612/48008 [4:41:13<2:07:07,  2.02it/s] 68%|██████▊   | 32613/48008 [4:41:13<2:05:53,  2.04it/s] 68%|██████▊   | 32614/48008 [4:41:14<2:05:44,  2.04it/s] 68%|██████▊   | 32615/48008 [4:41:14<2:05:12,  2.05it/s] 68%|██████▊   | 32616/48008 [4:41:15<1:59:56,  2.14it/s] 68%|██████▊   | 32617/48008 [4:41:15<2:01:13,  2.12it/s] 68%|██████▊   | 32618/48008 [4:41:16<2:02:19,  2.10it/s] 68%|██████▊   | 32619/48008 [4:41:16<2:06:01,  2.04it/s] 68%|██████▊   | 32620/48008 [4:41:17<2:05:29,  2.04it/s] 68%|██████▊   | 32621/48008 [4:41:17<1:59:50,  2.14it/s] 68%|██████▊   | 32622/48008 [4:41:18<2:31:43,  1.69it/s] 68%|██████▊   | 32623/48008 [4:41:18<2:18:32,  1.85it/s] 68%|██████▊   | 32624/48008 [4:41:20<3:14:37,  1.32it/s] 68%|██████▊   | 32625/48008 [4:41:20<2:53:36,  1.48it/s] 68%|██████▊   | 32626/48008 [4:41:20<2:33:48,  1.67it/s] 68%|██████▊   | 32627/48008 [4:41:21<2:24:40,  1.77it/s] 68%|██████▊   | 32628/48008 [4:41:21<2:18:34,  1.85it/s] 68%|██████▊   | 32629/48008 [4:41:22<2:14:26,  1.91it/s] 68%|██████▊   | 32630/48008 [4:41:23<2:26:44,  1.75it/s] 68%|██████▊   | 32631/48008 [4:41:23<2:19:25,  1.84it/s] 68%|██████▊   | 32632/48008 [4:41:24<2:30:19,  1.70it/s] 68%|██████▊   | 32633/48008 [4:41:24<2:27:15,  1.74it/s] 68%|██████▊   | 32634/48008 [4:41:25<2:24:26,  1.77it/s] 68%|██████▊   | 32635/48008 [4:41:26<2:33:21,  1.67it/s] 68%|██████▊   | 32636/48008 [4:41:26<2:24:36,  1.77it/s] 68%|██████▊   | 32637/48008 [4:41:27<2:17:49,  1.86it/s] 68%|██████▊   | 32638/48008 [4:41:27<2:15:29,  1.89it/s] 68%|██████▊   | 32639/48008 [4:41:28<2:12:12,  1.94it/s] 68%|██████▊   | 32640/48008 [4:41:28<2:10:06,  1.97it/s] 68%|██████▊   | 32641/48008 [4:41:29<2:11:02,  1.95it/s] 68%|██████▊   | 32642/48008 [4:41:29<2:08:43,  1.99it/s] 68%|██████▊   | 32643/48008 [4:41:29<2:07:41,  2.01it/s] 68%|██████▊   | 32644/48008 [4:41:30<2:06:20,  2.03it/s] 68%|██████▊   | 32645/48008 [4:41:30<2:00:41,  2.12it/s] 68%|██████▊   | 32646/48008 [4:41:31<2:03:20,  2.08it/s] 68%|██████▊   | 32647/48008 [4:41:31<2:03:39,  2.07it/s] 68%|██████▊   | 32648/48008 [4:41:32<2:18:27,  1.85it/s] 68%|██████▊   | 32649/48008 [4:41:33<2:16:49,  1.87it/s] 68%|██████▊   | 32650/48008 [4:41:33<2:17:13,  1.87it/s]                                                         {'loss': 4.2863, 'grad_norm': 0.09583454579114914, 'learning_rate': 6.398516913847692e-05, 'epoch': 0.68} 68%|██████▊   | 32650/48008 [4:41:33<2:17:13,  1.87it/s]
 68%|██████▊   | 32651/48008 [4:41:34<2:13:24,  1.92it/s] 68%|██████▊   | 32652/48008 [4:41:34<2:12:09,  1.94it/s] 68%|██████▊   | 32653/48008 [4:41:35<2:05:01,  2.05it/s] 68%|██████▊   | 32654/48008 [4:41:35<2:07:23,  2.01it/s] 68%|██████▊   | 32655/48008 [4:41:36<3:05:53,  1.38it/s] 68%|██████▊   | 32656/48008 [4:41:37<2:47:09,  1.53it/s] 68%|██████▊   | 32657/48008 [4:41:37<2:37:10,  1.63it/s] 68%|██████▊   | 32658/48008 [4:41:38<2:41:44,  1.58it/s] 68%|██████▊   | 32659/48008 [4:41:38<2:29:36,  1.71it/s] 68%|██████▊   | 32660/48008 [4:41:39<2:21:56,  1.80it/s] 68%|██████▊   | 32661/48008 [4:41:39<2:15:57,  1.88it/s] 68%|██████▊   | 32662/48008 [4:41:40<2:07:13,  2.01it/s] 68%|██████▊   | 32663/48008 [4:41:40<2:07:43,  2.00it/s] 68%|██████▊   | 32664/48008 [4:41:41<2:09:34,  1.97it/s] 68%|██████▊   | 32665/48008 [4:41:41<2:09:31,  1.97it/s] 68%|██████▊   | 32666/48008 [4:41:42<2:23:03,  1.79it/s] 68%|██████▊   | 32667/48008 [4:41:43<2:17:17,  1.86it/s] 68%|██████▊   | 32668/48008 [4:41:43<2:16:08,  1.88it/s] 68%|██████▊   | 32669/48008 [4:41:44<2:14:02,  1.91it/s] 68%|██████▊   | 32670/48008 [4:41:44<2:10:50,  1.95it/s] 68%|██████▊   | 32671/48008 [4:41:45<2:11:45,  1.94it/s] 68%|██████▊   | 32672/48008 [4:41:45<2:09:22,  1.98it/s] 68%|██████▊   | 32673/48008 [4:41:45<2:02:08,  2.09it/s] 68%|██████▊   | 32674/48008 [4:41:46<2:02:10,  2.09it/s] 68%|██████▊   | 32675/48008 [4:41:46<2:02:31,  2.09it/s] 68%|██████▊   | 32676/48008 [4:41:47<2:07:19,  2.01it/s] 68%|██████▊   | 32677/48008 [4:41:47<2:08:49,  1.98it/s] 68%|██████▊   | 32678/48008 [4:41:48<2:07:17,  2.01it/s] 68%|██████▊   | 32679/48008 [4:41:48<2:06:11,  2.02it/s] 68%|██████▊   | 32680/48008 [4:41:49<2:05:31,  2.04it/s] 68%|██████▊   | 32681/48008 [4:41:49<2:04:58,  2.04it/s] 68%|██████▊   | 32682/48008 [4:41:50<2:03:56,  2.06it/s] 68%|██████▊   | 32683/48008 [4:41:50<2:06:09,  2.02it/s] 68%|██████▊   | 32684/48008 [4:41:51<2:06:38,  2.02it/s] 68%|██████▊   | 32685/48008 [4:41:51<2:07:09,  2.01it/s] 68%|██████▊   | 32686/48008 [4:41:52<2:07:28,  2.00it/s] 68%|██████▊   | 32687/48008 [4:41:53<2:21:13,  1.81it/s] 68%|██████▊   | 32688/48008 [4:41:53<2:17:27,  1.86it/s] 68%|██████▊   | 32689/48008 [4:41:54<2:16:35,  1.87it/s] 68%|██████▊   | 32690/48008 [4:41:54<2:07:38,  2.00it/s] 68%|██████▊   | 32691/48008 [4:41:55<2:09:12,  1.98it/s] 68%|██████▊   | 32692/48008 [4:41:55<2:22:48,  1.79it/s] 68%|██████▊   | 32693/48008 [4:41:56<2:17:20,  1.86it/s] 68%|██████▊   | 32694/48008 [4:41:56<2:17:32,  1.86it/s] 68%|██████▊   | 32695/48008 [4:41:57<2:15:52,  1.88it/s] 68%|██████▊   | 32696/48008 [4:41:57<2:11:27,  1.94it/s] 68%|██████▊   | 32697/48008 [4:41:58<2:04:02,  2.06it/s] 68%|██████▊   | 32698/48008 [4:41:58<2:05:29,  2.03it/s] 68%|██████▊   | 32699/48008 [4:41:59<2:06:48,  2.01it/s] 68%|██████▊   | 32700/48008 [4:41:59<2:08:46,  1.98it/s]                                                         {'loss': 4.2605, 'grad_norm': 0.10505916178226471, 'learning_rate': 6.377687052157973e-05, 'epoch': 0.68}
 68%|██████▊   | 32700/48008 [4:41:59<2:08:46,  1.98it/s] 68%|██████▊   | 32701/48008 [4:42:00<2:01:48,  2.09it/s] 68%|██████▊   | 32702/48008 [4:42:00<2:03:41,  2.06it/s] 68%|██████▊   | 32703/48008 [4:42:01<2:07:55,  1.99it/s] 68%|██████▊   | 32704/48008 [4:42:01<2:07:58,  1.99it/s] 68%|██████▊   | 32705/48008 [4:42:02<2:06:22,  2.02it/s] 68%|██████▊   | 32706/48008 [4:42:02<2:07:26,  2.00it/s] 68%|██████▊   | 32707/48008 [4:42:03<2:01:06,  2.11it/s] 68%|██████▊   | 32708/48008 [4:42:03<2:02:01,  2.09it/s] 68%|██████▊   | 32709/48008 [4:42:04<2:02:24,  2.08it/s] 68%|██████▊   | 32710/48008 [4:42:04<2:04:00,  2.06it/s] 68%|██████▊   | 32711/48008 [4:42:05<2:03:43,  2.06it/s] 68%|██████▊   | 32712/48008 [4:42:05<2:03:12,  2.07it/s] 68%|██████▊   | 32713/48008 [4:42:05<1:58:08,  2.16it/s] 68%|██████▊   | 32714/48008 [4:42:06<2:01:21,  2.10it/s] 68%|██████▊   | 32715/48008 [4:42:06<2:03:43,  2.06it/s] 68%|██████▊   | 32716/48008 [4:42:07<1:58:40,  2.15it/s] 68%|██████▊   | 32717/48008 [4:42:08<2:14:44,  1.89it/s] 68%|██████▊   | 32718/48008 [4:42:08<2:06:14,  2.02it/s] 68%|██████▊   | 32719/48008 [4:42:09<2:20:23,  1.82it/s] 68%|██████▊   | 32720/48008 [4:42:09<2:15:08,  1.89it/s] 68%|██████▊   | 32721/48008 [4:42:10<2:11:27,  1.94it/s] 68%|██████▊   | 32722/48008 [4:42:10<2:10:35,  1.95it/s] 68%|██████▊   | 32723/48008 [4:42:11<2:09:28,  1.97it/s] 68%|██████▊   | 32724/48008 [4:42:11<2:02:36,  2.08it/s] 68%|██████▊   | 32725/48008 [4:42:12<2:02:29,  2.08it/s] 68%|██████▊   | 32726/48008 [4:42:12<2:02:52,  2.07it/s] 68%|██████▊   | 32727/48008 [4:42:12<2:02:56,  2.07it/s] 68%|██████▊   | 32728/48008 [4:42:13<2:02:45,  2.07it/s] 68%|██████▊   | 32729/48008 [4:42:13<1:57:53,  2.16it/s] 68%|██████▊   | 32730/48008 [4:42:14<2:01:55,  2.09it/s] 68%|██████▊   | 32731/48008 [4:42:14<2:04:02,  2.05it/s] 68%|██████▊   | 32732/48008 [4:42:15<2:03:29,  2.06it/s] 68%|██████▊   | 32733/48008 [4:42:15<2:03:33,  2.06it/s] 68%|██████▊   | 32734/48008 [4:42:16<1:58:00,  2.16it/s] 68%|██████▊   | 32735/48008 [4:42:16<2:01:54,  2.09it/s] 68%|██████▊   | 32736/48008 [4:42:17<2:16:27,  1.87it/s] 68%|██████▊   | 32737/48008 [4:42:17<2:07:27,  2.00it/s] 68%|██████▊   | 32738/48008 [4:42:18<2:07:16,  2.00it/s] 68%|██████▊   | 32739/48008 [4:42:18<2:07:48,  1.99it/s] 68%|██████▊   | 32740/48008 [4:42:19<2:08:19,  1.98it/s] 68%|██████▊   | 32741/48008 [4:42:19<2:06:40,  2.01it/s] 68%|██████▊   | 32742/48008 [4:42:20<2:05:16,  2.03it/s] 68%|██████▊   | 32743/48008 [4:42:20<2:06:40,  2.01it/s] 68%|██████▊   | 32744/48008 [4:42:21<1:57:53,  2.16it/s] 68%|██████▊   | 32745/48008 [4:42:21<2:14:29,  1.89it/s] 68%|██████▊   | 32746/48008 [4:42:22<2:12:51,  1.91it/s] 68%|██████▊   | 32747/48008 [4:42:22<2:13:59,  1.90it/s] 68%|██████▊   | 32748/48008 [4:42:23<2:10:44,  1.95it/s] 68%|██████▊   | 32749/48008 [4:42:23<2:03:34,  2.06it/s] 68%|██████▊   | 32750/48008 [4:42:24<2:05:42,  2.02it/s]                                                         {'loss': 4.2465, 'grad_norm': 0.09522908180952072, 'learning_rate': 6.356857190468256e-05, 'epoch': 0.68}
 68%|██████▊   | 32750/48008 [4:42:24<2:05:42,  2.02it/s] 68%|██████▊   | 32751/48008 [4:42:24<2:05:09,  2.03it/s] 68%|██████▊   | 32752/48008 [4:42:25<2:04:23,  2.04it/s] 68%|██████▊   | 32753/48008 [4:42:25<1:59:05,  2.13it/s] 68%|██████▊   | 32754/48008 [4:42:26<2:00:38,  2.11it/s] 68%|██████▊   | 32755/48008 [4:42:26<2:03:50,  2.05it/s] 68%|██████▊   | 32756/48008 [4:42:27<2:18:10,  1.84it/s] 68%|██████▊   | 32757/48008 [4:42:27<2:13:41,  1.90it/s] 68%|██████▊   | 32758/48008 [4:42:28<2:11:50,  1.93it/s] 68%|██████▊   | 32759/48008 [4:42:28<2:09:06,  1.97it/s] 68%|██████▊   | 32760/48008 [4:42:29<2:08:25,  1.98it/s] 68%|██████▊   | 32761/48008 [4:42:29<2:07:08,  2.00it/s] 68%|██████▊   | 32762/48008 [4:42:30<2:05:33,  2.02it/s] 68%|██████▊   | 32763/48008 [4:42:30<2:06:57,  2.00it/s] 68%|██████▊   | 32764/48008 [4:42:31<2:05:47,  2.02it/s] 68%|██████▊   | 32765/48008 [4:42:31<2:05:10,  2.03it/s] 68%|██████▊   | 32766/48008 [4:42:32<2:09:03,  1.97it/s] 68%|██████▊   | 32767/48008 [4:42:32<2:08:51,  1.97it/s] 68%|██████▊   | 32768/48008 [4:42:33<2:09:02,  1.97it/s] 68%|██████▊   | 32769/48008 [4:42:33<2:07:21,  1.99it/s] 68%|██████▊   | 32770/48008 [4:42:34<2:05:54,  2.02it/s] 68%|██████▊   | 32771/48008 [4:42:34<2:08:07,  1.98it/s] 68%|██████▊   | 32772/48008 [4:42:35<2:06:53,  2.00it/s] 68%|██████▊   | 32773/48008 [4:42:35<2:05:22,  2.03it/s] 68%|██████▊   | 32774/48008 [4:42:36<2:04:17,  2.04it/s] 68%|██████▊   | 32775/48008 [4:42:36<1:58:56,  2.13it/s] 68%|██████▊   | 32776/48008 [4:42:37<2:00:03,  2.11it/s] 68%|██████▊   | 32777/48008 [4:42:37<2:02:14,  2.08it/s] 68%|██████▊   | 32778/48008 [4:42:38<2:02:32,  2.07it/s] 68%|██████▊   | 32779/48008 [4:42:38<2:02:41,  2.07it/s] 68%|██████▊   | 32780/48008 [4:42:39<2:02:24,  2.07it/s] 68%|██████▊   | 32781/48008 [4:42:39<2:02:19,  2.07it/s] 68%|██████▊   | 32782/48008 [4:42:40<2:02:24,  2.07it/s] 68%|██████▊   | 32783/48008 [4:42:40<2:07:11,  2.00it/s] 68%|██████▊   | 32784/48008 [4:42:41<2:07:17,  1.99it/s] 68%|██████▊   | 32785/48008 [4:42:41<2:05:56,  2.01it/s] 68%|██████▊   | 32786/48008 [4:42:42<1:59:50,  2.12it/s] 68%|██████▊   | 32787/48008 [4:42:42<1:55:48,  2.19it/s] 68%|██████▊   | 32788/48008 [4:42:43<2:56:25,  1.44it/s] 68%|██████▊   | 32789/48008 [4:42:44<2:39:56,  1.59it/s] 68%|██████▊   | 32790/48008 [4:42:44<2:30:11,  1.69it/s] 68%|██████▊   | 32791/48008 [4:42:45<2:21:53,  1.79it/s] 68%|██████▊   | 32792/48008 [4:42:45<2:16:06,  1.86it/s] 68%|██████▊   | 32793/48008 [4:42:46<2:11:59,  1.92it/s] 68%|██████▊   | 32794/48008 [4:42:46<2:08:57,  1.97it/s] 68%|██████▊   | 32795/48008 [4:42:47<2:08:50,  1.97it/s] 68%|██████▊   | 32796/48008 [4:42:47<2:06:31,  2.00it/s] 68%|██████▊   | 32797/48008 [4:42:48<2:04:51,  2.03it/s] 68%|██████▊   | 32798/48008 [4:42:48<2:04:05,  2.04it/s] 68%|██████▊   | 32799/48008 [4:42:49<2:18:19,  1.83it/s] 68%|██████▊   | 32800/48008 [4:42:49<2:13:34,  1.90it/s]                                                         {'loss': 4.2002, 'grad_norm': 0.09983784705400467, 'learning_rate': 6.336027328778538e-05, 'epoch': 0.68}
 68%|██████▊   | 32800/48008 [4:42:49<2:13:34,  1.90it/s] 68%|██████▊   | 32801/48008 [4:42:50<2:12:24,  1.91it/s] 68%|██████▊   | 32802/48008 [4:42:51<2:24:22,  1.76it/s] 68%|██████▊   | 32803/48008 [4:42:51<2:20:39,  1.80it/s] 68%|██████▊   | 32804/48008 [4:42:52<2:15:30,  1.87it/s] 68%|██████▊   | 32805/48008 [4:42:52<2:11:47,  1.92it/s] 68%|██████▊   | 32806/48008 [4:42:53<2:23:52,  1.76it/s] 68%|██████▊   | 32807/48008 [4:42:53<2:12:50,  1.91it/s] 68%|██████▊   | 32808/48008 [4:42:54<2:11:16,  1.93it/s] 68%|██████▊   | 32809/48008 [4:42:54<2:08:54,  1.97it/s] 68%|██████▊   | 32810/48008 [4:42:55<2:01:55,  2.08it/s] 68%|██████▊   | 32811/48008 [4:42:55<1:57:14,  2.16it/s] 68%|██████▊   | 32812/48008 [4:42:55<1:59:55,  2.11it/s] 68%|██████▊   | 32813/48008 [4:42:56<2:03:11,  2.06it/s] 68%|██████▊   | 32814/48008 [4:42:56<2:02:54,  2.06it/s] 68%|██████▊   | 32815/48008 [4:42:57<2:02:46,  2.06it/s] 68%|██████▊   | 32816/48008 [4:42:57<2:05:15,  2.02it/s] 68%|██████▊   | 32817/48008 [4:42:58<2:06:07,  2.01it/s] 68%|██████▊   | 32818/48008 [4:42:58<2:06:28,  2.00it/s] 68%|██████▊   | 32819/48008 [4:42:59<2:00:03,  2.11it/s] 68%|██████▊   | 32820/48008 [4:42:59<1:55:49,  2.19it/s] 68%|██████▊   | 32821/48008 [4:43:00<1:58:54,  2.13it/s] 68%|██████▊   | 32822/48008 [4:43:00<2:00:00,  2.11it/s] 68%|██████▊   | 32823/48008 [4:43:01<2:02:29,  2.07it/s] 68%|██████▊   | 32824/48008 [4:43:01<2:02:36,  2.06it/s] 68%|██████▊   | 32825/48008 [4:43:02<2:02:19,  2.07it/s] 68%|██████▊   | 32826/48008 [4:43:02<2:03:53,  2.04it/s] 68%|██████▊   | 32827/48008 [4:43:03<1:58:21,  2.14it/s] 68%|██████▊   | 32828/48008 [4:43:03<1:59:38,  2.11it/s] 68%|██████▊   | 32829/48008 [4:43:04<2:05:01,  2.02it/s] 68%|██████▊   | 32830/48008 [4:43:04<2:08:48,  1.96it/s] 68%|██████▊   | 32831/48008 [4:43:05<2:06:52,  1.99it/s] 68%|██████▊   | 32832/48008 [4:43:05<2:07:30,  1.98it/s] 68%|██████▊   | 32833/48008 [4:43:06<2:01:03,  2.09it/s] 68%|██████▊   | 32834/48008 [4:43:06<2:04:29,  2.03it/s] 68%|██████▊   | 32835/48008 [4:43:07<1:58:50,  2.13it/s] 68%|██████▊   | 32836/48008 [4:43:07<1:59:58,  2.11it/s] 68%|██████▊   | 32837/48008 [4:43:08<2:03:08,  2.05it/s] 68%|██████▊   | 32838/48008 [4:43:08<1:58:08,  2.14it/s] 68%|██████▊   | 32839/48008 [4:43:09<1:59:05,  2.12it/s] 68%|██████▊   | 32840/48008 [4:43:09<1:55:12,  2.19it/s] 68%|██████▊   | 32841/48008 [4:43:09<1:52:26,  2.25it/s] 68%|██████▊   | 32842/48008 [4:43:10<1:55:17,  2.19it/s] 68%|██████▊   | 32843/48008 [4:43:10<2:00:25,  2.10it/s] 68%|██████▊   | 32844/48008 [4:43:11<2:00:29,  2.10it/s] 68%|██████▊   | 32845/48008 [4:43:11<2:00:58,  2.09it/s] 68%|██████▊   | 32846/48008 [4:43:12<2:03:00,  2.05it/s] 68%|██████▊   | 32847/48008 [4:43:12<1:57:54,  2.14it/s] 68%|██████▊   | 32848/48008 [4:43:13<1:54:07,  2.21it/s] 68%|██████▊   | 32849/48008 [4:43:13<1:56:25,  2.17it/s] 68%|██████▊   | 32850/48008 [4:43:14<1:58:08,  2.14it/s]                                                         {'loss': 4.2191, 'grad_norm': 0.09273593872785568, 'learning_rate': 6.31519746708882e-05, 'epoch': 0.68}
 68%|██████▊   | 32850/48008 [4:43:14<1:58:08,  2.14it/s] 68%|██████▊   | 32851/48008 [4:43:14<1:58:55,  2.12it/s] 68%|██████▊   | 32852/48008 [4:43:15<2:02:43,  2.06it/s] 68%|██████▊   | 32853/48008 [4:43:15<1:57:31,  2.15it/s] 68%|██████▊   | 32854/48008 [4:43:16<2:01:56,  2.07it/s] 68%|██████▊   | 32855/48008 [4:43:16<2:01:56,  2.07it/s] 68%|██████▊   | 32856/48008 [4:43:17<2:03:46,  2.04it/s] 68%|██████▊   | 32857/48008 [4:43:17<2:03:07,  2.05it/s] 68%|██████▊   | 32858/48008 [4:43:18<2:02:25,  2.06it/s] 68%|██████▊   | 32859/48008 [4:43:18<2:03:48,  2.04it/s] 68%|██████▊   | 32860/48008 [4:43:19<2:05:10,  2.02it/s] 68%|██████▊   | 32861/48008 [4:43:19<2:04:14,  2.03it/s] 68%|██████▊   | 32862/48008 [4:43:20<2:05:19,  2.01it/s] 68%|██████▊   | 32863/48008 [4:43:20<2:04:30,  2.03it/s] 68%|██████▊   | 32864/48008 [4:43:21<2:03:35,  2.04it/s] 68%|██████▊   | 32865/48008 [4:43:21<2:33:20,  1.65it/s] 68%|██████▊   | 32866/48008 [4:43:22<2:25:51,  1.73it/s] 68%|██████▊   | 32867/48008 [4:43:22<2:23:10,  1.76it/s] 68%|██████▊   | 32868/48008 [4:43:23<2:11:33,  1.92it/s] 68%|██████▊   | 32869/48008 [4:43:24<2:23:08,  1.76it/s] 68%|██████▊   | 32870/48008 [4:43:24<2:18:20,  1.82it/s] 68%|██████▊   | 32871/48008 [4:43:25<2:13:18,  1.89it/s] 68%|██████▊   | 32872/48008 [4:43:25<2:04:51,  2.02it/s] 68%|██████▊   | 32873/48008 [4:43:25<2:07:50,  1.97it/s] 68%|██████▊   | 32874/48008 [4:43:26<2:06:01,  2.00it/s] 68%|██████▊   | 32875/48008 [4:43:26<1:59:44,  2.11it/s] 68%|██████▊   | 32876/48008 [4:43:27<2:03:25,  2.04it/s] 68%|██████▊   | 32877/48008 [4:43:27<2:03:03,  2.05it/s] 68%|██████▊   | 32878/48008 [4:43:28<2:07:15,  1.98it/s] 68%|██████▊   | 32879/48008 [4:43:28<2:05:32,  2.01it/s] 68%|██████▊   | 32880/48008 [4:43:29<1:56:46,  2.16it/s] 68%|██████▊   | 32881/48008 [4:43:29<2:02:41,  2.05it/s] 68%|██████▊   | 32882/48008 [4:43:30<2:04:09,  2.03it/s] 68%|██████▊   | 32883/48008 [4:43:30<2:08:00,  1.97it/s] 68%|██████▊   | 32884/48008 [4:43:31<2:07:39,  1.97it/s] 68%|██████▊   | 32885/48008 [4:43:31<2:07:51,  1.97it/s] 69%|██████▊   | 32886/48008 [4:43:32<2:05:56,  2.00it/s] 69%|██████▊   | 32887/48008 [4:43:32<2:04:26,  2.03it/s] 69%|██████▊   | 32888/48008 [4:43:33<2:03:31,  2.04it/s] 69%|██████▊   | 32889/48008 [4:43:33<2:03:08,  2.05it/s] 69%|██████▊   | 32890/48008 [4:43:34<2:04:30,  2.02it/s] 69%|██████▊   | 32891/48008 [4:43:34<2:06:43,  1.99it/s] 69%|██████▊   | 32892/48008 [4:43:35<2:09:13,  1.95it/s] 69%|██████▊   | 32893/48008 [4:43:36<2:21:50,  1.78it/s] 69%|██████▊   | 32894/48008 [4:43:36<2:18:10,  1.82it/s] 69%|██████▊   | 32895/48008 [4:43:37<2:16:12,  1.85it/s] 69%|██████▊   | 32896/48008 [4:43:37<2:26:44,  1.72it/s] 69%|██████▊   | 32897/48008 [4:43:38<2:22:17,  1.77it/s] 69%|██████▊   | 32898/48008 [4:43:38<2:15:59,  1.85it/s] 69%|██████▊   | 32899/48008 [4:43:39<2:13:41,  1.88it/s] 69%|██████▊   | 32900/48008 [4:43:40<3:08:13,  1.34it/s]                                                         {'loss': 4.2687, 'grad_norm': 0.10425113886594772, 'learning_rate': 6.294367605399101e-05, 'epoch': 0.69}
 69%|██████▊   | 32900/48008 [4:43:40<3:08:13,  1.34it/s] 69%|██████▊   | 32901/48008 [4:43:41<2:51:18,  1.47it/s] 69%|██████▊   | 32902/48008 [4:43:41<2:37:44,  1.60it/s] 69%|██████▊   | 32903/48008 [4:43:42<2:26:47,  1.72it/s] 69%|██████▊   | 32904/48008 [4:43:42<2:18:54,  1.81it/s] 69%|██████▊   | 32905/48008 [4:43:43<2:13:45,  1.88it/s] 69%|██████▊   | 32906/48008 [4:43:43<2:09:38,  1.94it/s] 69%|██████▊   | 32907/48008 [4:43:43<2:07:00,  1.98it/s] 69%|██████▊   | 32908/48008 [4:43:44<2:09:55,  1.94it/s] 69%|██████▊   | 32909/48008 [4:43:44<2:02:21,  2.06it/s] 69%|██████▊   | 32910/48008 [4:43:45<2:05:07,  2.01it/s] 69%|██████▊   | 32911/48008 [4:43:45<2:03:55,  2.03it/s] 69%|██████▊   | 32912/48008 [4:43:46<1:58:18,  2.13it/s] 69%|██████▊   | 32913/48008 [4:43:46<1:58:53,  2.12it/s] 69%|██████▊   | 32914/48008 [4:43:47<1:54:35,  2.20it/s] 69%|██████▊   | 32915/48008 [4:43:47<1:58:25,  2.12it/s] 69%|██████▊   | 32916/48008 [4:43:49<3:12:33,  1.31it/s] 69%|██████▊   | 32917/48008 [4:43:49<2:51:03,  1.47it/s] 69%|██████▊   | 32918/48008 [4:43:50<2:36:17,  1.61it/s] 69%|██████▊   | 32919/48008 [4:43:50<2:25:47,  1.73it/s] 69%|██████▊   | 32920/48008 [4:43:51<2:20:13,  1.79it/s] 69%|██████▊   | 32921/48008 [4:43:51<2:09:32,  1.94it/s] 69%|██████▊   | 32922/48008 [4:43:53<3:21:14,  1.25it/s] 69%|██████▊   | 32923/48008 [4:43:53<3:12:04,  1.31it/s] 69%|██████▊   | 32924/48008 [4:43:54<2:52:43,  1.46it/s] 69%|██████▊   | 32925/48008 [4:43:54<2:37:30,  1.60it/s] 69%|██████▊   | 32926/48008 [4:43:55<2:28:24,  1.69it/s] 69%|██████▊   | 32927/48008 [4:43:55<2:15:15,  1.86it/s] 69%|██████▊   | 32928/48008 [4:43:56<2:51:43,  1.46it/s] 69%|██████▊   | 32929/48008 [4:43:57<2:36:28,  1.61it/s] 69%|██████▊   | 32930/48008 [4:43:57<2:40:19,  1.57it/s] 69%|██████▊   | 32931/48008 [4:43:58<2:30:04,  1.67it/s] 69%|██████▊   | 32932/48008 [4:43:58<2:21:03,  1.78it/s] 69%|██████▊   | 32933/48008 [4:43:59<2:15:08,  1.86it/s] 69%|██████▊   | 32934/48008 [4:44:00<2:57:03,  1.42it/s] 69%|██████▊   | 32935/48008 [4:44:00<2:35:28,  1.62it/s] 69%|██████▊   | 32936/48008 [4:44:01<2:25:08,  1.73it/s] 69%|██████▊   | 32937/48008 [4:44:01<2:21:03,  1.78it/s] 69%|██████▊   | 32938/48008 [4:44:02<2:16:40,  1.84it/s] 69%|██████▊   | 32939/48008 [4:44:02<2:12:08,  1.90it/s] 69%|██████▊   | 32940/48008 [4:44:03<2:11:53,  1.90it/s] 69%|██████▊   | 32941/48008 [4:44:03<2:08:34,  1.95it/s] 69%|██████▊   | 32942/48008 [4:44:04<2:06:24,  1.99it/s] 69%|██████▊   | 32943/48008 [4:44:05<2:34:37,  1.62it/s] 69%|██████▊   | 32944/48008 [4:44:05<2:26:27,  1.71it/s] 69%|██████▊   | 32945/48008 [4:44:06<2:18:32,  1.81it/s] 69%|██████▊   | 32946/48008 [4:44:06<2:15:03,  1.86it/s] 69%|██████▊   | 32947/48008 [4:44:07<2:13:02,  1.89it/s] 69%|██████▊   | 32948/48008 [4:44:07<2:13:57,  1.87it/s] 69%|██████▊   | 32949/48008 [4:44:08<2:10:27,  1.92it/s] 69%|██████▊   | 32950/48008 [4:44:08<2:02:54,  2.04it/s]                                                         {'loss': 4.2639, 'grad_norm': 0.09387688338756561, 'learning_rate': 6.273537743709383e-05, 'epoch': 0.69} 69%|██████▊   | 32950/48008 [4:44:08<2:02:54,  2.04it/s]
 69%|██████▊   | 32951/48008 [4:44:09<2:02:33,  2.05it/s] 69%|██████▊   | 32952/48008 [4:44:09<2:05:05,  2.01it/s] 69%|██████▊   | 32953/48008 [4:44:10<2:18:49,  1.81it/s] 69%|██████▊   | 32954/48008 [4:44:10<2:16:15,  1.84it/s] 69%|██████▊   | 32955/48008 [4:44:11<2:06:58,  1.98it/s] 69%|██████▊   | 32956/48008 [4:44:11<2:09:05,  1.94it/s] 69%|██████▊   | 32957/48008 [4:44:12<2:06:37,  1.98it/s] 69%|██████▊   | 32958/48008 [4:44:12<2:08:08,  1.96it/s] 69%|██████▊   | 32959/48008 [4:44:13<2:05:55,  1.99it/s] 69%|██████▊   | 32960/48008 [4:44:13<2:04:11,  2.02it/s] 69%|██████▊   | 32961/48008 [4:44:14<2:03:13,  2.04it/s] 69%|██████▊   | 32962/48008 [4:44:14<2:04:22,  2.02it/s] 69%|██████▊   | 32963/48008 [4:44:15<2:08:00,  1.96it/s] 69%|██████▊   | 32964/48008 [4:44:15<2:08:53,  1.95it/s] 69%|██████▊   | 32965/48008 [4:44:16<2:08:16,  1.95it/s] 69%|██████▊   | 32966/48008 [4:44:16<2:09:12,  1.94it/s] 69%|██████▊   | 32967/48008 [4:44:17<2:08:20,  1.95it/s] 69%|██████▊   | 32968/48008 [4:44:17<2:10:26,  1.92it/s] 69%|██████▊   | 32969/48008 [4:44:18<2:07:03,  1.97it/s] 69%|██████▊   | 32970/48008 [4:44:18<2:06:50,  1.98it/s] 69%|██████▊   | 32971/48008 [4:44:19<2:00:08,  2.09it/s] 69%|██████▊   | 32972/48008 [4:44:19<1:55:34,  2.17it/s] 69%|██████▊   | 32973/48008 [4:44:20<1:58:58,  2.11it/s] 69%|██████▊   | 32974/48008 [4:44:20<1:59:36,  2.09it/s] 69%|██████▊   | 32975/48008 [4:44:21<2:00:02,  2.09it/s] 69%|██████▊   | 32976/48008 [4:44:21<2:02:07,  2.05it/s] 69%|██████▊   | 32977/48008 [4:44:22<2:01:43,  2.06it/s] 69%|██████▊   | 32978/48008 [4:44:22<1:56:29,  2.15it/s] 69%|██████▊   | 32979/48008 [4:44:23<1:58:04,  2.12it/s] 69%|██████▊   | 32980/48008 [4:44:23<1:58:44,  2.11it/s] 69%|██████▊   | 32981/48008 [4:44:23<1:59:03,  2.10it/s] 69%|██████▊   | 32982/48008 [4:44:24<1:59:35,  2.09it/s] 69%|██████▊   | 32983/48008 [4:44:24<2:00:14,  2.08it/s] 69%|██████▊   | 32984/48008 [4:44:25<2:03:44,  2.02it/s] 69%|██████▊   | 32985/48008 [4:44:25<1:58:00,  2.12it/s] 69%|██████▊   | 32986/48008 [4:44:26<1:59:01,  2.10it/s] 69%|██████▊   | 32987/48008 [4:44:26<2:01:14,  2.06it/s] 69%|██████▊   | 32988/48008 [4:44:27<2:01:06,  2.07it/s] 69%|██████▊   | 32989/48008 [4:44:27<2:00:58,  2.07it/s] 69%|██████▊   | 32990/48008 [4:44:28<2:15:25,  1.85it/s] 69%|██████▊   | 32991/48008 [4:44:29<2:10:45,  1.91it/s] 69%|██████▊   | 32992/48008 [4:44:29<2:02:42,  2.04it/s] 69%|██████▊   | 32993/48008 [4:44:29<2:02:12,  2.05it/s] 69%|██████▊   | 32994/48008 [4:44:30<2:04:42,  2.01it/s] 69%|██████▊   | 32995/48008 [4:44:30<1:58:33,  2.11it/s] 69%|██████▊   | 32996/48008 [4:44:31<1:54:15,  2.19it/s] 69%|██████▊   | 32997/48008 [4:44:31<1:51:26,  2.25it/s] 69%|██████▊   | 32998/48008 [4:44:32<1:48:54,  2.30it/s] 69%|██████▊   | 32999/48008 [4:44:32<1:52:14,  2.23it/s] 69%|██████▊   | 33000/48008 [4:44:33<1:54:38,  2.18it/s]                                                         {'loss': 4.2239, 'grad_norm': 0.09644252806901932, 'learning_rate': 6.252707882019663e-05, 'epoch': 0.69}
 69%|██████▊   | 33000/48008 [4:44:33<1:54:38,  2.18it/s] 69%|██████▊   | 33001/48008 [4:44:33<1:58:20,  2.11it/s] 69%|██████▊   | 33002/48008 [4:44:34<1:58:49,  2.10it/s] 69%|██████▊   | 33003/48008 [4:44:34<2:02:11,  2.05it/s] 69%|██████▊   | 33004/48008 [4:44:34<1:57:09,  2.13it/s] 69%|██████▊   | 33005/48008 [4:44:35<1:53:35,  2.20it/s] 69%|██████▉   | 33006/48008 [4:44:35<1:55:57,  2.16it/s] 69%|██████▉   | 33007/48008 [4:44:36<1:57:20,  2.13it/s] 69%|██████▉   | 33008/48008 [4:44:36<1:58:04,  2.12it/s] 69%|██████▉   | 33009/48008 [4:44:37<1:53:54,  2.19it/s] 69%|██████▉   | 33010/48008 [4:44:37<1:55:59,  2.16it/s] 69%|██████▉   | 33011/48008 [4:44:39<2:55:36,  1.42it/s] 69%|██████▉   | 33012/48008 [4:44:39<2:40:21,  1.56it/s] 69%|██████▉   | 33013/48008 [4:44:40<2:43:11,  1.53it/s] 69%|██████▉   | 33014/48008 [4:44:40<2:32:25,  1.64it/s] 69%|██████▉   | 33015/48008 [4:44:41<2:24:30,  1.73it/s] 69%|██████▉   | 33016/48008 [4:44:41<2:17:18,  1.82it/s] 69%|██████▉   | 33017/48008 [4:44:42<2:14:01,  1.86it/s] 69%|██████▉   | 33018/48008 [4:44:42<2:09:57,  1.92it/s] 69%|██████▉   | 33019/48008 [4:44:43<2:08:35,  1.94it/s] 69%|██████▉   | 33020/48008 [4:44:43<2:01:19,  2.06it/s] 69%|██████▉   | 33021/48008 [4:44:44<2:03:59,  2.01it/s] 69%|██████▉   | 33022/48008 [4:44:44<2:05:31,  1.99it/s] 69%|██████▉   | 33023/48008 [4:44:45<2:04:17,  2.01it/s] 69%|██████▉   | 33024/48008 [4:44:45<2:04:57,  2.00it/s] 69%|██████▉   | 33025/48008 [4:44:46<2:04:46,  2.00it/s] 69%|██████▉   | 33026/48008 [4:44:46<2:03:33,  2.02it/s] 69%|██████▉   | 33027/48008 [4:44:47<2:03:52,  2.02it/s] 69%|██████▉   | 33028/48008 [4:44:47<1:58:03,  2.11it/s] 69%|██████▉   | 33029/48008 [4:44:48<2:00:24,  2.07it/s] 69%|██████▉   | 33030/48008 [4:44:48<2:02:09,  2.04it/s] 69%|██████▉   | 33031/48008 [4:44:49<2:03:23,  2.02it/s] 69%|██████▉   | 33032/48008 [4:44:49<2:05:38,  1.99it/s] 69%|██████▉   | 33033/48008 [4:44:50<2:03:58,  2.01it/s] 69%|██████▉   | 33034/48008 [4:44:50<2:04:50,  2.00it/s] 69%|██████▉   | 33035/48008 [4:44:51<2:03:20,  2.02it/s] 69%|██████▉   | 33036/48008 [4:44:51<2:05:14,  1.99it/s] 69%|██████▉   | 33037/48008 [4:44:52<2:06:38,  1.97it/s] 69%|██████▉   | 33038/48008 [4:44:52<2:04:54,  2.00it/s] 69%|██████▉   | 33039/48008 [4:44:53<2:03:36,  2.02it/s] 69%|██████▉   | 33040/48008 [4:44:53<2:02:50,  2.03it/s] 69%|██████▉   | 33041/48008 [4:44:54<2:04:33,  2.00it/s] 69%|██████▉   | 33042/48008 [4:44:54<2:05:02,  1.99it/s] 69%|██████▉   | 33043/48008 [4:44:55<2:05:24,  1.99it/s] 69%|██████▉   | 33044/48008 [4:44:55<2:08:23,  1.94it/s] 69%|██████▉   | 33045/48008 [4:44:56<2:00:59,  2.06it/s] 69%|██████▉   | 33046/48008 [4:44:56<2:02:15,  2.04it/s] 69%|██████▉   | 33047/48008 [4:44:57<2:04:43,  2.00it/s] 69%|██████▉   | 33048/48008 [4:44:57<1:58:19,  2.11it/s] 69%|██████▉   | 33049/48008 [4:44:57<2:00:06,  2.08it/s] 69%|██████▉   | 33050/48008 [4:44:58<1:55:04,  2.17it/s]                                                         {'loss': 4.2619, 'grad_norm': 0.10301640629768372, 'learning_rate': 6.231878020329945e-05, 'epoch': 0.69} 69%|██████▉   | 33050/48008 [4:44:58<1:55:04,  2.17it/s]
 69%|██████▉   | 33051/48008 [4:44:58<1:56:45,  2.13it/s] 69%|██████▉   | 33052/48008 [4:44:59<2:00:39,  2.07it/s] 69%|██████▉   | 33053/48008 [4:44:59<2:00:29,  2.07it/s] 69%|██████▉   | 33054/48008 [4:45:00<2:00:30,  2.07it/s] 69%|██████▉   | 33055/48008 [4:45:00<2:03:20,  2.02it/s] 69%|██████▉   | 33056/48008 [4:45:01<1:57:28,  2.12it/s] 69%|██████▉   | 33057/48008 [4:45:01<1:58:27,  2.10it/s] 69%|██████▉   | 33058/48008 [4:45:02<1:58:55,  2.10it/s] 69%|██████▉   | 33059/48008 [4:45:02<1:59:16,  2.09it/s] 69%|██████▉   | 33060/48008 [4:45:03<1:59:16,  2.09it/s] 69%|██████▉   | 33061/48008 [4:45:03<1:59:17,  2.09it/s] 69%|██████▉   | 33062/48008 [4:45:04<1:59:43,  2.08it/s] 69%|██████▉   | 33063/48008 [4:45:04<2:02:38,  2.03it/s] 69%|██████▉   | 33064/48008 [4:45:05<2:02:03,  2.04it/s] 69%|██████▉   | 33065/48008 [4:45:05<2:02:44,  2.03it/s] 69%|██████▉   | 33066/48008 [4:45:06<2:01:50,  2.04it/s] 69%|██████▉   | 33067/48008 [4:45:06<2:03:46,  2.01it/s] 69%|██████▉   | 33068/48008 [4:45:07<2:02:38,  2.03it/s] 69%|██████▉   | 33069/48008 [4:45:07<2:01:50,  2.04it/s] 69%|██████▉   | 33070/48008 [4:45:08<2:02:51,  2.03it/s] 69%|██████▉   | 33071/48008 [4:45:08<1:56:43,  2.13it/s] 69%|██████▉   | 33072/48008 [4:45:09<1:57:29,  2.12it/s] 69%|██████▉   | 33073/48008 [4:45:09<2:27:43,  1.69it/s] 69%|██████▉   | 33074/48008 [4:45:10<2:21:21,  1.76it/s] 69%|██████▉   | 33075/48008 [4:45:10<2:14:55,  1.84it/s] 69%|██████▉   | 33076/48008 [4:45:11<2:10:12,  1.91it/s] 69%|██████▉   | 33077/48008 [4:45:11<2:08:37,  1.93it/s] 69%|██████▉   | 33078/48008 [4:45:12<2:10:20,  1.91it/s] 69%|██████▉   | 33079/48008 [4:45:12<2:09:14,  1.93it/s] 69%|██████▉   | 33080/48008 [4:45:13<2:01:28,  2.05it/s] 69%|██████▉   | 33081/48008 [4:45:13<2:00:28,  2.07it/s] 69%|██████▉   | 33082/48008 [4:45:14<2:14:37,  1.85it/s] 69%|██████▉   | 33083/48008 [4:45:14<2:09:41,  1.92it/s] 69%|██████▉   | 33084/48008 [4:45:15<2:01:58,  2.04it/s] 69%|██████▉   | 33085/48008 [4:45:15<2:04:05,  2.00it/s] 69%|██████▉   | 33086/48008 [4:45:16<2:02:28,  2.03it/s] 69%|██████▉   | 33087/48008 [4:45:16<1:56:49,  2.13it/s] 69%|██████▉   | 33088/48008 [4:45:17<2:11:43,  1.89it/s] 69%|██████▉   | 33089/48008 [4:45:17<2:09:38,  1.92it/s] 69%|██████▉   | 33090/48008 [4:45:18<2:11:00,  1.90it/s] 69%|██████▉   | 33091/48008 [4:45:19<2:07:38,  1.95it/s] 69%|██████▉   | 33092/48008 [4:45:19<2:06:49,  1.96it/s] 69%|██████▉   | 33093/48008 [4:45:19<2:04:55,  1.99it/s] 69%|██████▉   | 33094/48008 [4:45:20<2:06:06,  1.97it/s] 69%|██████▉   | 33095/48008 [4:45:20<1:56:48,  2.13it/s] 69%|██████▉   | 33096/48008 [4:45:21<2:02:04,  2.04it/s] 69%|██████▉   | 33097/48008 [4:45:21<2:01:19,  2.05it/s] 69%|██████▉   | 33098/48008 [4:45:23<2:58:15,  1.39it/s] 69%|██████▉   | 33099/48008 [4:45:23<2:40:48,  1.55it/s] 69%|██████▉   | 33100/48008 [4:45:24<2:23:43,  1.73it/s]                                                         {'loss': 4.2484, 'grad_norm': 0.0959448292851448, 'learning_rate': 6.211048158640227e-05, 'epoch': 0.69} 69%|██████▉   | 33100/48008 [4:45:24<2:23:43,  1.73it/s]
 69%|██████▉   | 33101/48008 [4:45:24<2:18:34,  1.79it/s] 69%|██████▉   | 33102/48008 [4:45:25<2:14:41,  1.84it/s] 69%|██████▉   | 33103/48008 [4:45:25<2:12:02,  1.88it/s] 69%|██████▉   | 33104/48008 [4:45:26<2:08:07,  1.94it/s] 69%|██████▉   | 33105/48008 [4:45:26<2:10:09,  1.91it/s] 69%|██████▉   | 33106/48008 [4:45:27<2:07:16,  1.95it/s] 69%|██████▉   | 33107/48008 [4:45:27<2:06:37,  1.96it/s] 69%|██████▉   | 33108/48008 [4:45:28<2:04:28,  1.99it/s] 69%|██████▉   | 33109/48008 [4:45:29<3:00:46,  1.37it/s] 69%|██████▉   | 33110/48008 [4:45:29<2:37:32,  1.58it/s] 69%|██████▉   | 33111/48008 [4:45:30<2:27:45,  1.68it/s] 69%|██████▉   | 33112/48008 [4:45:30<2:14:21,  1.85it/s] 69%|██████▉   | 33113/48008 [4:45:31<2:09:41,  1.91it/s] 69%|██████▉   | 33114/48008 [4:45:31<2:06:40,  1.96it/s] 69%|██████▉   | 33115/48008 [4:45:32<2:06:11,  1.97it/s] 69%|██████▉   | 33116/48008 [4:45:32<2:07:10,  1.95it/s] 69%|██████▉   | 33117/48008 [4:45:33<2:06:43,  1.96it/s] 69%|██████▉   | 33118/48008 [4:45:33<2:04:40,  1.99it/s] 69%|██████▉   | 33119/48008 [4:45:34<2:02:59,  2.02it/s] 69%|██████▉   | 33120/48008 [4:45:34<1:57:17,  2.12it/s] 69%|██████▉   | 33121/48008 [4:45:34<1:53:07,  2.19it/s] 69%|██████▉   | 33122/48008 [4:45:35<1:57:54,  2.10it/s] 69%|██████▉   | 33123/48008 [4:45:36<2:01:16,  2.05it/s] 69%|██████▉   | 33124/48008 [4:45:36<2:03:31,  2.01it/s] 69%|██████▉   | 33125/48008 [4:45:37<2:02:27,  2.03it/s] 69%|██████▉   | 33126/48008 [4:45:37<2:30:42,  1.65it/s] 69%|██████▉   | 33127/48008 [4:45:38<2:16:33,  1.82it/s] 69%|██████▉   | 33128/48008 [4:45:38<2:11:24,  1.89it/s] 69%|██████▉   | 33129/48008 [4:45:39<2:09:34,  1.91it/s] 69%|██████▉   | 33130/48008 [4:45:39<2:20:37,  1.76it/s] 69%|██████▉   | 33131/48008 [4:45:40<2:14:35,  1.84it/s] 69%|██████▉   | 33132/48008 [4:45:40<2:05:08,  1.98it/s] 69%|██████▉   | 33133/48008 [4:45:41<1:58:27,  2.09it/s] 69%|██████▉   | 33134/48008 [4:45:41<2:01:53,  2.03it/s] 69%|██████▉   | 33135/48008 [4:45:42<2:31:01,  1.64it/s] 69%|██████▉   | 33136/48008 [4:45:43<2:16:35,  1.81it/s] 69%|██████▉   | 33137/48008 [4:45:43<2:11:29,  1.88it/s] 69%|██████▉   | 33138/48008 [4:45:44<2:07:56,  1.94it/s] 69%|██████▉   | 33139/48008 [4:45:44<2:35:01,  1.60it/s] 69%|██████▉   | 33140/48008 [4:45:45<2:26:01,  1.70it/s] 69%|██████▉   | 33141/48008 [4:45:45<2:19:37,  1.77it/s] 69%|██████▉   | 33142/48008 [4:45:46<2:13:34,  1.85it/s] 69%|██████▉   | 33143/48008 [4:45:46<2:09:18,  1.92it/s] 69%|██████▉   | 33144/48008 [4:45:47<2:07:55,  1.94it/s] 69%|██████▉   | 33145/48008 [4:45:47<2:05:13,  1.98it/s] 69%|██████▉   | 33146/48008 [4:45:48<2:08:00,  1.94it/s] 69%|██████▉   | 33147/48008 [4:45:48<2:06:53,  1.95it/s] 69%|██████▉   | 33148/48008 [4:45:49<2:04:40,  1.99it/s] 69%|██████▉   | 33149/48008 [4:45:49<2:02:56,  2.01it/s] 69%|██████▉   | 33150/48008 [4:45:50<2:03:26,  2.01it/s]                                                         {'loss': 4.275, 'grad_norm': 0.09154179692268372, 'learning_rate': 6.190218296950508e-05, 'epoch': 0.69}
 69%|██████▉   | 33150/48008 [4:45:50<2:03:26,  2.01it/s] 69%|██████▉   | 33151/48008 [4:45:50<2:02:30,  2.02it/s] 69%|██████▉   | 33152/48008 [4:45:51<2:01:40,  2.03it/s] 69%|██████▉   | 33153/48008 [4:45:51<1:55:58,  2.13it/s] 69%|██████▉   | 33154/48008 [4:45:52<1:52:09,  2.21it/s] 69%|██████▉   | 33155/48008 [4:45:52<1:49:22,  2.26it/s] 69%|██████▉   | 33156/48008 [4:45:53<1:47:26,  2.30it/s] 69%|██████▉   | 33157/48008 [4:45:53<1:50:48,  2.23it/s] 69%|██████▉   | 33158/48008 [4:45:53<1:52:52,  2.19it/s] 69%|██████▉   | 33159/48008 [4:45:54<1:57:35,  2.10it/s] 69%|██████▉   | 33160/48008 [4:45:55<2:00:49,  2.05it/s] 69%|██████▉   | 33161/48008 [4:45:55<2:00:24,  2.06it/s] 69%|██████▉   | 33162/48008 [4:45:56<2:01:49,  2.03it/s] 69%|██████▉   | 33163/48008 [4:45:56<2:01:15,  2.04it/s] 69%|██████▉   | 33164/48008 [4:45:56<2:00:40,  2.05it/s] 69%|██████▉   | 33165/48008 [4:45:57<2:00:09,  2.06it/s] 69%|██████▉   | 33166/48008 [4:45:57<1:59:51,  2.06it/s] 69%|██████▉   | 33167/48008 [4:45:58<2:02:09,  2.02it/s] 69%|██████▉   | 33168/48008 [4:45:58<2:04:05,  1.99it/s] 69%|██████▉   | 33169/48008 [4:45:59<2:02:22,  2.02it/s] 69%|██████▉   | 33170/48008 [4:45:59<2:01:36,  2.03it/s] 69%|██████▉   | 33171/48008 [4:46:00<2:00:28,  2.05it/s] 69%|██████▉   | 33172/48008 [4:46:00<2:00:00,  2.06it/s] 69%|██████▉   | 33173/48008 [4:46:01<2:02:46,  2.01it/s] 69%|██████▉   | 33174/48008 [4:46:01<2:01:42,  2.03it/s] 69%|██████▉   | 33175/48008 [4:46:02<2:00:40,  2.05it/s] 69%|██████▉   | 33176/48008 [4:46:02<2:01:49,  2.03it/s] 69%|██████▉   | 33177/48008 [4:46:03<2:00:58,  2.04it/s] 69%|██████▉   | 33178/48008 [4:46:03<2:01:57,  2.03it/s] 69%|██████▉   | 33179/48008 [4:46:04<2:01:01,  2.04it/s] 69%|██████▉   | 33180/48008 [4:46:04<2:02:07,  2.02it/s] 69%|██████▉   | 33181/48008 [4:46:05<1:56:20,  2.12it/s] 69%|██████▉   | 33182/48008 [4:46:05<1:52:07,  2.20it/s] 69%|██████▉   | 33183/48008 [4:46:06<1:58:12,  2.09it/s] 69%|██████▉   | 33184/48008 [4:46:06<1:58:13,  2.09it/s] 69%|██████▉   | 33185/48008 [4:46:07<2:00:28,  2.05it/s] 69%|██████▉   | 33186/48008 [4:46:07<2:01:50,  2.03it/s] 69%|██████▉   | 33187/48008 [4:46:08<2:03:54,  1.99it/s] 69%|██████▉   | 33188/48008 [4:46:08<2:05:16,  1.97it/s] 69%|██████▉   | 33189/48008 [4:46:09<2:05:25,  1.97it/s] 69%|██████▉   | 33190/48008 [4:46:10<2:32:38,  1.62it/s] 69%|██████▉   | 33191/48008 [4:46:10<2:24:31,  1.71it/s] 69%|██████▉   | 33192/48008 [4:46:11<2:16:44,  1.81it/s] 69%|██████▉   | 33193/48008 [4:46:11<2:11:11,  1.88it/s] 69%|██████▉   | 33194/48008 [4:46:12<2:09:26,  1.91it/s] 69%|██████▉   | 33195/48008 [4:46:12<2:06:02,  1.96it/s] 69%|██████▉   | 33196/48008 [4:46:13<2:03:57,  1.99it/s] 69%|██████▉   | 33197/48008 [4:46:13<2:02:29,  2.02it/s] 69%|██████▉   | 33198/48008 [4:46:14<2:01:39,  2.03it/s] 69%|██████▉   | 33199/48008 [4:46:14<2:00:45,  2.04it/s] 69%|██████▉   | 33200/48008 [4:46:14<1:55:27,  2.14it/s]                                                         {'loss': 4.2129, 'grad_norm': 0.09852652251720428, 'learning_rate': 6.16938843526079e-05, 'epoch': 0.69}
 69%|██████▉   | 33200/48008 [4:46:14<1:55:27,  2.14it/s] 69%|██████▉   | 33201/48008 [4:46:15<1:58:42,  2.08it/s] 69%|██████▉   | 33202/48008 [4:46:15<1:54:00,  2.16it/s] 69%|██████▉   | 33203/48008 [4:46:16<1:57:15,  2.10it/s] 69%|██████▉   | 33204/48008 [4:46:16<2:00:48,  2.04it/s] 69%|██████▉   | 33205/48008 [4:46:17<2:00:16,  2.05it/s] 69%|██████▉   | 33206/48008 [4:46:17<1:59:39,  2.06it/s] 69%|██████▉   | 33207/48008 [4:46:18<2:03:29,  2.00it/s] 69%|██████▉   | 33208/48008 [4:46:18<2:02:29,  2.01it/s] 69%|██████▉   | 33209/48008 [4:46:19<2:06:01,  1.96it/s] 69%|██████▉   | 33210/48008 [4:46:20<2:18:07,  1.79it/s] 69%|██████▉   | 33211/48008 [4:46:20<2:07:23,  1.94it/s] 69%|██████▉   | 33212/48008 [4:46:20<2:00:07,  2.05it/s] 69%|██████▉   | 33213/48008 [4:46:21<1:55:00,  2.14it/s] 69%|██████▉   | 33214/48008 [4:46:21<1:58:11,  2.09it/s] 69%|██████▉   | 33215/48008 [4:46:22<1:58:12,  2.09it/s] 69%|██████▉   | 33216/48008 [4:46:22<1:58:29,  2.08it/s] 69%|██████▉   | 33217/48008 [4:46:23<1:58:50,  2.07it/s] 69%|██████▉   | 33218/48008 [4:46:23<1:58:47,  2.08it/s] 69%|██████▉   | 33219/48008 [4:46:24<2:00:34,  2.04it/s] 69%|██████▉   | 33220/48008 [4:46:24<2:02:44,  2.01it/s] 69%|██████▉   | 33221/48008 [4:46:25<2:05:59,  1.96it/s] 69%|██████▉   | 33222/48008 [4:46:25<2:03:35,  1.99it/s] 69%|██████▉   | 33223/48008 [4:46:26<2:31:53,  1.62it/s] 69%|██████▉   | 33224/48008 [4:46:27<2:22:07,  1.73it/s] 69%|██████▉   | 33225/48008 [4:46:27<2:29:03,  1.65it/s] 69%|██████▉   | 33226/48008 [4:46:28<2:15:13,  1.82it/s] 69%|██████▉   | 33227/48008 [4:46:28<2:10:28,  1.89it/s] 69%|██████▉   | 33228/48008 [4:46:29<2:11:32,  1.87it/s] 69%|██████▉   | 33229/48008 [4:46:29<2:07:56,  1.93it/s] 69%|██████▉   | 33230/48008 [4:46:30<2:07:51,  1.93it/s] 69%|██████▉   | 33231/48008 [4:46:30<2:06:25,  1.95it/s] 69%|██████▉   | 33232/48008 [4:46:31<2:05:39,  1.96it/s] 69%|██████▉   | 33233/48008 [4:46:31<2:03:29,  1.99it/s] 69%|██████▉   | 33234/48008 [4:46:32<2:05:05,  1.97it/s] 69%|██████▉   | 33235/48008 [4:46:32<2:05:57,  1.95it/s] 69%|██████▉   | 33236/48008 [4:46:33<2:04:02,  1.98it/s] 69%|██████▉   | 33237/48008 [4:46:33<2:01:58,  2.02it/s] 69%|██████▉   | 33238/48008 [4:46:34<2:01:02,  2.03it/s] 69%|██████▉   | 33239/48008 [4:46:34<2:00:25,  2.04it/s] 69%|██████▉   | 33240/48008 [4:46:35<1:55:15,  2.14it/s] 69%|██████▉   | 33241/48008 [4:46:35<1:59:40,  2.06it/s] 69%|██████▉   | 33242/48008 [4:46:36<1:59:25,  2.06it/s] 69%|██████▉   | 33243/48008 [4:46:36<2:00:45,  2.04it/s] 69%|██████▉   | 33244/48008 [4:46:37<1:55:22,  2.13it/s] 69%|██████▉   | 33245/48008 [4:46:37<2:00:43,  2.04it/s] 69%|██████▉   | 33246/48008 [4:46:38<2:02:14,  2.01it/s] 69%|██████▉   | 33247/48008 [4:46:38<1:56:24,  2.11it/s] 69%|██████▉   | 33248/48008 [4:46:39<1:57:09,  2.10it/s] 69%|██████▉   | 33249/48008 [4:46:39<1:57:22,  2.10it/s] 69%|██████▉   | 33250/48008 [4:46:40<1:58:01,  2.08it/s]                                                         {'loss': 4.2694, 'grad_norm': 0.09559914469718933, 'learning_rate': 6.148558573571072e-05, 'epoch': 0.69}
 69%|██████▉   | 33250/48008 [4:46:40<1:58:01,  2.08it/s] 69%|██████▉   | 33251/48008 [4:46:40<1:58:39,  2.07it/s] 69%|██████▉   | 33252/48008 [4:46:41<1:58:51,  2.07it/s] 69%|██████▉   | 33253/48008 [4:46:41<1:58:43,  2.07it/s] 69%|██████▉   | 33254/48008 [4:46:41<1:53:54,  2.16it/s] 69%|██████▉   | 33255/48008 [4:46:42<1:56:44,  2.11it/s] 69%|██████▉   | 33256/48008 [4:46:42<1:57:36,  2.09it/s] 69%|██████▉   | 33257/48008 [4:46:43<1:59:34,  2.06it/s] 69%|██████▉   | 33258/48008 [4:46:43<2:00:42,  2.04it/s] 69%|██████▉   | 33259/48008 [4:46:44<2:00:03,  2.05it/s] 69%|██████▉   | 33260/48008 [4:46:44<1:59:34,  2.06it/s] 69%|██████▉   | 33261/48008 [4:46:45<1:54:16,  2.15it/s] 69%|██████▉   | 33262/48008 [4:46:45<1:55:35,  2.13it/s] 69%|██████▉   | 33263/48008 [4:46:46<1:56:30,  2.11it/s] 69%|██████▉   | 33264/48008 [4:46:47<2:54:05,  1.41it/s] 69%|██████▉   | 33265/48008 [4:46:48<2:39:08,  1.54it/s] 69%|██████▉   | 33266/48008 [4:46:48<2:28:37,  1.65it/s] 69%|██████▉   | 33267/48008 [4:46:49<2:19:30,  1.76it/s] 69%|██████▉   | 33268/48008 [4:46:49<2:05:38,  1.96it/s] 69%|██████▉   | 33269/48008 [4:46:49<2:05:08,  1.96it/s] 69%|██████▉   | 33270/48008 [4:46:50<2:03:13,  1.99it/s] 69%|██████▉   | 33271/48008 [4:46:50<1:57:05,  2.10it/s] 69%|██████▉   | 33272/48008 [4:46:51<1:57:11,  2.10it/s] 69%|██████▉   | 33273/48008 [4:46:52<2:38:53,  1.55it/s] 69%|██████▉   | 33274/48008 [4:46:52<2:26:39,  1.67it/s] 69%|██████▉   | 33275/48008 [4:46:53<2:19:58,  1.75it/s] 69%|██████▉   | 33276/48008 [4:46:54<2:42:28,  1.51it/s] 69%|██████▉   | 33277/48008 [4:46:54<2:24:23,  1.70it/s] 69%|██████▉   | 33278/48008 [4:46:55<2:16:40,  1.80it/s] 69%|██████▉   | 33279/48008 [4:46:55<2:06:10,  1.95it/s] 69%|██████▉   | 33280/48008 [4:46:56<2:04:01,  1.98it/s] 69%|██████▉   | 33281/48008 [4:46:56<2:05:13,  1.96it/s] 69%|██████▉   | 33282/48008 [4:46:57<2:03:20,  1.99it/s] 69%|██████▉   | 33283/48008 [4:46:57<2:01:43,  2.02it/s] 69%|██████▉   | 33284/48008 [4:46:58<2:05:14,  1.96it/s] 69%|██████▉   | 33285/48008 [4:46:58<2:03:08,  1.99it/s] 69%|██████▉   | 33286/48008 [4:46:58<2:01:29,  2.02it/s] 69%|██████▉   | 33287/48008 [4:47:00<2:57:11,  1.38it/s] 69%|██████▉   | 33288/48008 [4:47:00<2:40:44,  1.53it/s] 69%|██████▉   | 33289/48008 [4:47:01<2:29:12,  1.64it/s] 69%|██████▉   | 33290/48008 [4:47:01<2:21:44,  1.73it/s] 69%|██████▉   | 33291/48008 [4:47:02<2:17:17,  1.79it/s] 69%|██████▉   | 33292/48008 [4:47:02<2:11:15,  1.87it/s] 69%|██████▉   | 33293/48008 [4:47:03<2:08:37,  1.91it/s] 69%|██████▉   | 33294/48008 [4:47:03<2:08:06,  1.91it/s] 69%|██████▉   | 33295/48008 [4:47:04<1:57:39,  2.08it/s] 69%|██████▉   | 33296/48008 [4:47:04<1:58:02,  2.08it/s] 69%|██████▉   | 33297/48008 [4:47:05<1:59:41,  2.05it/s] 69%|██████▉   | 33298/48008 [4:47:05<1:54:30,  2.14it/s] 69%|██████▉   | 33299/48008 [4:47:06<1:55:34,  2.12it/s] 69%|██████▉   | 33300/48008 [4:47:06<1:56:02,  2.11it/s]                                                         {'loss': 4.2337, 'grad_norm': 0.09417012333869934, 'learning_rate': 6.127728711881354e-05, 'epoch': 0.69}
 69%|██████▉   | 33300/48008 [4:47:06<1:56:02,  2.11it/s] 69%|██████▉   | 33301/48008 [4:47:06<1:51:52,  2.19it/s] 69%|██████▉   | 33302/48008 [4:47:07<1:53:37,  2.16it/s] 69%|██████▉   | 33303/48008 [4:47:07<1:59:33,  2.05it/s] 69%|██████▉   | 33304/48008 [4:47:08<1:54:20,  2.14it/s] 69%|██████▉   | 33305/48008 [4:47:08<1:58:38,  2.07it/s] 69%|██████▉   | 33306/48008 [4:47:09<1:58:41,  2.06it/s] 69%|██████▉   | 33307/48008 [4:47:09<2:00:08,  2.04it/s] 69%|██████▉   | 33308/48008 [4:47:10<2:03:59,  1.98it/s] 69%|██████▉   | 33309/48008 [4:47:10<1:57:21,  2.09it/s] 69%|██████▉   | 33310/48008 [4:47:11<1:52:52,  2.17it/s] 69%|██████▉   | 33311/48008 [4:47:11<1:54:30,  2.14it/s] 69%|██████▉   | 33312/48008 [4:47:12<1:57:15,  2.09it/s] 69%|██████▉   | 33313/48008 [4:47:12<1:57:24,  2.09it/s] 69%|██████▉   | 33314/48008 [4:47:13<2:00:24,  2.03it/s] 69%|██████▉   | 33315/48008 [4:47:13<2:02:26,  2.00it/s] 69%|██████▉   | 33316/48008 [4:47:14<1:56:01,  2.11it/s] 69%|██████▉   | 33317/48008 [4:47:14<1:56:23,  2.10it/s] 69%|██████▉   | 33318/48008 [4:47:15<1:58:32,  2.07it/s] 69%|██████▉   | 33319/48008 [4:47:15<2:01:18,  2.02it/s] 69%|██████▉   | 33320/48008 [4:47:16<1:59:55,  2.04it/s] 69%|██████▉   | 33321/48008 [4:47:16<1:59:19,  2.05it/s] 69%|██████▉   | 33322/48008 [4:47:17<2:01:38,  2.01it/s] 69%|██████▉   | 33323/48008 [4:47:17<2:02:21,  2.00it/s] 69%|██████▉   | 33324/48008 [4:47:18<2:01:13,  2.02it/s] 69%|██████▉   | 33325/48008 [4:47:18<1:55:13,  2.12it/s] 69%|██████▉   | 33326/48008 [4:47:19<1:57:35,  2.08it/s] 69%|██████▉   | 33327/48008 [4:47:19<1:57:54,  2.08it/s] 69%|██████▉   | 33328/48008 [4:47:20<1:59:30,  2.05it/s] 69%|██████▉   | 33329/48008 [4:47:20<2:01:35,  2.01it/s] 69%|██████▉   | 33330/48008 [4:47:21<1:55:42,  2.11it/s] 69%|██████▉   | 33331/48008 [4:47:21<1:57:57,  2.07it/s] 69%|██████▉   | 33332/48008 [4:47:22<2:00:44,  2.03it/s] 69%|██████▉   | 33333/48008 [4:47:22<2:01:46,  2.01it/s] 69%|██████▉   | 33334/48008 [4:47:23<2:00:31,  2.03it/s] 69%|██████▉   | 33335/48008 [4:47:23<2:13:55,  1.83it/s] 69%|██████▉   | 33336/48008 [4:47:24<2:23:01,  1.71it/s] 69%|██████▉   | 33337/48008 [4:47:24<2:15:18,  1.81it/s] 69%|██████▉   | 33338/48008 [4:47:25<2:11:49,  1.85it/s] 69%|██████▉   | 33339/48008 [4:47:25<2:09:24,  1.89it/s] 69%|██████▉   | 33340/48008 [4:47:26<2:10:28,  1.87it/s] 69%|██████▉   | 33341/48008 [4:47:26<2:08:42,  1.90it/s] 69%|██████▉   | 33342/48008 [4:47:27<2:00:45,  2.02it/s] 69%|██████▉   | 33343/48008 [4:47:27<2:01:10,  2.02it/s] 69%|██████▉   | 33344/48008 [4:47:28<2:00:17,  2.03it/s] 69%|██████▉   | 33345/48008 [4:47:29<2:56:03,  1.39it/s] 69%|██████▉   | 33346/48008 [4:47:29<2:33:47,  1.59it/s] 69%|██████▉   | 33347/48008 [4:47:30<2:22:59,  1.71it/s] 69%|██████▉   | 33348/48008 [4:47:30<2:17:10,  1.78it/s] 69%|██████▉   | 33349/48008 [4:47:31<2:06:40,  1.93it/s] 69%|██████▉   | 33350/48008 [4:47:31<2:03:49,  1.97it/s]                                                         {'loss': 4.2525, 'grad_norm': 0.09613911062479019, 'learning_rate': 6.106898850191634e-05, 'epoch': 0.69}
 69%|██████▉   | 33350/48008 [4:47:31<2:03:49,  1.97it/s] 69%|██████▉   | 33351/48008 [4:47:32<2:05:05,  1.95it/s] 69%|██████▉   | 33352/48008 [4:47:32<2:03:01,  1.99it/s] 69%|██████▉   | 33353/48008 [4:47:33<2:01:34,  2.01it/s] 69%|██████▉   | 33354/48008 [4:47:33<1:55:11,  2.12it/s] 69%|██████▉   | 33355/48008 [4:47:34<2:24:40,  1.69it/s] 69%|██████▉   | 33356/48008 [4:47:35<2:19:33,  1.75it/s] 69%|██████▉   | 33357/48008 [4:47:35<2:13:17,  1.83it/s] 69%|██████▉   | 33358/48008 [4:47:36<2:12:54,  1.84it/s] 69%|██████▉   | 33359/48008 [4:47:36<2:08:38,  1.90it/s] 69%|██████▉   | 33360/48008 [4:47:37<2:05:26,  1.95it/s] 69%|██████▉   | 33361/48008 [4:47:37<2:07:13,  1.92it/s] 69%|██████▉   | 33362/48008 [4:47:38<1:59:25,  2.04it/s] 69%|██████▉   | 33363/48008 [4:47:38<2:01:51,  2.00it/s] 69%|██████▉   | 33364/48008 [4:47:39<2:02:13,  2.00it/s] 69%|██████▉   | 33365/48008 [4:47:39<2:02:24,  1.99it/s] 70%|██████▉   | 33366/48008 [4:47:40<2:04:08,  1.97it/s] 70%|██████▉   | 33367/48008 [4:47:40<2:04:00,  1.97it/s] 70%|██████▉   | 33368/48008 [4:47:41<2:01:51,  2.00it/s] 70%|██████▉   | 33369/48008 [4:47:41<1:55:32,  2.11it/s] 70%|██████▉   | 33370/48008 [4:47:42<1:56:13,  2.10it/s] 70%|██████▉   | 33371/48008 [4:47:42<1:56:29,  2.09it/s] 70%|██████▉   | 33372/48008 [4:47:43<1:58:35,  2.06it/s] 70%|██████▉   | 33373/48008 [4:47:43<2:12:23,  1.84it/s] 70%|██████▉   | 33374/48008 [4:47:44<2:09:40,  1.88it/s] 70%|██████▉   | 33375/48008 [4:47:44<2:08:44,  1.89it/s] 70%|██████▉   | 33376/48008 [4:47:45<2:05:27,  1.94it/s] 70%|██████▉   | 33377/48008 [4:47:45<1:58:40,  2.05it/s] 70%|██████▉   | 33378/48008 [4:47:46<1:58:31,  2.06it/s] 70%|██████▉   | 33379/48008 [4:47:46<2:00:43,  2.02it/s] 70%|██████▉   | 33380/48008 [4:47:47<2:01:25,  2.01it/s] 70%|██████▉   | 33381/48008 [4:47:47<2:02:03,  2.00it/s] 70%|██████▉   | 33382/48008 [4:47:48<2:00:31,  2.02it/s] 70%|██████▉   | 33383/48008 [4:47:48<2:00:56,  2.02it/s] 70%|██████▉   | 33384/48008 [4:47:49<2:00:00,  2.03it/s] 70%|██████▉   | 33385/48008 [4:47:49<1:54:33,  2.13it/s] 70%|██████▉   | 33386/48008 [4:47:50<1:57:18,  2.08it/s] 70%|██████▉   | 33387/48008 [4:47:50<1:58:56,  2.05it/s] 70%|██████▉   | 33388/48008 [4:47:51<2:27:49,  1.65it/s] 70%|██████▉   | 33389/48008 [4:47:51<2:11:15,  1.86it/s] 70%|██████▉   | 33390/48008 [4:47:52<2:08:40,  1.89it/s] 70%|██████▉   | 33391/48008 [4:47:52<2:05:17,  1.94it/s] 70%|██████▉   | 33392/48008 [4:47:53<1:58:17,  2.06it/s] 70%|██████▉   | 33393/48008 [4:47:53<1:53:16,  2.15it/s] 70%|██████▉   | 33394/48008 [4:47:54<1:49:49,  2.22it/s] 70%|██████▉   | 33395/48008 [4:47:54<1:53:42,  2.14it/s] 70%|██████▉   | 33396/48008 [4:47:55<1:56:21,  2.09it/s] 70%|██████▉   | 33397/48008 [4:47:55<1:59:29,  2.04it/s] 70%|██████▉   | 33398/48008 [4:47:56<2:01:47,  2.00it/s] 70%|██████▉   | 33399/48008 [4:47:56<1:55:54,  2.10it/s] 70%|██████▉   | 33400/48008 [4:47:56<1:51:33,  2.18it/s]                                                         {'loss': 4.2749, 'grad_norm': 0.10009284317493439, 'learning_rate': 6.0860689885019164e-05, 'epoch': 0.7}
 70%|██████▉   | 33400/48008 [4:47:56<1:51:33,  2.18it/s] 70%|██████▉   | 33401/48008 [4:47:57<1:53:37,  2.14it/s] 70%|██████▉   | 33402/48008 [4:47:57<1:59:07,  2.04it/s] 70%|██████▉   | 33403/48008 [4:47:58<1:58:45,  2.05it/s] 70%|██████▉   | 33404/48008 [4:47:59<2:27:15,  1.65it/s] 70%|██████▉   | 33405/48008 [4:47:59<2:21:12,  1.72it/s] 70%|██████▉   | 33406/48008 [4:48:00<2:13:31,  1.82it/s] 70%|██████▉   | 33407/48008 [4:48:00<2:08:27,  1.89it/s] 70%|██████▉   | 33408/48008 [4:48:01<2:04:45,  1.95it/s] 70%|██████▉   | 33409/48008 [4:48:01<2:05:16,  1.94it/s] 70%|██████▉   | 33410/48008 [4:48:02<2:07:08,  1.91it/s] 70%|██████▉   | 33411/48008 [4:48:02<2:06:12,  1.93it/s] 70%|██████▉   | 33412/48008 [4:48:03<2:03:36,  1.97it/s] 70%|██████▉   | 33413/48008 [4:48:03<2:01:43,  2.00it/s] 70%|██████▉   | 33414/48008 [4:48:04<2:02:08,  1.99it/s] 70%|██████▉   | 33415/48008 [4:48:04<2:00:55,  2.01it/s] 70%|██████▉   | 33416/48008 [4:48:05<1:55:11,  2.11it/s] 70%|██████▉   | 33417/48008 [4:48:05<1:55:46,  2.10it/s] 70%|██████▉   | 33418/48008 [4:48:06<1:51:36,  2.18it/s] 70%|██████▉   | 33419/48008 [4:48:06<1:57:25,  2.07it/s] 70%|██████▉   | 33420/48008 [4:48:07<1:57:20,  2.07it/s] 70%|██████▉   | 33421/48008 [4:48:07<1:57:27,  2.07it/s] 70%|██████▉   | 33422/48008 [4:48:08<2:11:09,  1.85it/s] 70%|██████▉   | 33423/48008 [4:48:08<2:08:29,  1.89it/s] 70%|██████▉   | 33424/48008 [4:48:09<2:04:54,  1.95it/s] 70%|██████▉   | 33425/48008 [4:48:09<2:05:40,  1.93it/s] 70%|██████▉   | 33426/48008 [4:48:10<2:03:11,  1.97it/s] 70%|██████▉   | 33427/48008 [4:48:10<2:03:01,  1.98it/s] 70%|██████▉   | 33428/48008 [4:48:11<2:02:51,  1.98it/s] 70%|██████▉   | 33429/48008 [4:48:11<2:03:06,  1.97it/s] 70%|██████▉   | 33430/48008 [4:48:12<2:01:15,  2.00it/s] 70%|██████▉   | 33431/48008 [4:48:12<1:55:07,  2.11it/s] 70%|██████▉   | 33432/48008 [4:48:13<1:58:23,  2.05it/s] 70%|██████▉   | 33433/48008 [4:48:13<2:00:55,  2.01it/s] 70%|██████▉   | 33434/48008 [4:48:14<2:02:23,  1.98it/s] 70%|██████▉   | 33435/48008 [4:48:14<2:00:43,  2.01it/s] 70%|██████▉   | 33436/48008 [4:48:15<2:02:36,  1.98it/s] 70%|██████▉   | 33437/48008 [4:48:15<2:03:23,  1.97it/s] 70%|██████▉   | 33438/48008 [4:48:16<2:15:33,  1.79it/s] 70%|██████▉   | 33439/48008 [4:48:16<2:09:50,  1.87it/s] 70%|██████▉   | 33440/48008 [4:48:17<2:10:02,  1.87it/s] 70%|██████▉   | 33441/48008 [4:48:18<2:10:05,  1.87it/s] 70%|██████▉   | 33442/48008 [4:48:18<2:08:01,  1.90it/s] 70%|██████▉   | 33443/48008 [4:48:19<2:04:47,  1.95it/s] 70%|██████▉   | 33444/48008 [4:48:19<2:02:29,  1.98it/s] 70%|██████▉   | 33445/48008 [4:48:19<2:01:00,  2.01it/s] 70%|██████▉   | 33446/48008 [4:48:20<2:04:11,  1.95it/s] 70%|██████▉   | 33447/48008 [4:48:21<2:06:24,  1.92it/s] 70%|██████▉   | 33448/48008 [4:48:21<2:03:30,  1.96it/s] 70%|██████▉   | 33449/48008 [4:48:22<2:04:06,  1.96it/s] 70%|██████▉   | 33450/48008 [4:48:22<2:03:33,  1.96it/s]                                                         {'loss': 4.2867, 'grad_norm': 0.1044585108757019, 'learning_rate': 6.0652391268121975e-05, 'epoch': 0.7}
 70%|██████▉   | 33450/48008 [4:48:22<2:03:33,  1.96it/s] 70%|██████▉   | 33451/48008 [4:48:23<2:01:26,  2.00it/s] 70%|██████▉   | 33452/48008 [4:48:23<2:04:05,  1.95it/s] 70%|██████▉   | 33453/48008 [4:48:24<2:02:10,  1.99it/s] 70%|██████▉   | 33454/48008 [4:48:24<1:55:44,  2.10it/s] 70%|██████▉   | 33455/48008 [4:48:24<1:56:01,  2.09it/s] 70%|██████▉   | 33456/48008 [4:48:25<1:57:49,  2.06it/s] 70%|██████▉   | 33457/48008 [4:48:25<1:57:30,  2.06it/s] 70%|██████▉   | 33458/48008 [4:48:26<1:57:24,  2.07it/s] 70%|██████▉   | 33459/48008 [4:48:26<1:57:16,  2.07it/s] 70%|██████▉   | 33460/48008 [4:48:27<1:52:12,  2.16it/s] 70%|██████▉   | 33461/48008 [4:48:27<1:57:49,  2.06it/s] 70%|██████▉   | 33462/48008 [4:48:28<1:57:35,  2.06it/s] 70%|██████▉   | 33463/48008 [4:48:28<2:00:14,  2.02it/s] 70%|██████▉   | 33464/48008 [4:48:29<1:54:20,  2.12it/s] 70%|██████▉   | 33465/48008 [4:48:30<2:51:25,  1.41it/s] 70%|██████▉   | 33466/48008 [4:48:31<2:38:08,  1.53it/s] 70%|██████▉   | 33467/48008 [4:48:31<2:21:11,  1.72it/s] 70%|██████▉   | 33468/48008 [4:48:31<2:09:04,  1.88it/s] 70%|██████▉   | 33469/48008 [4:48:32<2:00:28,  2.01it/s] 70%|██████▉   | 33470/48008 [4:48:32<1:54:34,  2.11it/s] 70%|██████▉   | 33471/48008 [4:48:33<1:55:15,  2.10it/s] 70%|██████▉   | 33472/48008 [4:48:33<1:57:20,  2.06it/s] 70%|██████▉   | 33473/48008 [4:48:34<1:56:57,  2.07it/s] 70%|██████▉   | 33474/48008 [4:48:34<1:57:02,  2.07it/s] 70%|██████▉   | 33475/48008 [4:48:35<2:00:54,  2.00it/s] 70%|██████▉   | 33476/48008 [4:48:35<2:01:29,  1.99it/s] 70%|██████▉   | 33477/48008 [4:48:36<1:55:15,  2.10it/s] 70%|██████▉   | 33478/48008 [4:48:36<1:55:44,  2.09it/s] 70%|██████▉   | 33479/48008 [4:48:37<1:58:11,  2.05it/s] 70%|██████▉   | 33480/48008 [4:48:37<1:53:25,  2.13it/s] 70%|██████▉   | 33481/48008 [4:48:38<1:54:33,  2.11it/s] 70%|██████▉   | 33482/48008 [4:48:38<1:50:38,  2.19it/s] 70%|██████▉   | 33483/48008 [4:48:38<1:55:11,  2.10it/s] 70%|██████▉   | 33484/48008 [4:48:39<1:55:35,  2.09it/s] 70%|██████▉   | 33485/48008 [4:48:39<1:51:33,  2.17it/s] 70%|██████▉   | 33486/48008 [4:48:40<1:53:03,  2.14it/s] 70%|██████▉   | 33487/48008 [4:48:40<1:53:56,  2.12it/s] 70%|██████▉   | 33488/48008 [4:48:41<1:55:01,  2.10it/s] 70%|██████▉   | 33489/48008 [4:48:41<1:50:41,  2.19it/s] 70%|██████▉   | 33490/48008 [4:48:42<1:52:24,  2.15it/s] 70%|██████▉   | 33491/48008 [4:48:42<1:55:22,  2.10it/s] 70%|██████▉   | 33492/48008 [4:48:43<1:55:45,  2.09it/s] 70%|██████▉   | 33493/48008 [4:48:43<1:57:30,  2.06it/s] 70%|██████▉   | 33494/48008 [4:48:44<1:58:35,  2.04it/s] 70%|██████▉   | 33495/48008 [4:48:44<1:58:07,  2.05it/s] 70%|██████▉   | 33496/48008 [4:48:45<1:57:16,  2.06it/s] 70%|██████▉   | 33497/48008 [4:48:45<1:52:07,  2.16it/s] 70%|██████▉   | 33498/48008 [4:48:46<1:48:41,  2.22it/s] 70%|██████▉   | 33499/48008 [4:48:46<1:53:36,  2.13it/s] 70%|██████▉   | 33500/48008 [4:48:46<1:49:51,  2.20it/s]                                                         {'loss': 4.1469, 'grad_norm': 0.1001361533999443, 'learning_rate': 6.0444092651224806e-05, 'epoch': 0.7}
 70%|██████▉   | 33500/48008 [4:48:46<1:49:51,  2.20it/s] 70%|██████▉   | 33501/48008 [4:48:47<2:21:17,  1.71it/s] 70%|██████▉   | 33502/48008 [4:48:48<2:15:46,  1.78it/s] 70%|██████▉   | 33503/48008 [4:48:48<2:05:12,  1.93it/s] 70%|██████▉   | 33504/48008 [4:48:49<2:04:20,  1.94it/s] 70%|██████▉   | 33505/48008 [4:48:49<2:01:58,  1.98it/s] 70%|██████▉   | 33506/48008 [4:48:50<2:00:20,  2.01it/s] 70%|██████▉   | 33507/48008 [4:48:50<1:59:08,  2.03it/s] 70%|██████▉   | 33508/48008 [4:48:51<1:53:32,  2.13it/s] 70%|██████▉   | 33509/48008 [4:48:51<1:54:24,  2.11it/s] 70%|██████▉   | 33510/48008 [4:48:52<1:55:04,  2.10it/s] 70%|██████▉   | 33511/48008 [4:48:52<1:50:41,  2.18it/s] 70%|██████▉   | 33512/48008 [4:48:53<1:54:05,  2.12it/s] 70%|██████▉   | 33513/48008 [4:48:53<1:55:01,  2.10it/s] 70%|██████▉   | 33514/48008 [4:48:54<1:57:51,  2.05it/s] 70%|██████▉   | 33515/48008 [4:48:54<1:57:15,  2.06it/s] 70%|██████▉   | 33516/48008 [4:48:55<2:53:16,  1.39it/s] 70%|██████▉   | 33517/48008 [4:48:56<2:31:19,  1.60it/s] 70%|██████▉   | 33518/48008 [4:48:56<2:23:35,  1.68it/s] 70%|██████▉   | 33519/48008 [4:48:57<2:19:50,  1.73it/s] 70%|██████▉   | 33520/48008 [4:48:57<2:07:57,  1.89it/s] 70%|██████▉   | 33521/48008 [4:48:58<2:04:23,  1.94it/s] 70%|██████▉   | 33522/48008 [4:48:58<2:01:57,  1.98it/s] 70%|██████▉   | 33523/48008 [4:48:59<2:01:49,  1.98it/s] 70%|██████▉   | 33524/48008 [4:48:59<2:01:46,  1.98it/s] 70%|██████▉   | 33525/48008 [4:49:00<2:00:22,  2.01it/s] 70%|██████▉   | 33526/48008 [4:49:00<1:59:15,  2.02it/s] 70%|██████▉   | 33527/48008 [4:49:01<1:58:27,  2.04it/s] 70%|██████▉   | 33528/48008 [4:49:01<1:57:28,  2.05it/s] 70%|██████▉   | 33529/48008 [4:49:01<1:52:34,  2.14it/s] 70%|██████▉   | 33530/48008 [4:49:02<1:53:34,  2.12it/s] 70%|██████▉   | 33531/48008 [4:49:02<1:54:01,  2.12it/s] 70%|██████▉   | 33532/48008 [4:49:03<1:57:23,  2.06it/s] 70%|██████▉   | 33533/48008 [4:49:03<1:52:14,  2.15it/s] 70%|██████▉   | 33534/48008 [4:49:04<1:53:35,  2.12it/s] 70%|██████▉   | 33535/48008 [4:49:04<1:54:31,  2.11it/s] 70%|██████▉   | 33536/48008 [4:49:05<1:59:28,  2.02it/s] 70%|██████▉   | 33537/48008 [4:49:05<1:53:17,  2.13it/s] 70%|██████▉   | 33538/48008 [4:49:06<1:54:01,  2.12it/s] 70%|██████▉   | 33539/48008 [4:49:06<1:49:53,  2.19it/s] 70%|██████▉   | 33540/48008 [4:49:07<1:53:08,  2.13it/s] 70%|██████▉   | 33541/48008 [4:49:07<1:56:59,  2.06it/s] 70%|██████▉   | 33542/48008 [4:49:08<1:56:50,  2.06it/s] 70%|██████▉   | 33543/48008 [4:49:08<1:56:36,  2.07it/s] 70%|██████▉   | 33544/48008 [4:49:09<1:56:25,  2.07it/s] 70%|██████▉   | 33545/48008 [4:49:09<1:56:27,  2.07it/s] 70%|██████▉   | 33546/48008 [4:49:10<1:56:19,  2.07it/s] 70%|██████▉   | 33547/48008 [4:49:10<1:56:23,  2.07it/s] 70%|██████▉   | 33548/48008 [4:49:11<2:52:19,  1.40it/s] 70%|██████▉   | 33549/48008 [4:49:12<2:35:13,  1.55it/s] 70%|██████▉   | 33550/48008 [4:49:13<2:52:04,  1.40it/s]                                                         {'loss': 4.2596, 'grad_norm': 0.08741802722215652, 'learning_rate': 6.0235794034327617e-05, 'epoch': 0.7}
 70%|██████▉   | 33550/48008 [4:49:13<2:52:04,  1.40it/s] 70%|██████▉   | 33551/48008 [4:49:13<2:35:12,  1.55it/s] 70%|██████▉   | 33552/48008 [4:49:14<2:37:24,  1.53it/s] 70%|██████▉   | 33553/48008 [4:49:14<2:26:34,  1.64it/s] 70%|██████▉   | 33554/48008 [4:49:15<2:19:29,  1.73it/s] 70%|██████▉   | 33555/48008 [4:49:16<3:08:09,  1.28it/s] 70%|██████▉   | 33556/48008 [4:49:17<2:46:19,  1.45it/s] 70%|██████▉   | 33557/48008 [4:49:17<2:45:24,  1.46it/s] 70%|██████▉   | 33558/48008 [4:49:18<2:30:41,  1.60it/s] 70%|██████▉   | 33559/48008 [4:49:18<2:20:17,  1.72it/s] 70%|██████▉   | 33560/48008 [4:49:19<2:41:39,  1.49it/s] 70%|██████▉   | 33561/48008 [4:49:20<2:27:51,  1.63it/s] 70%|██████▉   | 33562/48008 [4:49:20<2:13:32,  1.80it/s] 70%|██████▉   | 33563/48008 [4:49:20<2:03:27,  1.95it/s] 70%|██████▉   | 33564/48008 [4:49:21<2:01:14,  1.99it/s] 70%|██████▉   | 33565/48008 [4:49:21<1:59:26,  2.02it/s] 70%|██████▉   | 33566/48008 [4:49:22<2:27:35,  1.63it/s] 70%|██████▉   | 33567/48008 [4:49:23<2:18:19,  1.74it/s] 70%|██████▉   | 33568/48008 [4:49:23<2:11:26,  1.83it/s] 70%|██████▉   | 33569/48008 [4:49:24<2:06:44,  1.90it/s] 70%|██████▉   | 33570/48008 [4:49:24<2:04:56,  1.93it/s] 70%|██████▉   | 33571/48008 [4:49:25<2:02:22,  1.97it/s] 70%|██████▉   | 33572/48008 [4:49:26<2:28:55,  1.62it/s] 70%|██████▉   | 33573/48008 [4:49:26<2:14:35,  1.79it/s] 70%|██████▉   | 33574/48008 [4:49:27<2:10:29,  1.84it/s] 70%|██████▉   | 33575/48008 [4:49:27<2:05:46,  1.91it/s] 70%|██████▉   | 33576/48008 [4:49:28<2:06:06,  1.91it/s] 70%|██████▉   | 33577/48008 [4:49:28<2:02:46,  1.96it/s] 70%|██████▉   | 33578/48008 [4:49:29<2:02:11,  1.97it/s] 70%|██████▉   | 33579/48008 [4:49:29<2:00:43,  1.99it/s] 70%|██████▉   | 33580/48008 [4:49:29<1:54:27,  2.10it/s] 70%|██████▉   | 33581/48008 [4:49:30<1:56:35,  2.06it/s] 70%|██████▉   | 33582/48008 [4:49:30<1:51:29,  2.16it/s] 70%|██████▉   | 33583/48008 [4:49:31<1:54:32,  2.10it/s] 70%|██████▉   | 33584/48008 [4:49:31<1:59:02,  2.02it/s] 70%|██████▉   | 33585/48008 [4:49:32<2:11:44,  1.82it/s] 70%|██████▉   | 33586/48008 [4:49:33<2:08:39,  1.87it/s] 70%|██████▉   | 33587/48008 [4:49:33<2:00:00,  2.00it/s] 70%|██████▉   | 33588/48008 [4:49:33<1:58:45,  2.02it/s] 70%|██████▉   | 33589/48008 [4:49:34<1:57:51,  2.04it/s] 70%|██████▉   | 33590/48008 [4:49:35<2:25:43,  1.65it/s] 70%|██████▉   | 33591/48008 [4:49:35<2:18:30,  1.73it/s] 70%|██████▉   | 33592/48008 [4:49:36<2:11:32,  1.83it/s] 70%|██████▉   | 33593/48008 [4:49:36<2:08:26,  1.87it/s] 70%|██████▉   | 33594/48008 [4:49:37<2:04:46,  1.93it/s] 70%|██████▉   | 33595/48008 [4:49:37<2:01:54,  1.97it/s] 70%|██████▉   | 33596/48008 [4:49:38<2:01:32,  1.98it/s] 70%|██████▉   | 33597/48008 [4:49:38<1:54:57,  2.09it/s] 70%|██████▉   | 33598/48008 [4:49:39<1:55:05,  2.09it/s] 70%|██████▉   | 33599/48008 [4:49:39<1:59:33,  2.01it/s] 70%|██████▉   | 33600/48008 [4:49:40<1:58:37,  2.02it/s]                                                         {'loss': 4.2471, 'grad_norm': 0.09657225757837296, 'learning_rate': 6.0027495417430434e-05, 'epoch': 0.7}
 70%|██████▉   | 33600/48008 [4:49:40<1:58:37,  2.02it/s] 70%|██████▉   | 33601/48008 [4:49:40<1:59:23,  2.01it/s] 70%|██████▉   | 33602/48008 [4:49:41<2:26:24,  1.64it/s] 70%|██████▉   | 33603/48008 [4:49:41<2:12:22,  1.81it/s] 70%|██████▉   | 33604/48008 [4:49:42<2:02:30,  1.96it/s] 70%|██████▉   | 33605/48008 [4:49:43<2:55:58,  1.36it/s] 70%|███████   | 33606/48008 [4:49:44<2:39:20,  1.51it/s] 70%|███████   | 33607/48008 [4:49:44<2:27:58,  1.62it/s] 70%|███████   | 33608/48008 [4:49:45<2:22:26,  1.68it/s] 70%|███████   | 33609/48008 [4:49:45<2:18:33,  1.73it/s] 70%|███████   | 33610/48008 [4:49:46<2:13:23,  1.80it/s] 70%|███████   | 33611/48008 [4:49:46<2:03:14,  1.95it/s] 70%|███████   | 33612/48008 [4:49:47<1:56:08,  2.07it/s] 70%|███████   | 33613/48008 [4:49:47<1:57:27,  2.04it/s] 70%|███████   | 33614/48008 [4:49:48<1:58:26,  2.03it/s] 70%|███████   | 33615/48008 [4:49:48<1:52:46,  2.13it/s] 70%|███████   | 33616/48008 [4:49:49<1:57:42,  2.04it/s] 70%|███████   | 33617/48008 [4:49:49<1:52:07,  2.14it/s] 70%|███████   | 33618/48008 [4:49:49<1:55:55,  2.07it/s] 70%|███████   | 33619/48008 [4:49:50<1:51:04,  2.16it/s] 70%|███████   | 33620/48008 [4:49:50<1:52:19,  2.14it/s] 70%|███████   | 33621/48008 [4:49:51<1:52:54,  2.12it/s] 70%|███████   | 33622/48008 [4:49:51<1:57:40,  2.04it/s] 70%|███████   | 33623/48008 [4:49:52<1:58:43,  2.02it/s] 70%|███████   | 33624/48008 [4:49:52<1:59:28,  2.01it/s] 70%|███████   | 33625/48008 [4:49:53<2:00:00,  2.00it/s] 70%|███████   | 33626/48008 [4:49:53<1:59:55,  2.00it/s] 70%|███████   | 33627/48008 [4:49:54<2:00:21,  1.99it/s] 70%|███████   | 33628/48008 [4:49:54<1:59:06,  2.01it/s] 70%|███████   | 33629/48008 [4:49:55<2:00:39,  1.99it/s] 70%|███████   | 33630/48008 [4:49:55<2:00:39,  1.99it/s] 70%|███████   | 33631/48008 [4:49:56<2:12:57,  1.80it/s] 70%|███████   | 33632/48008 [4:49:57<2:10:55,  1.83it/s] 70%|███████   | 33633/48008 [4:49:57<2:06:22,  1.90it/s] 70%|███████   | 33634/48008 [4:49:58<2:04:35,  1.92it/s] 70%|███████   | 33635/48008 [4:49:58<2:15:42,  1.77it/s] 70%|███████   | 33636/48008 [4:49:59<2:23:21,  1.67it/s] 70%|███████   | 33637/48008 [4:49:59<2:14:39,  1.78it/s] 70%|███████   | 33638/48008 [4:50:00<2:08:59,  1.86it/s] 70%|███████   | 33639/48008 [4:50:01<2:19:06,  1.72it/s] 70%|███████   | 33640/48008 [4:50:01<2:11:47,  1.82it/s] 70%|███████   | 33641/48008 [4:50:02<2:11:00,  1.83it/s] 70%|███████   | 33642/48008 [4:50:02<2:06:04,  1.90it/s] 70%|███████   | 33643/48008 [4:50:03<2:04:34,  1.92it/s] 70%|███████   | 33644/48008 [4:50:03<2:03:30,  1.94it/s] 70%|███████   | 33645/48008 [4:50:04<2:02:48,  1.95it/s] 70%|███████   | 33646/48008 [4:50:04<2:00:20,  1.99it/s] 70%|███████   | 33647/48008 [4:50:05<2:00:11,  1.99it/s] 70%|███████   | 33648/48008 [4:50:05<1:59:56,  2.00it/s] 70%|███████   | 33649/48008 [4:50:06<2:00:15,  1.99it/s] 70%|███████   | 33650/48008 [4:50:06<1:58:41,  2.02it/s]                                                         {'loss': 4.3145, 'grad_norm': 0.09963606297969818, 'learning_rate': 5.981919680053325e-05, 'epoch': 0.7}
 70%|███████   | 33650/48008 [4:50:06<1:58:41,  2.02it/s] 70%|███████   | 33651/48008 [4:50:07<1:57:43,  2.03it/s] 70%|███████   | 33652/48008 [4:50:07<1:57:00,  2.04it/s] 70%|███████   | 33653/48008 [4:50:08<2:10:11,  1.84it/s] 70%|███████   | 33654/48008 [4:50:08<2:05:32,  1.91it/s] 70%|███████   | 33655/48008 [4:50:09<2:06:31,  1.89it/s] 70%|███████   | 33656/48008 [4:50:09<2:06:02,  1.90it/s] 70%|███████   | 33657/48008 [4:50:10<2:02:39,  1.95it/s] 70%|███████   | 33658/48008 [4:50:10<2:00:27,  1.99it/s] 70%|███████   | 33659/48008 [4:50:11<1:54:14,  2.09it/s] 70%|███████   | 33660/48008 [4:50:11<1:56:12,  2.06it/s] 70%|███████   | 33661/48008 [4:50:12<1:58:34,  2.02it/s] 70%|███████   | 33662/48008 [4:50:12<2:11:23,  1.82it/s] 70%|███████   | 33663/48008 [4:50:13<2:10:26,  1.83it/s] 70%|███████   | 33664/48008 [4:50:13<2:07:23,  1.88it/s] 70%|███████   | 33665/48008 [4:50:14<2:03:34,  1.93it/s] 70%|███████   | 33666/48008 [4:50:14<2:01:03,  1.97it/s] 70%|███████   | 33667/48008 [4:50:15<2:13:04,  1.80it/s] 70%|███████   | 33668/48008 [4:50:15<2:09:11,  1.85it/s] 70%|███████   | 33669/48008 [4:50:16<2:07:44,  1.87it/s] 70%|███████   | 33670/48008 [4:50:17<2:05:23,  1.91it/s] 70%|███████   | 33671/48008 [4:50:17<2:02:22,  1.95it/s] 70%|███████   | 33672/48008 [4:50:17<1:55:27,  2.07it/s] 70%|███████   | 33673/48008 [4:50:18<1:57:59,  2.02it/s] 70%|███████   | 33674/48008 [4:50:18<1:58:32,  2.02it/s] 70%|███████   | 33675/48008 [4:50:19<1:57:31,  2.03it/s] 70%|███████   | 33676/48008 [4:50:19<1:52:06,  2.13it/s] 70%|███████   | 33677/48008 [4:50:20<1:52:41,  2.12it/s] 70%|███████   | 33678/48008 [4:50:20<1:53:27,  2.10it/s] 70%|███████   | 33679/48008 [4:50:21<1:54:03,  2.09it/s] 70%|███████   | 33680/48008 [4:50:21<1:55:49,  2.06it/s] 70%|███████   | 33681/48008 [4:50:22<1:58:15,  2.02it/s] 70%|███████   | 33682/48008 [4:50:22<1:50:16,  2.17it/s] 70%|███████   | 33683/48008 [4:50:23<1:51:34,  2.14it/s] 70%|███████   | 33684/48008 [4:50:23<1:54:47,  2.08it/s] 70%|███████   | 33685/48008 [4:50:24<1:50:10,  2.17it/s] 70%|███████   | 33686/48008 [4:50:24<1:52:00,  2.13it/s] 70%|███████   | 33687/48008 [4:50:25<1:52:49,  2.12it/s] 70%|███████   | 33688/48008 [4:50:25<1:55:12,  2.07it/s] 70%|███████   | 33689/48008 [4:50:26<1:55:03,  2.07it/s] 70%|███████   | 33690/48008 [4:50:26<1:54:57,  2.08it/s] 70%|███████   | 33691/48008 [4:50:27<1:56:30,  2.05it/s] 70%|███████   | 33692/48008 [4:50:27<1:55:51,  2.06it/s] 70%|███████   | 33693/48008 [4:50:27<1:55:20,  2.07it/s] 70%|███████   | 33694/48008 [4:50:28<1:50:42,  2.15it/s] 70%|███████   | 33695/48008 [4:50:28<1:51:55,  2.13it/s] 70%|███████   | 33696/48008 [4:50:29<1:52:48,  2.11it/s] 70%|███████   | 33697/48008 [4:50:29<1:48:32,  2.20it/s] 70%|███████   | 33698/48008 [4:50:30<1:52:05,  2.13it/s] 70%|███████   | 33699/48008 [4:50:30<1:55:33,  2.06it/s] 70%|███████   | 33700/48008 [4:50:31<1:55:09,  2.07it/s]                                                         {'loss': 4.2357, 'grad_norm': 0.10929867625236511, 'learning_rate': 5.961089818363607e-05, 'epoch': 0.7}
 70%|███████   | 33700/48008 [4:50:31<1:55:09,  2.07it/s] 70%|███████   | 33701/48008 [4:50:31<1:55:10,  2.07it/s] 70%|███████   | 33702/48008 [4:50:32<1:54:50,  2.08it/s] 70%|███████   | 33703/48008 [4:50:32<1:54:39,  2.08it/s] 70%|███████   | 33704/48008 [4:50:33<1:54:54,  2.07it/s] 70%|███████   | 33705/48008 [4:50:33<1:50:14,  2.16it/s] 70%|███████   | 33706/48008 [4:50:34<1:51:30,  2.14it/s] 70%|███████   | 33707/48008 [4:50:34<1:52:20,  2.12it/s] 70%|███████   | 33708/48008 [4:50:35<1:48:28,  2.20it/s] 70%|███████   | 33709/48008 [4:50:35<1:50:36,  2.15it/s] 70%|███████   | 33710/48008 [4:50:35<1:51:50,  2.13it/s] 70%|███████   | 33711/48008 [4:50:36<1:54:18,  2.08it/s] 70%|███████   | 33712/48008 [4:50:36<1:54:42,  2.08it/s] 70%|███████   | 33713/48008 [4:50:37<1:56:15,  2.05it/s] 70%|███████   | 33714/48008 [4:50:37<1:55:36,  2.06it/s] 70%|███████   | 33715/48008 [4:50:38<1:55:34,  2.06it/s] 70%|███████   | 33716/48008 [4:50:38<1:55:20,  2.07it/s] 70%|███████   | 33717/48008 [4:50:39<1:54:55,  2.07it/s] 70%|███████   | 33718/48008 [4:50:39<1:54:48,  2.07it/s] 70%|███████   | 33719/48008 [4:50:40<1:56:29,  2.04it/s] 70%|███████   | 33720/48008 [4:50:40<1:56:15,  2.05it/s] 70%|███████   | 33721/48008 [4:50:41<1:58:27,  2.01it/s] 70%|███████   | 33722/48008 [4:50:41<1:58:51,  2.00it/s] 70%|███████   | 33723/48008 [4:50:42<2:01:45,  1.96it/s] 70%|███████   | 33724/48008 [4:50:42<1:59:42,  1.99it/s] 70%|███████   | 33725/48008 [4:50:43<1:58:10,  2.01it/s] 70%|███████   | 33726/48008 [4:50:43<1:56:53,  2.04it/s] 70%|███████   | 33727/48008 [4:50:44<1:58:40,  2.01it/s] 70%|███████   | 33728/48008 [4:50:44<1:58:48,  2.00it/s] 70%|███████   | 33729/48008 [4:50:45<1:57:54,  2.02it/s] 70%|███████   | 33730/48008 [4:50:45<2:00:04,  1.98it/s] 70%|███████   | 33731/48008 [4:50:46<1:58:16,  2.01it/s] 70%|███████   | 33732/48008 [4:50:46<1:57:23,  2.03it/s] 70%|███████   | 33733/48008 [4:50:47<1:58:26,  2.01it/s] 70%|███████   | 33734/48008 [4:50:47<1:52:31,  2.11it/s] 70%|███████   | 33735/48008 [4:50:48<1:53:04,  2.10it/s] 70%|███████   | 33736/48008 [4:50:48<1:53:54,  2.09it/s] 70%|███████   | 33737/48008 [4:50:49<1:55:40,  2.06it/s] 70%|███████   | 33738/48008 [4:50:49<1:55:09,  2.07it/s] 70%|███████   | 33739/48008 [4:50:50<1:50:09,  2.16it/s] 70%|███████   | 33740/48008 [4:50:50<1:55:38,  2.06it/s] 70%|███████   | 33741/48008 [4:50:51<1:50:39,  2.15it/s] 70%|███████   | 33742/48008 [4:50:51<1:51:51,  2.13it/s] 70%|███████   | 33743/48008 [4:50:52<1:52:43,  2.11it/s] 70%|███████   | 33744/48008 [4:50:52<1:48:59,  2.18it/s] 70%|███████   | 33745/48008 [4:50:52<1:50:45,  2.15it/s] 70%|███████   | 33746/48008 [4:50:53<1:54:53,  2.07it/s] 70%|███████   | 33747/48008 [4:50:54<1:56:16,  2.04it/s] 70%|███████   | 33748/48008 [4:50:54<1:57:14,  2.03it/s] 70%|███████   | 33749/48008 [4:50:55<2:09:54,  1.83it/s] 70%|███████   | 33750/48008 [4:50:55<2:05:18,  1.90it/s]                                                         {'loss': 4.2172, 'grad_norm': 0.09935475140810013, 'learning_rate': 5.940259956673888e-05, 'epoch': 0.7} 70%|███████   | 33750/48008 [4:50:55<2:05:18,  1.90it/s]
 70%|███████   | 33751/48008 [4:50:56<2:02:38,  1.94it/s] 70%|███████   | 33752/48008 [4:50:56<2:00:43,  1.97it/s] 70%|███████   | 33753/48008 [4:50:57<1:59:08,  1.99it/s] 70%|███████   | 33754/48008 [4:50:57<1:58:56,  2.00it/s] 70%|███████   | 33755/48008 [4:50:58<2:01:26,  1.96it/s] 70%|███████   | 33756/48008 [4:50:58<2:00:39,  1.97it/s] 70%|███████   | 33757/48008 [4:50:59<2:01:37,  1.95it/s] 70%|███████   | 33758/48008 [4:50:59<1:59:20,  1.99it/s] 70%|███████   | 33759/48008 [4:51:00<1:57:49,  2.02it/s] 70%|███████   | 33760/48008 [4:51:00<1:52:01,  2.12it/s] 70%|███████   | 33761/48008 [4:51:01<2:06:33,  1.88it/s] 70%|███████   | 33762/48008 [4:51:01<2:03:34,  1.92it/s] 70%|███████   | 33763/48008 [4:51:02<2:29:02,  1.59it/s] 70%|███████   | 33764/48008 [4:51:03<2:18:42,  1.71it/s] 70%|███████   | 33765/48008 [4:51:03<2:15:51,  1.75it/s] 70%|███████   | 33766/48008 [4:51:04<2:04:35,  1.91it/s] 70%|███████   | 33767/48008 [4:51:04<2:04:13,  1.91it/s] 70%|███████   | 33768/48008 [4:51:05<2:01:09,  1.96it/s] 70%|███████   | 33769/48008 [4:51:05<2:01:49,  1.95it/s] 70%|███████   | 33770/48008 [4:51:05<1:54:26,  2.07it/s] 70%|███████   | 33771/48008 [4:51:06<1:56:09,  2.04it/s] 70%|███████   | 33772/48008 [4:51:06<1:55:41,  2.05it/s] 70%|███████   | 33773/48008 [4:51:07<1:54:54,  2.06it/s] 70%|███████   | 33774/48008 [4:51:07<1:57:21,  2.02it/s] 70%|███████   | 33775/48008 [4:51:08<1:58:20,  2.00it/s] 70%|███████   | 33776/48008 [4:51:08<1:59:51,  1.98it/s] 70%|███████   | 33777/48008 [4:51:09<2:26:14,  1.62it/s] 70%|███████   | 33778/48008 [4:51:10<2:18:27,  1.71it/s] 70%|███████   | 33779/48008 [4:51:10<2:12:32,  1.79it/s] 70%|███████   | 33780/48008 [4:51:11<2:11:10,  1.81it/s] 70%|███████   | 33781/48008 [4:51:11<2:05:55,  1.88it/s] 70%|███████   | 33782/48008 [4:51:12<2:02:33,  1.93it/s] 70%|███████   | 33783/48008 [4:51:12<1:55:33,  2.05it/s] 70%|███████   | 33784/48008 [4:51:13<1:59:17,  1.99it/s] 70%|███████   | 33785/48008 [4:51:13<1:53:05,  2.10it/s] 70%|███████   | 33786/48008 [4:51:14<1:54:58,  2.06it/s] 70%|███████   | 33787/48008 [4:51:14<1:54:32,  2.07it/s] 70%|███████   | 33788/48008 [4:51:15<1:54:23,  2.07it/s] 70%|███████   | 33789/48008 [4:51:15<1:58:19,  2.00it/s] 70%|███████   | 33790/48008 [4:51:16<1:56:39,  2.03it/s] 70%|███████   | 33791/48008 [4:51:16<1:57:59,  2.01it/s] 70%|███████   | 33792/48008 [4:51:17<1:58:09,  2.01it/s] 70%|███████   | 33793/48008 [4:51:17<1:56:31,  2.03it/s] 70%|███████   | 33794/48008 [4:51:18<1:57:34,  2.01it/s] 70%|███████   | 33795/48008 [4:51:18<1:56:14,  2.04it/s] 70%|███████   | 33796/48008 [4:51:19<1:55:25,  2.05it/s] 70%|███████   | 33797/48008 [4:51:19<1:50:15,  2.15it/s] 70%|███████   | 33798/48008 [4:51:20<1:51:26,  2.13it/s] 70%|███████   | 33799/48008 [4:51:20<1:52:06,  2.11it/s] 70%|███████   | 33800/48008 [4:51:21<1:54:46,  2.06it/s]                                                         {'loss': 4.2563, 'grad_norm': 0.20926640927791595, 'learning_rate': 5.91943009498417e-05, 'epoch': 0.7} 70%|███████   | 33800/48008 [4:51:21<1:54:46,  2.06it/s]
 70%|███████   | 33801/48008 [4:51:21<1:56:23,  2.03it/s] 70%|███████   | 33802/48008 [4:51:22<1:55:34,  2.05it/s] 70%|███████   | 33803/48008 [4:51:22<1:50:18,  2.15it/s] 70%|███████   | 33804/48008 [4:51:22<1:51:22,  2.13it/s] 70%|███████   | 33805/48008 [4:51:23<1:52:04,  2.11it/s] 70%|███████   | 33806/48008 [4:51:23<1:56:52,  2.03it/s] 70%|███████   | 33807/48008 [4:51:24<1:51:15,  2.13it/s] 70%|███████   | 33808/48008 [4:51:24<1:51:45,  2.12it/s] 70%|███████   | 33809/48008 [4:51:25<1:55:20,  2.05it/s] 70%|███████   | 33810/48008 [4:51:25<1:54:36,  2.06it/s] 70%|███████   | 33811/48008 [4:51:26<1:57:05,  2.02it/s] 70%|███████   | 33812/48008 [4:51:26<1:51:31,  2.12it/s] 70%|███████   | 33813/48008 [4:51:27<1:52:02,  2.11it/s] 70%|███████   | 33814/48008 [4:51:27<1:54:19,  2.07it/s] 70%|███████   | 33815/48008 [4:51:28<1:49:31,  2.16it/s] 70%|███████   | 33816/48008 [4:51:28<1:53:57,  2.08it/s] 70%|███████   | 33817/48008 [4:51:29<1:57:45,  2.01it/s] 70%|███████   | 33818/48008 [4:51:29<2:00:32,  1.96it/s] 70%|███████   | 33819/48008 [4:51:30<1:53:52,  2.08it/s] 70%|███████   | 33820/48008 [4:51:30<1:54:00,  2.07it/s] 70%|███████   | 33821/48008 [4:51:31<1:49:28,  2.16it/s] 70%|███████   | 33822/48008 [4:51:31<1:53:44,  2.08it/s] 70%|███████   | 33823/48008 [4:51:32<1:53:38,  2.08it/s] 70%|███████   | 33824/48008 [4:51:32<1:48:48,  2.17it/s] 70%|███████   | 33825/48008 [4:51:33<1:50:09,  2.15it/s] 70%|███████   | 33826/48008 [4:51:33<2:05:01,  1.89it/s] 70%|███████   | 33827/48008 [4:51:34<2:56:16,  1.34it/s] 70%|███████   | 33828/48008 [4:51:35<2:39:05,  1.49it/s] 70%|███████   | 33829/48008 [4:51:35<2:28:13,  1.59it/s] 70%|███████   | 33830/48008 [4:51:36<2:17:57,  1.71it/s] 70%|███████   | 33831/48008 [4:51:37<2:24:17,  1.64it/s] 70%|███████   | 33832/48008 [4:51:37<2:18:08,  1.71it/s] 70%|███████   | 33833/48008 [4:51:38<2:12:10,  1.79it/s] 70%|███████   | 33834/48008 [4:51:38<2:07:03,  1.86it/s] 70%|███████   | 33835/48008 [4:51:39<1:58:21,  2.00it/s] 70%|███████   | 33836/48008 [4:51:39<2:24:59,  1.63it/s] 70%|███████   | 33837/48008 [4:51:40<2:10:44,  1.81it/s] 70%|███████   | 33838/48008 [4:51:40<2:06:59,  1.86it/s] 70%|███████   | 33839/48008 [4:51:41<2:16:38,  1.73it/s] 70%|███████   | 33840/48008 [4:51:41<2:09:50,  1.82it/s] 70%|███████   | 33841/48008 [4:51:42<2:00:24,  1.96it/s] 70%|███████   | 33842/48008 [4:51:42<1:53:54,  2.07it/s] 70%|███████   | 33843/48008 [4:51:43<1:58:02,  2.00it/s] 70%|███████   | 33844/48008 [4:51:43<2:00:40,  1.96it/s] 70%|███████   | 33845/48008 [4:51:44<2:01:15,  1.95it/s] 71%|███████   | 33846/48008 [4:51:44<1:58:54,  1.99it/s] 71%|███████   | 33847/48008 [4:51:45<1:50:12,  2.14it/s] 71%|███████   | 33848/48008 [4:51:45<1:46:19,  2.22it/s] 71%|███████   | 33849/48008 [4:51:46<1:51:17,  2.12it/s] 71%|███████   | 33850/48008 [4:51:46<1:54:51,  2.05it/s]                                                         {'loss': 4.2827, 'grad_norm': 0.09427396208047867, 'learning_rate': 5.8986002332944514e-05, 'epoch': 0.71}
 71%|███████   | 33850/48008 [4:51:46<1:54:51,  2.05it/s] 71%|███████   | 33851/48008 [4:51:47<2:22:37,  1.65it/s] 71%|███████   | 33852/48008 [4:51:48<2:15:32,  1.74it/s] 71%|███████   | 33853/48008 [4:51:48<2:04:26,  1.90it/s] 71%|███████   | 33854/48008 [4:51:48<1:56:51,  2.02it/s] 71%|███████   | 33855/48008 [4:51:49<1:57:14,  2.01it/s] 71%|███████   | 33856/48008 [4:51:49<1:55:56,  2.03it/s] 71%|███████   | 33857/48008 [4:51:50<1:56:47,  2.02it/s] 71%|███████   | 33858/48008 [4:51:50<1:55:56,  2.03it/s] 71%|███████   | 33859/48008 [4:51:51<1:57:45,  2.00it/s] 71%|███████   | 33860/48008 [4:51:51<1:59:45,  1.97it/s] 71%|███████   | 33861/48008 [4:51:52<2:01:52,  1.93it/s] 71%|███████   | 33862/48008 [4:51:52<1:59:03,  1.98it/s] 71%|███████   | 33863/48008 [4:51:53<1:57:32,  2.01it/s] 71%|███████   | 33864/48008 [4:51:54<2:24:09,  1.64it/s] 71%|███████   | 33865/48008 [4:51:54<2:10:39,  1.80it/s] 71%|███████   | 33866/48008 [4:51:55<2:19:13,  1.69it/s] 71%|███████   | 33867/48008 [4:51:55<2:11:26,  1.79it/s] 71%|███████   | 33868/48008 [4:51:56<2:06:01,  1.87it/s] 71%|███████   | 33869/48008 [4:51:56<2:06:24,  1.86it/s] 71%|███████   | 33870/48008 [4:51:57<2:02:13,  1.93it/s] 71%|███████   | 33871/48008 [4:51:57<1:59:40,  1.97it/s] 71%|███████   | 33872/48008 [4:51:58<1:53:05,  2.08it/s] 71%|███████   | 33873/48008 [4:51:58<1:53:19,  2.08it/s] 71%|███████   | 33874/48008 [4:51:59<1:54:56,  2.05it/s] 71%|███████   | 33875/48008 [4:51:59<1:54:26,  2.06it/s] 71%|███████   | 33876/48008 [4:52:00<1:58:02,  2.00it/s] 71%|███████   | 33877/48008 [4:52:00<1:51:57,  2.10it/s] 71%|███████   | 33878/48008 [4:52:01<1:52:23,  2.10it/s] 71%|███████   | 33879/48008 [4:52:01<1:52:37,  2.09it/s] 71%|███████   | 33880/48008 [4:52:02<1:52:40,  2.09it/s] 71%|███████   | 33881/48008 [4:52:02<1:55:31,  2.04it/s] 71%|███████   | 33882/48008 [4:52:03<2:49:02,  1.39it/s] 71%|███████   | 33883/48008 [4:52:04<2:34:45,  1.52it/s] 71%|███████   | 33884/48008 [4:52:05<2:26:21,  1.61it/s] 71%|███████   | 33885/48008 [4:52:05<2:18:09,  1.70it/s] 71%|███████   | 33886/48008 [4:52:05<2:10:38,  1.80it/s] 71%|███████   | 33887/48008 [4:52:06<2:07:12,  1.85it/s] 71%|███████   | 33888/48008 [4:52:07<2:05:39,  1.87it/s] 71%|███████   | 33889/48008 [4:52:07<2:03:40,  1.90it/s] 71%|███████   | 33890/48008 [4:52:08<2:00:35,  1.95it/s] 71%|███████   | 33891/48008 [4:52:08<2:00:00,  1.96it/s] 71%|███████   | 33892/48008 [4:52:09<1:59:33,  1.97it/s] 71%|███████   | 33893/48008 [4:52:09<1:57:32,  2.00it/s] 71%|███████   | 33894/48008 [4:52:09<1:57:38,  2.00it/s] 71%|███████   | 33895/48008 [4:52:10<2:00:27,  1.95it/s] 71%|███████   | 33896/48008 [4:52:11<2:00:02,  1.96it/s] 71%|███████   | 33897/48008 [4:52:11<2:00:24,  1.95it/s] 71%|███████   | 33898/48008 [4:52:12<1:58:15,  1.99it/s] 71%|███████   | 33899/48008 [4:52:12<2:24:40,  1.63it/s] 71%|███████   | 33900/48008 [4:52:13<2:10:56,  1.80it/s]                                                         {'loss': 4.3061, 'grad_norm': 0.1045113205909729, 'learning_rate': 5.8777703716047325e-05, 'epoch': 0.71}
 71%|███████   | 33900/48008 [4:52:13<2:10:56,  1.80it/s] 71%|███████   | 33901/48008 [4:52:13<2:08:30,  1.83it/s] 71%|███████   | 33902/48008 [4:52:14<2:08:03,  1.84it/s] 71%|███████   | 33903/48008 [4:52:14<2:03:26,  1.90it/s] 71%|███████   | 33904/48008 [4:52:15<1:55:27,  2.04it/s] 71%|███████   | 33905/48008 [4:52:16<2:49:04,  1.39it/s] 71%|███████   | 33906/48008 [4:52:17<2:34:02,  1.53it/s] 71%|███████   | 33907/48008 [4:52:17<2:23:27,  1.64it/s] 71%|███████   | 33908/48008 [4:52:18<2:14:17,  1.75it/s] 71%|███████   | 33909/48008 [4:52:19<3:02:26,  1.29it/s] 71%|███████   | 33910/48008 [4:52:19<2:41:40,  1.45it/s] 71%|███████   | 33911/48008 [4:52:20<2:28:54,  1.58it/s] 71%|███████   | 33912/48008 [4:52:20<2:18:10,  1.70it/s] 71%|███████   | 33913/48008 [4:52:21<2:03:47,  1.90it/s] 71%|███████   | 33914/48008 [4:52:21<2:00:28,  1.95it/s] 71%|███████   | 33915/48008 [4:52:22<1:59:49,  1.96it/s] 71%|███████   | 33916/48008 [4:52:22<1:53:05,  2.08it/s] 71%|███████   | 33917/48008 [4:52:23<1:54:55,  2.04it/s] 71%|███████   | 33918/48008 [4:52:23<1:49:44,  2.14it/s] 71%|███████   | 33919/48008 [4:52:23<1:46:03,  2.21it/s] 71%|███████   | 33920/48008 [4:52:24<1:52:10,  2.09it/s] 71%|███████   | 33921/48008 [4:52:24<1:55:02,  2.04it/s] 71%|███████   | 33922/48008 [4:52:26<2:35:31,  1.51it/s] 71%|███████   | 33923/48008 [4:52:26<2:22:43,  1.64it/s] 71%|███████   | 33924/48008 [4:52:26<2:09:23,  1.81it/s] 71%|███████   | 33925/48008 [4:52:27<1:59:59,  1.96it/s] 71%|███████   | 33926/48008 [4:52:27<1:59:10,  1.97it/s] 71%|███████   | 33927/48008 [4:52:28<1:58:35,  1.98it/s] 71%|███████   | 33928/48008 [4:52:28<1:58:43,  1.98it/s] 71%|███████   | 33929/48008 [4:52:29<1:56:52,  2.01it/s] 71%|███████   | 33930/48008 [4:52:29<1:55:21,  2.03it/s] 71%|███████   | 33931/48008 [4:52:30<1:55:00,  2.04it/s] 71%|███████   | 33932/48008 [4:52:30<1:50:14,  2.13it/s] 71%|███████   | 33933/48008 [4:52:31<2:19:35,  1.68it/s] 71%|███████   | 33934/48008 [4:52:32<2:11:29,  1.78it/s] 71%|███████   | 33935/48008 [4:52:32<2:07:30,  1.84it/s] 71%|███████   | 33936/48008 [4:52:33<2:05:39,  1.87it/s] 71%|███████   | 33937/48008 [4:52:33<2:03:24,  1.90it/s] 71%|███████   | 33938/48008 [4:52:34<2:04:18,  1.89it/s] 71%|███████   | 33939/48008 [4:52:34<2:02:29,  1.91it/s] 71%|███████   | 33940/48008 [4:52:35<1:54:48,  2.04it/s] 71%|███████   | 33941/48008 [4:52:35<1:54:35,  2.05it/s] 71%|███████   | 33942/48008 [4:52:36<1:54:12,  2.05it/s] 71%|███████   | 33943/48008 [4:52:36<1:49:11,  2.15it/s] 71%|███████   | 33944/48008 [4:52:36<1:50:19,  2.12it/s] 71%|███████   | 33945/48008 [4:52:37<1:53:03,  2.07it/s] 71%|███████   | 33946/48008 [4:52:37<1:52:58,  2.07it/s] 71%|███████   | 33947/48008 [4:52:38<1:52:43,  2.08it/s] 71%|███████   | 33948/48008 [4:52:38<1:52:40,  2.08it/s] 71%|███████   | 33949/48008 [4:52:39<1:56:46,  2.01it/s] 71%|███████   | 33950/48008 [4:52:39<1:55:16,  2.03it/s]                                                         {'loss': 4.2353, 'grad_norm': 0.1058223620057106, 'learning_rate': 5.856940509915014e-05, 'epoch': 0.71}
 71%|███████   | 33950/48008 [4:52:39<1:55:16,  2.03it/s] 71%|███████   | 33951/48008 [4:52:40<1:56:19,  2.01it/s] 71%|███████   | 33952/48008 [4:52:40<1:59:19,  1.96it/s] 71%|███████   | 33953/48008 [4:52:41<1:53:07,  2.07it/s] 71%|███████   | 33954/48008 [4:52:41<1:54:48,  2.04it/s] 71%|███████   | 33955/48008 [4:52:42<1:54:17,  2.05it/s] 71%|███████   | 33956/48008 [4:52:42<1:49:21,  2.14it/s] 71%|███████   | 33957/48008 [4:52:43<1:52:26,  2.08it/s] 71%|███████   | 33958/48008 [4:52:43<1:52:33,  2.08it/s] 71%|███████   | 33959/48008 [4:52:44<1:52:25,  2.08it/s] 71%|███████   | 33960/48008 [4:52:44<1:52:09,  2.09it/s] 71%|███████   | 33961/48008 [4:52:45<1:52:20,  2.08it/s] 71%|███████   | 33962/48008 [4:52:45<1:52:25,  2.08it/s] 71%|███████   | 33963/48008 [4:52:46<1:47:47,  2.17it/s] 71%|███████   | 33964/48008 [4:52:46<1:48:58,  2.15it/s] 71%|███████   | 33965/48008 [4:52:47<1:50:12,  2.12it/s] 71%|███████   | 33966/48008 [4:52:47<1:52:39,  2.08it/s] 71%|███████   | 33967/48008 [4:52:48<1:56:34,  2.01it/s] 71%|███████   | 33968/48008 [4:52:48<1:55:15,  2.03it/s] 71%|███████   | 33969/48008 [4:52:49<1:54:27,  2.04it/s] 71%|███████   | 33970/48008 [4:52:49<1:53:54,  2.05it/s] 71%|███████   | 33971/48008 [4:52:50<1:55:10,  2.03it/s] 71%|███████   | 33972/48008 [4:52:50<1:50:02,  2.13it/s] 71%|███████   | 33973/48008 [4:52:50<1:52:41,  2.08it/s] 71%|███████   | 33974/48008 [4:52:51<1:45:48,  2.21it/s] 71%|███████   | 33975/48008 [4:52:51<1:49:40,  2.13it/s] 71%|███████   | 33976/48008 [4:52:52<1:52:48,  2.07it/s] 71%|███████   | 33977/48008 [4:52:52<1:54:09,  2.05it/s] 71%|███████   | 33978/48008 [4:52:53<1:53:20,  2.06it/s] 71%|███████   | 33979/48008 [4:52:53<1:53:21,  2.06it/s] 71%|███████   | 33980/48008 [4:52:54<1:53:14,  2.06it/s] 71%|███████   | 33981/48008 [4:52:54<1:55:43,  2.02it/s] 71%|███████   | 33982/48008 [4:52:55<1:50:05,  2.12it/s] 71%|███████   | 33983/48008 [4:52:55<1:50:43,  2.11it/s] 71%|███████   | 33984/48008 [4:52:56<1:46:19,  2.20it/s] 71%|███████   | 33985/48008 [4:52:56<1:48:00,  2.16it/s] 71%|███████   | 33986/48008 [4:52:57<1:49:25,  2.14it/s] 71%|███████   | 33987/48008 [4:52:57<1:52:08,  2.08it/s] 71%|███████   | 33988/48008 [4:52:58<1:52:19,  2.08it/s] 71%|███████   | 33989/48008 [4:52:58<1:52:31,  2.08it/s] 71%|███████   | 33990/48008 [4:52:59<1:52:32,  2.08it/s] 71%|███████   | 33991/48008 [4:52:59<1:54:30,  2.04it/s] 71%|███████   | 33992/48008 [4:53:00<1:53:35,  2.06it/s] 71%|███████   | 33993/48008 [4:53:00<1:54:49,  2.03it/s] 71%|███████   | 33994/48008 [4:53:01<2:48:07,  1.39it/s] 71%|███████   | 33995/48008 [4:53:02<2:31:09,  1.55it/s] 71%|███████   | 33996/48008 [4:53:02<2:21:22,  1.65it/s] 71%|███████   | 33997/48008 [4:53:03<2:14:22,  1.74it/s] 71%|███████   | 33998/48008 [4:53:03<2:07:38,  1.83it/s] 71%|███████   | 33999/48008 [4:53:04<2:16:34,  1.71it/s] 71%|███████   | 34000/48008 [4:53:04<2:11:07,  1.78it/s]                                                         {'loss': 4.1993, 'grad_norm': 0.14674589037895203, 'learning_rate': 5.836110648225296e-05, 'epoch': 0.71}
 71%|███████   | 34000/48008 [4:53:04<2:11:07,  1.78it/s] 71%|███████   | 34001/48008 [4:53:05<2:07:08,  1.84it/s] 71%|███████   | 34002/48008 [4:53:05<2:03:00,  1.90it/s] 71%|███████   | 34003/48008 [4:53:06<2:02:39,  1.90it/s] 71%|███████   | 34004/48008 [4:53:06<1:59:30,  1.95it/s] 71%|███████   | 34005/48008 [4:53:07<1:57:35,  1.98it/s] 71%|███████   | 34006/48008 [4:53:07<1:58:26,  1.97it/s] 71%|███████   | 34007/48008 [4:53:08<1:56:22,  2.01it/s] 71%|███████   | 34008/48008 [4:53:08<1:57:48,  1.98it/s] 71%|███████   | 34009/48008 [4:53:09<1:51:25,  2.09it/s] 71%|███████   | 34010/48008 [4:53:09<1:51:43,  2.09it/s] 71%|███████   | 34011/48008 [4:53:10<1:51:39,  2.09it/s] 71%|███████   | 34012/48008 [4:53:10<1:51:43,  2.09it/s] 71%|███████   | 34013/48008 [4:53:11<1:47:15,  2.17it/s] 71%|███████   | 34014/48008 [4:53:11<1:48:45,  2.14it/s] 71%|███████   | 34015/48008 [4:53:12<1:49:46,  2.12it/s] 71%|███████   | 34016/48008 [4:53:12<1:45:53,  2.20it/s] 71%|███████   | 34017/48008 [4:53:13<1:47:56,  2.16it/s] 71%|███████   | 34018/48008 [4:53:13<1:49:08,  2.14it/s] 71%|███████   | 34019/48008 [4:53:14<1:49:52,  2.12it/s] 71%|███████   | 34020/48008 [4:53:14<1:50:23,  2.11it/s] 71%|███████   | 34021/48008 [4:53:14<1:46:21,  2.19it/s] 71%|███████   | 34022/48008 [4:53:15<1:48:16,  2.15it/s] 71%|███████   | 34023/48008 [4:53:15<1:44:34,  2.23it/s] 71%|███████   | 34024/48008 [4:53:16<1:46:54,  2.18it/s] 71%|███████   | 34025/48008 [4:53:16<1:43:45,  2.25it/s] 71%|███████   | 34026/48008 [4:53:17<1:47:41,  2.16it/s] 71%|███████   | 34027/48008 [4:53:17<1:49:14,  2.13it/s] 71%|███████   | 34028/48008 [4:53:18<1:49:55,  2.12it/s] 71%|███████   | 34029/48008 [4:53:18<1:54:27,  2.04it/s] 71%|███████   | 34030/48008 [4:53:19<1:49:01,  2.14it/s] 71%|███████   | 34031/48008 [4:53:19<1:52:03,  2.08it/s] 71%|███████   | 34032/48008 [4:53:20<1:47:20,  2.17it/s] 71%|███████   | 34033/48008 [4:53:20<2:02:30,  1.90it/s] 71%|███████   | 34034/48008 [4:53:21<2:03:28,  1.89it/s] 71%|███████   | 34035/48008 [4:53:21<1:55:30,  2.02it/s] 71%|███████   | 34036/48008 [4:53:22<1:49:59,  2.12it/s] 71%|███████   | 34037/48008 [4:53:22<1:50:39,  2.10it/s] 71%|███████   | 34038/48008 [4:53:23<1:51:15,  2.09it/s] 71%|███████   | 34039/48008 [4:53:23<1:53:28,  2.05it/s] 71%|███████   | 34040/48008 [4:53:24<1:54:29,  2.03it/s] 71%|███████   | 34041/48008 [4:53:24<1:53:30,  2.05it/s] 71%|███████   | 34042/48008 [4:53:25<1:54:25,  2.03it/s] 71%|███████   | 34043/48008 [4:53:25<1:53:42,  2.05it/s] 71%|███████   | 34044/48008 [4:53:26<1:53:12,  2.06it/s] 71%|███████   | 34045/48008 [4:53:26<1:54:38,  2.03it/s] 71%|███████   | 34046/48008 [4:53:27<1:56:42,  1.99it/s] 71%|███████   | 34047/48008 [4:53:27<1:59:34,  1.95it/s] 71%|███████   | 34048/48008 [4:53:28<1:57:15,  1.98it/s] 71%|███████   | 34049/48008 [4:53:28<1:55:41,  2.01it/s] 71%|███████   | 34050/48008 [4:53:29<1:56:17,  2.00it/s]                                                         {'loss': 4.2166, 'grad_norm': 0.18872427940368652, 'learning_rate': 5.815280786535578e-05, 'epoch': 0.71}
 71%|███████   | 34050/48008 [4:53:29<1:56:17,  2.00it/s] 71%|███████   | 34051/48008 [4:53:29<1:54:54,  2.02it/s] 71%|███████   | 34052/48008 [4:53:30<1:56:48,  1.99it/s] 71%|███████   | 34053/48008 [4:53:30<1:58:09,  1.97it/s] 71%|███████   | 34054/48008 [4:53:31<1:57:51,  1.97it/s] 71%|███████   | 34055/48008 [4:53:31<1:56:04,  2.00it/s] 71%|███████   | 34056/48008 [4:53:32<1:57:33,  1.98it/s] 71%|███████   | 34057/48008 [4:53:32<1:51:09,  2.09it/s] 71%|███████   | 34058/48008 [4:53:33<1:54:04,  2.04it/s] 71%|███████   | 34059/48008 [4:53:33<1:54:52,  2.02it/s] 71%|███████   | 34060/48008 [4:53:34<1:53:56,  2.04it/s] 71%|███████   | 34061/48008 [4:53:34<1:56:09,  2.00it/s] 71%|███████   | 34062/48008 [4:53:35<2:56:40,  1.32it/s] 71%|███████   | 34063/48008 [4:53:36<2:38:48,  1.46it/s] 71%|███████   | 34064/48008 [4:53:37<3:18:38,  1.17it/s] 71%|███████   | 34065/48008 [4:53:38<2:52:28,  1.35it/s] 71%|███████   | 34066/48008 [4:53:38<2:47:42,  1.39it/s] 71%|███████   | 34067/48008 [4:53:39<2:30:52,  1.54it/s] 71%|███████   | 34068/48008 [4:53:40<3:25:00,  1.13it/s] 71%|███████   | 34069/48008 [4:53:41<2:58:28,  1.30it/s] 71%|███████   | 34070/48008 [4:53:41<2:38:23,  1.47it/s] 71%|███████   | 34071/48008 [4:53:42<2:26:15,  1.59it/s] 71%|███████   | 34072/48008 [4:53:42<2:16:04,  1.71it/s] 71%|███████   | 34073/48008 [4:53:43<2:08:44,  1.80it/s] 71%|███████   | 34074/48008 [4:53:44<2:44:07,  1.41it/s] 71%|███████   | 34075/48008 [4:53:44<2:29:56,  1.55it/s] 71%|███████   | 34076/48008 [4:53:45<2:21:23,  1.64it/s] 71%|███████   | 34077/48008 [4:53:45<2:12:44,  1.75it/s] 71%|███████   | 34078/48008 [4:53:46<2:06:17,  1.84it/s] 71%|███████   | 34079/48008 [4:53:46<2:01:51,  1.90it/s] 71%|███████   | 34080/48008 [4:53:47<2:54:09,  1.33it/s] 71%|███████   | 34081/48008 [4:53:48<2:35:36,  1.49it/s] 71%|███████   | 34082/48008 [4:53:48<2:22:34,  1.63it/s] 71%|███████   | 34083/48008 [4:53:49<2:15:06,  1.72it/s] 71%|███████   | 34084/48008 [4:53:49<2:11:05,  1.77it/s] 71%|███████   | 34085/48008 [4:53:50<2:05:16,  1.85it/s] 71%|███████   | 34086/48008 [4:53:50<1:56:44,  1.99it/s] 71%|███████   | 34087/48008 [4:53:51<1:50:38,  2.10it/s] 71%|███████   | 34088/48008 [4:53:51<1:55:13,  2.01it/s] 71%|███████   | 34089/48008 [4:53:52<1:54:20,  2.03it/s] 71%|███████   | 34090/48008 [4:53:52<1:57:43,  1.97it/s] 71%|███████   | 34091/48008 [4:53:53<1:57:21,  1.98it/s] 71%|███████   | 34092/48008 [4:53:53<1:55:40,  2.01it/s] 71%|███████   | 34093/48008 [4:53:54<1:58:25,  1.96it/s] 71%|███████   | 34094/48008 [4:53:54<1:56:30,  1.99it/s] 71%|███████   | 34095/48008 [4:53:55<1:57:57,  1.97it/s] 71%|███████   | 34096/48008 [4:53:55<1:59:02,  1.95it/s] 71%|███████   | 34097/48008 [4:53:56<1:56:54,  1.98it/s] 71%|███████   | 34098/48008 [4:53:56<1:57:40,  1.97it/s] 71%|███████   | 34099/48008 [4:53:57<1:58:33,  1.96it/s] 71%|███████   | 34100/48008 [4:53:57<1:58:08,  1.96it/s]                                                         {'loss': 4.2905, 'grad_norm': 0.3353482484817505, 'learning_rate': 5.794450924845859e-05, 'epoch': 0.71}
 71%|███████   | 34100/48008 [4:53:57<1:58:08,  1.96it/s] 71%|███████   | 34101/48008 [4:53:58<1:58:57,  1.95it/s] 71%|███████   | 34102/48008 [4:53:58<1:56:50,  1.98it/s] 71%|███████   | 34103/48008 [4:53:59<1:55:27,  2.01it/s] 71%|███████   | 34104/48008 [4:53:59<1:55:57,  2.00it/s] 71%|███████   | 34105/48008 [4:54:00<1:54:47,  2.02it/s] 71%|███████   | 34106/48008 [4:54:00<1:53:38,  2.04it/s] 71%|███████   | 34107/48008 [4:54:01<1:56:52,  1.98it/s] 71%|███████   | 34108/48008 [4:54:01<1:55:30,  2.01it/s] 71%|███████   | 34109/48008 [4:54:02<1:55:44,  2.00it/s] 71%|███████   | 34110/48008 [4:54:02<1:57:20,  1.97it/s] 71%|███████   | 34111/48008 [4:54:03<1:55:32,  2.00it/s] 71%|███████   | 34112/48008 [4:54:03<1:56:58,  1.98it/s] 71%|███████   | 34113/48008 [4:54:04<1:57:17,  1.97it/s] 71%|███████   | 34114/48008 [4:54:05<1:59:46,  1.93it/s] 71%|███████   | 34115/48008 [4:54:05<1:52:36,  2.06it/s] 71%|███████   | 34116/48008 [4:54:05<1:53:47,  2.03it/s] 71%|███████   | 34117/48008 [4:54:06<1:53:11,  2.05it/s] 71%|███████   | 34118/48008 [4:54:06<1:52:30,  2.06it/s] 71%|███████   | 34119/48008 [4:54:07<1:52:02,  2.07it/s] 71%|███████   | 34120/48008 [4:54:07<1:53:23,  2.04it/s] 71%|███████   | 34121/48008 [4:54:08<1:52:58,  2.05it/s] 71%|███████   | 34122/48008 [4:54:08<1:48:14,  2.14it/s] 71%|███████   | 34123/48008 [4:54:09<1:51:05,  2.08it/s] 71%|███████   | 34124/48008 [4:54:09<1:53:44,  2.03it/s] 71%|███████   | 34125/48008 [4:54:10<1:55:43,  2.00it/s] 71%|███████   | 34126/48008 [4:54:10<1:54:34,  2.02it/s] 71%|███████   | 34127/48008 [4:54:11<1:55:09,  2.01it/s] 71%|███████   | 34128/48008 [4:54:11<1:49:17,  2.12it/s] 71%|███████   | 34129/48008 [4:54:12<1:49:39,  2.11it/s] 71%|███████   | 34130/48008 [4:54:12<1:51:45,  2.07it/s] 71%|███████   | 34131/48008 [4:54:13<1:51:27,  2.07it/s] 71%|███████   | 34132/48008 [4:54:13<1:52:50,  2.05it/s] 71%|███████   | 34133/48008 [4:54:14<1:47:33,  2.15it/s] 71%|███████   | 34134/48008 [4:54:14<1:50:18,  2.10it/s] 71%|███████   | 34135/48008 [4:54:15<1:54:27,  2.02it/s] 71%|███████   | 34136/48008 [4:54:15<1:55:25,  2.00it/s] 71%|███████   | 34137/48008 [4:54:16<1:54:14,  2.02it/s] 71%|███████   | 34138/48008 [4:54:16<1:55:55,  1.99it/s] 71%|███████   | 34139/48008 [4:54:17<1:56:25,  1.99it/s] 71%|███████   | 34140/48008 [4:54:17<1:50:15,  2.10it/s] 71%|███████   | 34141/48008 [4:54:18<1:52:16,  2.06it/s] 71%|███████   | 34142/48008 [4:54:18<1:47:16,  2.15it/s] 71%|███████   | 34143/48008 [4:54:18<1:50:03,  2.10it/s] 71%|███████   | 34144/48008 [4:54:19<1:50:16,  2.10it/s] 71%|███████   | 34145/48008 [4:54:19<1:50:41,  2.09it/s] 71%|███████   | 34146/48008 [4:54:20<1:50:58,  2.08it/s] 71%|███████   | 34147/48008 [4:54:20<1:46:13,  2.17it/s] 71%|███████   | 34148/48008 [4:54:21<1:47:31,  2.15it/s] 71%|███████   | 34149/48008 [4:54:21<1:48:47,  2.12it/s] 71%|███████   | 34150/48008 [4:54:22<1:49:30,  2.11it/s]                                                         {'loss': 4.2551, 'grad_norm': 0.17192897200584412, 'learning_rate': 5.7736210631561405e-05, 'epoch': 0.71} 71%|███████   | 34150/48008 [4:54:22<1:49:30,  2.11it/s]
 71%|███████   | 34151/48008 [4:54:22<1:49:45,  2.10it/s] 71%|███████   | 34152/48008 [4:54:23<1:51:40,  2.07it/s] 71%|███████   | 34153/48008 [4:54:23<1:52:53,  2.05it/s] 71%|███████   | 34154/48008 [4:54:24<1:52:05,  2.06it/s] 71%|███████   | 34155/48008 [4:54:24<1:47:19,  2.15it/s] 71%|███████   | 34156/48008 [4:54:25<1:52:24,  2.05it/s] 71%|███████   | 34157/48008 [4:54:25<1:51:55,  2.06it/s] 71%|███████   | 34158/48008 [4:54:26<1:51:36,  2.07it/s] 71%|███████   | 34159/48008 [4:54:26<1:55:33,  2.00it/s] 71%|███████   | 34160/48008 [4:54:27<2:21:22,  1.63it/s] 71%|███████   | 34161/48008 [4:54:28<2:15:06,  1.71it/s] 71%|███████   | 34162/48008 [4:54:28<2:09:47,  1.78it/s] 71%|███████   | 34163/48008 [4:54:29<2:06:35,  1.82it/s] 71%|███████   | 34164/48008 [4:54:29<2:02:07,  1.89it/s] 71%|███████   | 34165/48008 [4:54:30<1:58:33,  1.95it/s] 71%|███████   | 34166/48008 [4:54:30<1:57:35,  1.96it/s] 71%|███████   | 34167/48008 [4:54:31<1:51:18,  2.07it/s] 71%|███████   | 34168/48008 [4:54:31<2:18:39,  1.66it/s] 71%|███████   | 34169/48008 [4:54:32<2:09:57,  1.77it/s] 71%|███████   | 34170/48008 [4:54:33<2:57:41,  1.30it/s] 71%|███████   | 34171/48008 [4:54:34<2:39:36,  1.44it/s] 71%|███████   | 34172/48008 [4:54:34<2:26:47,  1.57it/s] 71%|███████   | 34173/48008 [4:54:35<2:16:17,  1.69it/s] 71%|███████   | 34174/48008 [4:54:35<2:09:58,  1.77it/s] 71%|███████   | 34175/48008 [4:54:36<2:08:27,  1.79it/s] 71%|███████   | 34176/48008 [4:54:36<2:05:08,  1.84it/s] 71%|███████   | 34177/48008 [4:54:37<1:56:29,  1.98it/s] 71%|███████   | 34178/48008 [4:54:37<1:50:07,  2.09it/s] 71%|███████   | 34179/48008 [4:54:37<1:50:22,  2.09it/s] 71%|███████   | 34180/48008 [4:54:38<1:52:12,  2.05it/s] 71%|███████   | 34181/48008 [4:54:38<1:53:20,  2.03it/s] 71%|███████   | 34182/48008 [4:54:39<1:52:40,  2.05it/s] 71%|███████   | 34183/48008 [4:54:39<1:45:13,  2.19it/s] 71%|███████   | 34184/48008 [4:54:40<1:47:06,  2.15it/s] 71%|███████   | 34185/48008 [4:54:40<1:49:57,  2.10it/s] 71%|███████   | 34186/48008 [4:54:41<1:50:12,  2.09it/s] 71%|███████   | 34187/48008 [4:54:41<1:50:28,  2.09it/s] 71%|███████   | 34188/48008 [4:54:42<1:50:40,  2.08it/s] 71%|███████   | 34189/48008 [4:54:42<1:46:19,  2.17it/s] 71%|███████   | 34190/48008 [4:54:43<1:47:47,  2.14it/s] 71%|███████   | 34191/48008 [4:54:43<1:48:32,  2.12it/s] 71%|███████   | 34192/48008 [4:54:44<1:44:23,  2.21it/s] 71%|███████   | 34193/48008 [4:54:44<1:46:33,  2.16it/s] 71%|███████   | 34194/48008 [4:54:45<1:48:03,  2.13it/s] 71%|███████   | 34195/48008 [4:54:45<1:52:55,  2.04it/s] 71%|███████   | 34196/48008 [4:54:46<1:52:08,  2.05it/s] 71%|███████   | 34197/48008 [4:54:46<2:04:47,  1.84it/s] 71%|███████   | 34198/48008 [4:54:47<2:00:11,  1.91it/s] 71%|███████   | 34199/48008 [4:54:47<2:00:08,  1.92it/s] 71%|███████   | 34200/48008 [4:54:48<1:52:51,  2.04it/s]                                                         {'loss': 4.2484, 'grad_norm': 0.16839541494846344, 'learning_rate': 5.752791201466422e-05, 'epoch': 0.71}
 71%|███████   | 34200/48008 [4:54:48<1:52:51,  2.04it/s] 71%|███████   | 34201/48008 [4:54:48<1:51:57,  2.06it/s] 71%|███████   | 34202/48008 [4:54:49<1:53:23,  2.03it/s] 71%|███████   | 34203/48008 [4:54:49<1:47:43,  2.14it/s] 71%|███████   | 34204/48008 [4:54:50<1:48:45,  2.12it/s] 71%|███████   | 34205/48008 [4:54:50<1:44:48,  2.20it/s] 71%|███████▏  | 34206/48008 [4:54:50<1:46:46,  2.15it/s] 71%|███████▏  | 34207/48008 [4:54:51<1:47:56,  2.13it/s] 71%|███████▏  | 34208/48008 [4:54:51<1:44:18,  2.21it/s] 71%|███████▏  | 34209/48008 [4:54:52<1:41:51,  2.26it/s] 71%|███████▏  | 34210/48008 [4:54:52<1:44:40,  2.20it/s] 71%|███████▏  | 34211/48008 [4:54:53<1:41:59,  2.25it/s] 71%|███████▏  | 34212/48008 [4:54:53<1:44:49,  2.19it/s] 71%|███████▏  | 34213/48008 [4:54:54<1:46:46,  2.15it/s] 71%|███████▏  | 34214/48008 [4:54:54<2:01:41,  1.89it/s] 71%|███████▏  | 34215/48008 [4:54:55<1:58:33,  1.94it/s] 71%|███████▏  | 34216/48008 [4:54:55<1:56:16,  1.98it/s] 71%|███████▏  | 34217/48008 [4:54:56<1:54:35,  2.01it/s] 71%|███████▏  | 34218/48008 [4:54:56<1:53:17,  2.03it/s] 71%|███████▏  | 34219/48008 [4:54:57<1:52:37,  2.04it/s] 71%|███████▏  | 34220/48008 [4:54:57<1:52:06,  2.05it/s] 71%|███████▏  | 34221/48008 [4:54:58<1:51:42,  2.06it/s] 71%|███████▏  | 34222/48008 [4:54:58<1:51:15,  2.07it/s] 71%|███████▏  | 34223/48008 [4:54:59<1:51:00,  2.07it/s] 71%|███████▏  | 34224/48008 [4:54:59<1:46:21,  2.16it/s] 71%|███████▏  | 34225/48008 [4:55:00<2:15:01,  1.70it/s] 71%|███████▏  | 34226/48008 [4:55:00<2:02:58,  1.87it/s] 71%|███████▏  | 34227/48008 [4:55:01<2:01:13,  1.89it/s] 71%|███████▏  | 34228/48008 [4:55:01<1:58:17,  1.94it/s] 71%|███████▏  | 34229/48008 [4:55:03<2:49:13,  1.36it/s] 71%|███████▏  | 34230/48008 [4:55:03<2:32:58,  1.50it/s] 71%|███████▏  | 34231/48008 [4:55:04<2:20:17,  1.64it/s] 71%|███████▏  | 34232/48008 [4:55:04<2:15:33,  1.69it/s] 71%|███████▏  | 34233/48008 [4:55:05<2:03:25,  1.86it/s] 71%|███████▏  | 34234/48008 [4:55:05<1:59:32,  1.92it/s] 71%|███████▏  | 34235/48008 [4:55:06<1:58:18,  1.94it/s] 71%|███████▏  | 34236/48008 [4:55:06<2:23:29,  1.60it/s] 71%|███████▏  | 34237/48008 [4:55:07<2:15:19,  1.70it/s] 71%|███████▏  | 34238/48008 [4:55:07<2:07:50,  1.80it/s] 71%|███████▏  | 34239/48008 [4:55:08<2:04:17,  1.85it/s] 71%|███████▏  | 34240/48008 [4:55:08<2:01:51,  1.88it/s] 71%|███████▏  | 34241/48008 [4:55:09<2:01:11,  1.89it/s] 71%|███████▏  | 34242/48008 [4:55:09<1:57:48,  1.95it/s] 71%|███████▏  | 34243/48008 [4:55:10<2:23:12,  1.60it/s] 71%|███████▏  | 34244/48008 [4:55:11<2:14:53,  1.70it/s] 71%|███████▏  | 34245/48008 [4:55:11<2:09:26,  1.77it/s] 71%|███████▏  | 34246/48008 [4:55:12<2:06:30,  1.81it/s] 71%|███████▏  | 34247/48008 [4:55:12<2:01:49,  1.88it/s] 71%|███████▏  | 34248/48008 [4:55:13<2:00:09,  1.91it/s] 71%|███████▏  | 34249/48008 [4:55:13<1:52:24,  2.04it/s] 71%|███████▏  | 34250/48008 [4:55:14<1:53:27,  2.02it/s]                                                         {'loss': 4.2264, 'grad_norm': 0.11643790453672409, 'learning_rate': 5.7319613397767046e-05, 'epoch': 0.71}
 71%|███████▏  | 34250/48008 [4:55:14<1:53:27,  2.02it/s] 71%|███████▏  | 34251/48008 [4:55:14<1:52:27,  2.04it/s] 71%|███████▏  | 34252/48008 [4:55:15<2:44:54,  1.39it/s] 71%|███████▏  | 34253/48008 [4:55:16<2:30:03,  1.53it/s] 71%|███████▏  | 34254/48008 [4:55:16<2:13:36,  1.72it/s] 71%|███████▏  | 34255/48008 [4:55:17<2:08:19,  1.79it/s] 71%|███████▏  | 34256/48008 [4:55:17<2:06:37,  1.81it/s] 71%|███████▏  | 34257/48008 [4:55:18<2:03:43,  1.85it/s] 71%|███████▏  | 34258/48008 [4:55:18<1:59:57,  1.91it/s] 71%|███████▏  | 34259/48008 [4:55:19<1:57:00,  1.96it/s] 71%|███████▏  | 34260/48008 [4:55:20<2:21:56,  1.61it/s] 71%|███████▏  | 34261/48008 [4:55:20<2:12:37,  1.73it/s] 71%|███████▏  | 34262/48008 [4:55:21<2:33:01,  1.50it/s] 71%|███████▏  | 34263/48008 [4:55:22<2:20:14,  1.63it/s] 71%|███████▏  | 34264/48008 [4:55:22<2:06:50,  1.81it/s] 71%|███████▏  | 34265/48008 [4:55:23<2:04:33,  1.84it/s] 71%|███████▏  | 34266/48008 [4:55:23<2:01:40,  1.88it/s] 71%|███████▏  | 34267/48008 [4:55:24<1:57:55,  1.94it/s] 71%|███████▏  | 34268/48008 [4:55:24<1:55:11,  1.99it/s] 71%|███████▏  | 34269/48008 [4:55:25<1:56:07,  1.97it/s] 71%|███████▏  | 34270/48008 [4:55:25<1:54:32,  2.00it/s] 71%|███████▏  | 34271/48008 [4:55:25<1:48:53,  2.10it/s] 71%|███████▏  | 34272/48008 [4:55:26<1:44:48,  2.18it/s] 71%|███████▏  | 34273/48008 [4:55:27<2:39:09,  1.44it/s] 71%|███████▏  | 34274/48008 [4:55:28<2:24:43,  1.58it/s] 71%|███████▏  | 34275/48008 [4:55:28<2:16:10,  1.68it/s] 71%|███████▏  | 34276/48008 [4:55:29<2:08:09,  1.79it/s] 71%|███████▏  | 34277/48008 [4:55:29<2:02:36,  1.87it/s] 71%|███████▏  | 34278/48008 [4:55:30<2:00:04,  1.91it/s] 71%|███████▏  | 34279/48008 [4:55:30<1:56:53,  1.96it/s] 71%|███████▏  | 34280/48008 [4:55:31<1:56:34,  1.96it/s] 71%|███████▏  | 34281/48008 [4:55:31<1:59:06,  1.92it/s] 71%|███████▏  | 34282/48008 [4:55:32<2:10:06,  1.76it/s] 71%|███████▏  | 34283/48008 [4:55:32<2:06:34,  1.81it/s] 71%|███████▏  | 34284/48008 [4:55:33<2:01:19,  1.89it/s] 71%|███████▏  | 34285/48008 [4:55:33<2:01:00,  1.89it/s] 71%|███████▏  | 34286/48008 [4:55:34<1:57:59,  1.94it/s] 71%|███████▏  | 34287/48008 [4:55:34<1:55:48,  1.97it/s] 71%|███████▏  | 34288/48008 [4:55:35<1:57:57,  1.94it/s] 71%|███████▏  | 34289/48008 [4:55:35<1:58:22,  1.93it/s] 71%|███████▏  | 34290/48008 [4:55:36<1:51:31,  2.05it/s] 71%|███████▏  | 34291/48008 [4:55:36<1:46:42,  2.14it/s] 71%|███████▏  | 34292/48008 [4:55:37<1:51:24,  2.05it/s] 71%|███████▏  | 34293/48008 [4:55:37<1:52:41,  2.03it/s] 71%|███████▏  | 34294/48008 [4:55:38<1:52:08,  2.04it/s] 71%|███████▏  | 34295/48008 [4:55:38<1:55:21,  1.98it/s] 71%|███████▏  | 34296/48008 [4:55:39<1:56:07,  1.97it/s] 71%|███████▏  | 34297/48008 [4:55:39<1:50:11,  2.07it/s] 71%|███████▏  | 34298/48008 [4:55:40<1:45:47,  2.16it/s] 71%|███████▏  | 34299/48008 [4:55:40<1:47:11,  2.13it/s] 71%|███████▏  | 34300/48008 [4:55:41<1:51:05,  2.06it/s]                                                         {'loss': 4.2565, 'grad_norm': 0.14870651066303253, 'learning_rate': 5.7111314780869864e-05, 'epoch': 0.71}
 71%|███████▏  | 34300/48008 [4:55:41<1:51:05,  2.06it/s] 71%|███████▏  | 34301/48008 [4:55:41<1:50:59,  2.06it/s] 71%|███████▏  | 34302/48008 [4:55:42<1:51:03,  2.06it/s] 71%|███████▏  | 34303/48008 [4:55:42<1:50:18,  2.07it/s] 71%|███████▏  | 34304/48008 [4:55:43<2:17:46,  1.66it/s] 71%|███████▏  | 34305/48008 [4:55:44<2:22:20,  1.60it/s] 71%|███████▏  | 34306/48008 [4:55:44<2:14:59,  1.69it/s] 71%|███████▏  | 34307/48008 [4:55:45<2:20:42,  1.62it/s] 71%|███████▏  | 34308/48008 [4:55:45<2:11:50,  1.73it/s] 71%|███████▏  | 34309/48008 [4:55:46<2:05:30,  1.82it/s] 71%|███████▏  | 34310/48008 [4:55:46<2:02:10,  1.87it/s] 71%|███████▏  | 34311/48008 [4:55:47<2:02:37,  1.86it/s] 71%|███████▏  | 34312/48008 [4:55:47<2:12:29,  1.72it/s] 71%|███████▏  | 34313/48008 [4:55:48<2:01:03,  1.89it/s] 71%|███████▏  | 34314/48008 [4:55:48<1:57:42,  1.94it/s] 71%|███████▏  | 34315/48008 [4:55:49<1:57:57,  1.93it/s] 71%|███████▏  | 34316/48008 [4:55:49<1:51:02,  2.06it/s] 71%|███████▏  | 34317/48008 [4:55:50<1:50:58,  2.06it/s] 71%|███████▏  | 34318/48008 [4:55:50<1:53:37,  2.01it/s] 71%|███████▏  | 34319/48008 [4:55:51<1:53:52,  2.00it/s] 71%|███████▏  | 34320/48008 [4:55:51<1:52:44,  2.02it/s] 71%|███████▏  | 34321/48008 [4:55:52<1:51:55,  2.04it/s] 71%|███████▏  | 34322/48008 [4:55:52<1:51:23,  2.05it/s] 71%|███████▏  | 34323/48008 [4:55:53<1:50:45,  2.06it/s] 71%|███████▏  | 34324/48008 [4:55:53<1:53:01,  2.02it/s] 71%|███████▏  | 34325/48008 [4:55:54<1:47:45,  2.12it/s] 72%|███████▏  | 34326/48008 [4:55:54<1:51:10,  2.05it/s] 72%|███████▏  | 34327/48008 [4:55:55<1:50:43,  2.06it/s] 72%|███████▏  | 34328/48008 [4:55:55<1:50:09,  2.07it/s] 72%|███████▏  | 34329/48008 [4:55:56<1:51:24,  2.05it/s] 72%|███████▏  | 34330/48008 [4:55:56<1:55:08,  1.98it/s] 72%|███████▏  | 34331/48008 [4:55:57<1:53:47,  2.00it/s] 72%|███████▏  | 34332/48008 [4:55:57<1:56:43,  1.95it/s] 72%|███████▏  | 34333/48008 [4:55:58<1:56:13,  1.96it/s] 72%|███████▏  | 34334/48008 [4:55:58<1:49:45,  2.08it/s] 72%|███████▏  | 34335/48008 [4:55:59<1:49:43,  2.08it/s] 72%|███████▏  | 34336/48008 [4:55:59<2:02:59,  1.85it/s] 72%|███████▏  | 34337/48008 [4:56:00<1:54:33,  1.99it/s] 72%|███████▏  | 34338/48008 [4:56:00<1:48:37,  2.10it/s] 72%|███████▏  | 34339/48008 [4:56:01<1:44:25,  2.18it/s] 72%|███████▏  | 34340/48008 [4:56:01<1:50:13,  2.07it/s] 72%|███████▏  | 34341/48008 [4:56:02<1:51:35,  2.04it/s] 72%|███████▏  | 34342/48008 [4:56:02<2:04:11,  1.83it/s] 72%|███████▏  | 34343/48008 [4:56:03<2:01:29,  1.87it/s] 72%|███████▏  | 34344/48008 [4:56:03<1:59:24,  1.91it/s] 72%|███████▏  | 34345/48008 [4:56:04<1:59:18,  1.91it/s] 72%|███████▏  | 34346/48008 [4:56:04<1:57:50,  1.93it/s] 72%|███████▏  | 34347/48008 [4:56:05<1:55:23,  1.97it/s] 72%|███████▏  | 34348/48008 [4:56:05<2:07:09,  1.79it/s] 72%|███████▏  | 34349/48008 [4:56:06<1:57:23,  1.94it/s] 72%|███████▏  | 34350/48008 [4:56:06<1:56:40,  1.95it/s]                                                         {'loss': 4.2937, 'grad_norm': 0.16801436245441437, 'learning_rate': 5.690301616397268e-05, 'epoch': 0.72}
 72%|███████▏  | 34350/48008 [4:56:06<1:56:40,  1.95it/s] 72%|███████▏  | 34351/48008 [4:56:07<1:54:49,  1.98it/s] 72%|███████▏  | 34352/48008 [4:56:07<1:56:01,  1.96it/s] 72%|███████▏  | 34353/48008 [4:56:08<1:55:32,  1.97it/s] 72%|███████▏  | 34354/48008 [4:56:08<1:53:45,  2.00it/s] 72%|███████▏  | 34355/48008 [4:56:09<1:52:44,  2.02it/s] 72%|███████▏  | 34356/48008 [4:56:09<1:53:27,  2.01it/s] 72%|███████▏  | 34357/48008 [4:56:10<1:53:42,  2.00it/s] 72%|███████▏  | 34358/48008 [4:56:10<1:47:45,  2.11it/s] 72%|███████▏  | 34359/48008 [4:56:11<1:49:54,  2.07it/s] 72%|███████▏  | 34360/48008 [4:56:11<1:45:30,  2.16it/s] 72%|███████▏  | 34361/48008 [4:56:12<1:46:46,  2.13it/s] 72%|███████▏  | 34362/48008 [4:56:12<1:47:31,  2.12it/s] 72%|███████▏  | 34363/48008 [4:56:13<1:48:18,  2.10it/s] 72%|███████▏  | 34364/48008 [4:56:13<2:01:53,  1.87it/s] 72%|███████▏  | 34365/48008 [4:56:14<1:58:17,  1.92it/s] 72%|███████▏  | 34366/48008 [4:56:14<1:57:22,  1.94it/s] 72%|███████▏  | 34367/48008 [4:56:15<1:55:20,  1.97it/s] 72%|███████▏  | 34368/48008 [4:56:15<1:49:18,  2.08it/s] 72%|███████▏  | 34369/48008 [4:56:16<1:44:54,  2.17it/s] 72%|███████▏  | 34370/48008 [4:56:16<1:46:18,  2.14it/s] 72%|███████▏  | 34371/48008 [4:56:17<1:49:10,  2.08it/s] 72%|███████▏  | 34372/48008 [4:56:17<1:49:28,  2.08it/s] 72%|███████▏  | 34373/48008 [4:56:18<2:16:27,  1.67it/s] 72%|███████▏  | 34374/48008 [4:56:18<2:08:20,  1.77it/s] 72%|███████▏  | 34375/48008 [4:56:19<1:58:20,  1.92it/s] 72%|███████▏  | 34376/48008 [4:56:19<1:57:17,  1.94it/s] 72%|███████▏  | 34377/48008 [4:56:20<1:48:08,  2.10it/s] 72%|███████▏  | 34378/48008 [4:56:20<1:44:13,  2.18it/s] 72%|███████▏  | 34379/48008 [4:56:21<1:45:59,  2.14it/s] 72%|███████▏  | 34380/48008 [4:56:21<1:42:33,  2.21it/s] 72%|███████▏  | 34381/48008 [4:56:22<1:45:48,  2.15it/s] 72%|███████▏  | 34382/48008 [4:56:22<1:48:29,  2.09it/s] 72%|███████▏  | 34383/48008 [4:56:23<1:48:48,  2.09it/s] 72%|███████▏  | 34384/48008 [4:56:23<1:44:27,  2.17it/s] 72%|███████▏  | 34385/48008 [4:56:23<1:45:52,  2.14it/s] 72%|███████▏  | 34386/48008 [4:56:24<1:46:55,  2.12it/s] 72%|███████▏  | 34387/48008 [4:56:24<1:47:43,  2.11it/s] 72%|███████▏  | 34388/48008 [4:56:26<2:40:42,  1.41it/s] 72%|███████▏  | 34389/48008 [4:56:26<2:24:48,  1.57it/s] 72%|███████▏  | 34390/48008 [4:56:27<2:14:11,  1.69it/s] 72%|███████▏  | 34391/48008 [4:56:27<2:02:09,  1.86it/s] 72%|███████▏  | 34392/48008 [4:56:28<2:01:04,  1.87it/s] 72%|███████▏  | 34393/48008 [4:56:28<1:53:13,  2.00it/s] 72%|███████▏  | 34394/48008 [4:56:29<1:54:27,  1.98it/s] 72%|███████▏  | 34395/48008 [4:56:29<1:55:15,  1.97it/s] 72%|███████▏  | 34396/48008 [4:56:30<1:57:35,  1.93it/s] 72%|███████▏  | 34397/48008 [4:56:30<1:50:42,  2.05it/s] 72%|███████▏  | 34398/48008 [4:56:30<1:45:50,  2.14it/s] 72%|███████▏  | 34399/48008 [4:56:31<1:48:20,  2.09it/s] 72%|███████▏  | 34400/48008 [4:56:31<1:48:24,  2.09it/s]                                                         {'loss': 4.2579, 'grad_norm': 0.11310841143131256, 'learning_rate': 5.669471754707549e-05, 'epoch': 0.72}
 72%|███████▏  | 34400/48008 [4:56:31<1:48:24,  2.09it/s] 72%|███████▏  | 34401/48008 [4:56:32<1:44:12,  2.18it/s] 72%|███████▏  | 34402/48008 [4:56:32<1:45:47,  2.14it/s] 72%|███████▏  | 34403/48008 [4:56:33<1:46:59,  2.12it/s] 72%|███████▏  | 34404/48008 [4:56:33<1:47:41,  2.11it/s] 72%|███████▏  | 34405/48008 [4:56:34<1:49:53,  2.06it/s] 72%|███████▏  | 34406/48008 [4:56:34<1:49:52,  2.06it/s] 72%|███████▏  | 34407/48008 [4:56:35<1:49:57,  2.06it/s] 72%|███████▏  | 34408/48008 [4:56:35<1:44:55,  2.16it/s] 72%|███████▏  | 34409/48008 [4:56:36<1:47:32,  2.11it/s] 72%|███████▏  | 34410/48008 [4:56:36<1:50:37,  2.05it/s] 72%|███████▏  | 34411/48008 [4:56:37<1:54:04,  1.99it/s] 72%|███████▏  | 34412/48008 [4:56:37<1:54:16,  1.98it/s] 72%|███████▏  | 34413/48008 [4:56:38<1:55:45,  1.96it/s] 72%|███████▏  | 34414/48008 [4:56:38<1:53:50,  1.99it/s] 72%|███████▏  | 34415/48008 [4:56:39<1:54:18,  1.98it/s] 72%|███████▏  | 34416/48008 [4:56:39<1:46:17,  2.13it/s] 72%|███████▏  | 34417/48008 [4:56:40<1:48:19,  2.09it/s] 72%|███████▏  | 34418/48008 [4:56:40<1:50:04,  2.06it/s] 72%|███████▏  | 34419/48008 [4:56:41<1:51:34,  2.03it/s] 72%|███████▏  | 34420/48008 [4:56:41<1:44:06,  2.18it/s] 72%|███████▏  | 34421/48008 [4:56:42<1:59:01,  1.90it/s] 72%|███████▏  | 34422/48008 [4:56:42<1:55:56,  1.95it/s] 72%|███████▏  | 34423/48008 [4:56:43<1:57:51,  1.92it/s] 72%|███████▏  | 34424/48008 [4:56:43<1:50:43,  2.04it/s] 72%|███████▏  | 34425/48008 [4:56:44<1:45:58,  2.14it/s] 72%|███████▏  | 34426/48008 [4:56:44<1:47:13,  2.11it/s] 72%|███████▏  | 34427/48008 [4:56:45<1:50:42,  2.04it/s] 72%|███████▏  | 34428/48008 [4:56:45<1:50:13,  2.05it/s] 72%|███████▏  | 34429/48008 [4:56:46<1:52:48,  2.01it/s] 72%|███████▏  | 34430/48008 [4:56:46<1:53:15,  2.00it/s] 72%|███████▏  | 34431/48008 [4:56:47<1:51:54,  2.02it/s] 72%|███████▏  | 34432/48008 [4:56:47<1:51:12,  2.03it/s] 72%|███████▏  | 34433/48008 [4:56:48<1:52:08,  2.02it/s] 72%|███████▏  | 34434/48008 [4:56:48<1:52:46,  2.01it/s] 72%|███████▏  | 34435/48008 [4:56:49<1:51:39,  2.03it/s] 72%|███████▏  | 34436/48008 [4:56:49<1:52:34,  2.01it/s] 72%|███████▏  | 34437/48008 [4:56:49<1:46:59,  2.11it/s] 72%|███████▏  | 34438/48008 [4:56:50<1:43:12,  2.19it/s] 72%|███████▏  | 34439/48008 [4:56:50<1:45:02,  2.15it/s] 72%|███████▏  | 34440/48008 [4:56:51<1:41:40,  2.22it/s] 72%|███████▏  | 34441/48008 [4:56:52<2:36:12,  1.45it/s] 72%|███████▏  | 34442/48008 [4:56:53<2:22:12,  1.59it/s] 72%|███████▏  | 34443/48008 [4:56:53<2:07:49,  1.77it/s] 72%|███████▏  | 34444/48008 [4:56:53<2:02:23,  1.85it/s] 72%|███████▏  | 34445/48008 [4:56:54<1:58:07,  1.91it/s] 72%|███████▏  | 34446/48008 [4:56:54<1:51:05,  2.03it/s] 72%|███████▏  | 34447/48008 [4:56:55<1:50:40,  2.04it/s] 72%|███████▏  | 34448/48008 [4:56:55<1:51:22,  2.03it/s] 72%|███████▏  | 34449/48008 [4:56:56<1:50:33,  2.04it/s] 72%|███████▏  | 34450/48008 [4:56:56<1:45:37,  2.14it/s]                                                         {'loss': 4.2249, 'grad_norm': 0.1138455718755722, 'learning_rate': 5.648641893017831e-05, 'epoch': 0.72}
 72%|███████▏  | 34450/48008 [4:56:56<1:45:37,  2.14it/s] 72%|███████▏  | 34451/48008 [4:56:57<1:50:18,  2.05it/s] 72%|███████▏  | 34452/48008 [4:56:57<1:45:22,  2.14it/s] 72%|███████▏  | 34453/48008 [4:56:58<1:41:45,  2.22it/s] 72%|███████▏  | 34454/48008 [4:56:58<1:47:45,  2.10it/s] 72%|███████▏  | 34455/48008 [4:56:59<1:48:07,  2.09it/s] 72%|███████▏  | 34456/48008 [4:56:59<1:51:01,  2.03it/s] 72%|███████▏  | 34457/48008 [4:57:00<1:52:53,  2.00it/s] 72%|███████▏  | 34458/48008 [4:57:00<1:53:01,  2.00it/s] 72%|███████▏  | 34459/48008 [4:57:01<1:53:59,  1.98it/s] 72%|███████▏  | 34460/48008 [4:57:01<1:52:26,  2.01it/s] 72%|███████▏  | 34461/48008 [4:57:02<1:52:37,  2.00it/s] 72%|███████▏  | 34462/48008 [4:57:02<1:54:03,  1.98it/s] 72%|███████▏  | 34463/48008 [4:57:03<1:54:02,  1.98it/s] 72%|███████▏  | 34464/48008 [4:57:03<1:54:02,  1.98it/s] 72%|███████▏  | 34465/48008 [4:57:04<1:52:31,  2.01it/s] 72%|███████▏  | 34466/48008 [4:57:04<2:04:25,  1.81it/s] 72%|███████▏  | 34467/48008 [4:57:05<1:59:55,  1.88it/s] 72%|███████▏  | 34468/48008 [4:57:05<1:57:52,  1.91it/s] 72%|███████▏  | 34469/48008 [4:57:06<1:50:55,  2.03it/s] 72%|███████▏  | 34470/48008 [4:57:06<1:50:04,  2.05it/s] 72%|███████▏  | 34471/48008 [4:57:07<1:45:19,  2.14it/s] 72%|███████▏  | 34472/48008 [4:57:07<1:46:21,  2.12it/s] 72%|███████▏  | 34473/48008 [4:57:08<2:13:48,  1.69it/s] 72%|███████▏  | 34474/48008 [4:57:08<2:06:22,  1.78it/s] 72%|███████▏  | 34475/48008 [4:57:09<1:56:37,  1.93it/s] 72%|███████▏  | 34476/48008 [4:57:09<1:49:58,  2.05it/s] 72%|███████▏  | 34477/48008 [4:57:10<1:45:10,  2.14it/s] 72%|███████▏  | 34478/48008 [4:57:10<1:41:59,  2.21it/s] 72%|███████▏  | 34479/48008 [4:57:11<2:36:10,  1.44it/s] 72%|███████▏  | 34480/48008 [4:57:12<2:24:42,  1.56it/s] 72%|███████▏  | 34481/48008 [4:57:12<2:13:36,  1.69it/s] 72%|███████▏  | 34482/48008 [4:57:13<2:08:57,  1.75it/s] 72%|███████▏  | 34483/48008 [4:57:13<2:03:03,  1.83it/s] 72%|███████▏  | 34484/48008 [4:57:14<1:58:33,  1.90it/s] 72%|███████▏  | 34485/48008 [4:57:14<1:55:44,  1.95it/s] 72%|███████▏  | 34486/48008 [4:57:15<1:54:45,  1.96it/s] 72%|███████▏  | 34487/48008 [4:57:15<1:54:25,  1.97it/s] 72%|███████▏  | 34488/48008 [4:57:16<1:56:48,  1.93it/s] 72%|███████▏  | 34489/48008 [4:57:16<1:54:20,  1.97it/s] 72%|███████▏  | 34490/48008 [4:57:17<1:52:24,  2.00it/s] 72%|███████▏  | 34491/48008 [4:57:18<2:43:33,  1.38it/s] 72%|███████▏  | 34492/48008 [4:57:19<2:27:25,  1.53it/s] 72%|███████▏  | 34493/48008 [4:57:19<2:15:51,  1.66it/s] 72%|███████▏  | 34494/48008 [4:57:20<2:07:39,  1.76it/s] 72%|███████▏  | 34495/48008 [4:57:20<2:03:30,  1.82it/s] 72%|███████▏  | 34496/48008 [4:57:21<1:54:37,  1.96it/s] 72%|███████▏  | 34497/48008 [4:57:21<1:54:17,  1.97it/s] 72%|███████▏  | 34498/48008 [4:57:21<1:52:25,  2.00it/s] 72%|███████▏  | 34499/48008 [4:57:22<1:51:18,  2.02it/s] 72%|███████▏  | 34500/48008 [4:57:22<1:50:26,  2.04it/s]                                                         {'loss': 4.2464, 'grad_norm': 0.2426837533712387, 'learning_rate': 5.6278120313281126e-05, 'epoch': 0.72}
 72%|███████▏  | 34500/48008 [4:57:22<1:50:26,  2.04it/s] 72%|███████▏  | 34501/48008 [4:57:23<1:45:35,  2.13it/s] 72%|███████▏  | 34502/48008 [4:57:23<1:46:35,  2.11it/s] 72%|███████▏  | 34503/48008 [4:57:24<1:47:12,  2.10it/s] 72%|███████▏  | 34504/48008 [4:57:24<1:51:34,  2.02it/s] 72%|███████▏  | 34505/48008 [4:57:25<1:50:47,  2.03it/s] 72%|███████▏  | 34506/48008 [4:57:25<1:50:14,  2.04it/s] 72%|███████▏  | 34507/48008 [4:57:26<1:53:34,  1.98it/s] 72%|███████▏  | 34508/48008 [4:57:27<2:05:17,  1.80it/s] 72%|███████▏  | 34509/48008 [4:57:27<2:04:08,  1.81it/s] 72%|███████▏  | 34510/48008 [4:57:28<1:59:29,  1.88it/s] 72%|███████▏  | 34511/48008 [4:57:28<1:51:55,  2.01it/s] 72%|███████▏  | 34512/48008 [4:57:29<1:52:32,  2.00it/s] 72%|███████▏  | 34513/48008 [4:57:29<1:51:30,  2.02it/s] 72%|███████▏  | 34514/48008 [4:57:30<1:53:26,  1.98it/s] 72%|███████▏  | 34515/48008 [4:57:30<1:51:53,  2.01it/s] 72%|███████▏  | 34516/48008 [4:57:30<1:50:54,  2.03it/s] 72%|███████▏  | 34517/48008 [4:57:31<1:51:35,  2.01it/s] 72%|███████▏  | 34518/48008 [4:57:31<1:52:16,  2.00it/s] 72%|███████▏  | 34519/48008 [4:57:32<1:46:47,  2.11it/s] 72%|███████▏  | 34520/48008 [4:57:32<1:48:38,  2.07it/s] 72%|███████▏  | 34521/48008 [4:57:33<1:48:40,  2.07it/s] 72%|███████▏  | 34522/48008 [4:57:33<1:48:24,  2.07it/s] 72%|███████▏  | 34523/48008 [4:57:34<1:48:13,  2.08it/s] 72%|███████▏  | 34524/48008 [4:57:34<1:48:20,  2.07it/s] 72%|███████▏  | 34525/48008 [4:57:35<1:48:27,  2.07it/s] 72%|███████▏  | 34526/48008 [4:57:35<1:50:39,  2.03it/s] 72%|███████▏  | 34527/48008 [4:57:36<1:51:33,  2.01it/s] 72%|███████▏  | 34528/48008 [4:57:36<1:51:50,  2.01it/s] 72%|███████▏  | 34529/48008 [4:57:37<1:50:51,  2.03it/s] 72%|███████▏  | 34530/48008 [4:57:37<1:49:36,  2.05it/s] 72%|███████▏  | 34531/48008 [4:57:38<1:49:34,  2.05it/s] 72%|███████▏  | 34532/48008 [4:57:38<1:44:57,  2.14it/s] 72%|███████▏  | 34533/48008 [4:57:39<2:38:38,  1.42it/s] 72%|███████▏  | 34534/48008 [4:57:40<2:23:28,  1.57it/s] 72%|███████▏  | 34535/48008 [4:57:40<2:13:06,  1.69it/s] 72%|███████▏  | 34536/48008 [4:57:41<2:05:29,  1.79it/s] 72%|███████▏  | 34537/48008 [4:57:42<2:13:17,  1.68it/s] 72%|███████▏  | 34538/48008 [4:57:42<2:05:42,  1.79it/s] 72%|███████▏  | 34539/48008 [4:57:43<2:00:23,  1.86it/s] 72%|███████▏  | 34540/48008 [4:57:43<1:52:06,  2.00it/s] 72%|███████▏  | 34541/48008 [4:57:43<1:51:02,  2.02it/s] 72%|███████▏  | 34542/48008 [4:57:44<1:54:13,  1.96it/s] 72%|███████▏  | 34543/48008 [4:57:44<1:52:29,  2.00it/s] 72%|███████▏  | 34544/48008 [4:57:45<1:51:14,  2.02it/s] 72%|███████▏  | 34545/48008 [4:57:46<1:54:21,  1.96it/s] 72%|███████▏  | 34546/48008 [4:57:46<1:47:58,  2.08it/s] 72%|███████▏  | 34547/48008 [4:57:46<1:43:23,  2.17it/s] 72%|███████▏  | 34548/48008 [4:57:47<1:40:24,  2.23it/s] 72%|███████▏  | 34549/48008 [4:57:47<1:42:15,  2.19it/s] 72%|███████▏  | 34550/48008 [4:57:48<1:44:15,  2.15it/s]                                                         {'loss': 4.2634, 'grad_norm': 0.09781728684902191, 'learning_rate': 5.606982169638394e-05, 'epoch': 0.72}
 72%|███████▏  | 34550/48008 [4:57:48<1:44:15,  2.15it/s] 72%|███████▏  | 34551/48008 [4:57:48<1:46:53,  2.10it/s] 72%|███████▏  | 34552/48008 [4:57:49<1:49:04,  2.06it/s] 72%|███████▏  | 34553/48008 [4:57:49<1:52:55,  1.99it/s] 72%|███████▏  | 34554/48008 [4:57:50<1:53:59,  1.97it/s] 72%|███████▏  | 34555/48008 [4:57:50<1:52:07,  2.00it/s] 72%|███████▏  | 34556/48008 [4:57:51<1:46:31,  2.10it/s] 72%|███████▏  | 34557/48008 [4:57:51<1:42:29,  2.19it/s] 72%|███████▏  | 34558/48008 [4:57:52<1:43:54,  2.16it/s] 72%|███████▏  | 34559/48008 [4:57:52<1:45:08,  2.13it/s] 72%|███████▏  | 34560/48008 [4:57:53<1:48:53,  2.06it/s] 72%|███████▏  | 34561/48008 [4:57:53<1:48:19,  2.07it/s] 72%|███████▏  | 34562/48008 [4:57:54<1:48:20,  2.07it/s] 72%|███████▏  | 34563/48008 [4:57:54<1:43:46,  2.16it/s] 72%|███████▏  | 34564/48008 [4:57:54<1:40:39,  2.23it/s] 72%|███████▏  | 34565/48008 [4:57:55<1:44:52,  2.14it/s] 72%|███████▏  | 34566/48008 [4:57:55<1:47:09,  2.09it/s] 72%|███████▏  | 34567/48008 [4:57:56<1:47:34,  2.08it/s] 72%|███████▏  | 34568/48008 [4:57:56<1:50:13,  2.03it/s] 72%|███████▏  | 34569/48008 [4:57:57<1:45:04,  2.13it/s] 72%|███████▏  | 34570/48008 [4:57:57<1:47:35,  2.08it/s] 72%|███████▏  | 34571/48008 [4:57:58<1:47:51,  2.08it/s] 72%|███████▏  | 34572/48008 [4:57:58<1:43:18,  2.17it/s] 72%|███████▏  | 34573/48008 [4:57:59<1:46:20,  2.11it/s] 72%|███████▏  | 34574/48008 [4:57:59<1:49:06,  2.05it/s] 72%|███████▏  | 34575/48008 [4:58:00<1:50:20,  2.03it/s] 72%|███████▏  | 34576/48008 [4:58:00<1:45:15,  2.13it/s] 72%|███████▏  | 34577/48008 [4:58:01<1:49:52,  2.04it/s] 72%|███████▏  | 34578/48008 [4:58:01<1:50:39,  2.02it/s] 72%|███████▏  | 34579/48008 [4:58:02<1:52:17,  1.99it/s] 72%|███████▏  | 34580/48008 [4:58:02<1:50:53,  2.02it/s] 72%|███████▏  | 34581/48008 [4:58:03<1:49:48,  2.04it/s] 72%|███████▏  | 34582/48008 [4:58:03<1:50:48,  2.02it/s] 72%|███████▏  | 34583/48008 [4:58:04<2:16:45,  1.64it/s] 72%|███████▏  | 34584/48008 [4:58:05<2:08:17,  1.74it/s] 72%|███████▏  | 34585/48008 [4:58:05<1:57:45,  1.90it/s] 72%|███████▏  | 34586/48008 [4:58:05<1:56:12,  1.93it/s] 72%|███████▏  | 34587/48008 [4:58:06<1:53:31,  1.97it/s] 72%|███████▏  | 34588/48008 [4:58:07<2:04:44,  1.79it/s] 72%|███████▏  | 34589/48008 [4:58:07<1:59:50,  1.87it/s] 72%|███████▏  | 34590/48008 [4:58:08<1:57:42,  1.90it/s] 72%|███████▏  | 34591/48008 [4:58:08<1:56:22,  1.92it/s] 72%|███████▏  | 34592/48008 [4:58:09<1:53:49,  1.96it/s] 72%|███████▏  | 34593/48008 [4:58:09<1:53:37,  1.97it/s] 72%|███████▏  | 34594/48008 [4:58:10<2:04:45,  1.79it/s] 72%|███████▏  | 34595/48008 [4:58:11<2:51:47,  1.30it/s] 72%|███████▏  | 34596/48008 [4:58:11<2:28:14,  1.51it/s] 72%|███████▏  | 34597/48008 [4:58:12<2:17:27,  1.63it/s] 72%|███████▏  | 34598/48008 [4:58:12<2:09:54,  1.72it/s] 72%|███████▏  | 34599/48008 [4:58:13<2:03:04,  1.82it/s] 72%|███████▏  | 34600/48008 [4:58:13<1:58:32,  1.89it/s]                                                         {'loss': 4.2582, 'grad_norm': 0.16616782546043396, 'learning_rate': 5.5861523079486754e-05, 'epoch': 0.72}
 72%|███████▏  | 34600/48008 [4:58:13<1:58:32,  1.89it/s] 72%|███████▏  | 34601/48008 [4:58:14<1:59:07,  1.88it/s] 72%|███████▏  | 34602/48008 [4:58:14<1:55:49,  1.93it/s] 72%|███████▏  | 34603/48008 [4:58:15<1:57:20,  1.90it/s] 72%|███████▏  | 34604/48008 [4:58:15<1:49:47,  2.03it/s] 72%|███████▏  | 34605/48008 [4:58:17<2:40:19,  1.39it/s] 72%|███████▏  | 34606/48008 [4:58:17<2:24:16,  1.55it/s] 72%|███████▏  | 34607/48008 [4:58:18<2:13:09,  1.68it/s] 72%|███████▏  | 34608/48008 [4:58:19<2:32:03,  1.47it/s] 72%|███████▏  | 34609/48008 [4:58:19<2:18:43,  1.61it/s] 72%|███████▏  | 34610/48008 [4:58:20<2:22:24,  1.57it/s] 72%|███████▏  | 34611/48008 [4:58:20<2:13:25,  1.67it/s] 72%|███████▏  | 34612/48008 [4:58:21<2:07:01,  1.76it/s] 72%|███████▏  | 34613/48008 [4:58:21<2:00:54,  1.85it/s] 72%|███████▏  | 34614/48008 [4:58:22<1:56:59,  1.91it/s] 72%|███████▏  | 34615/48008 [4:58:22<1:53:48,  1.96it/s] 72%|███████▏  | 34616/48008 [4:58:23<1:55:46,  1.93it/s] 72%|███████▏  | 34617/48008 [4:58:23<1:48:58,  2.05it/s] 72%|███████▏  | 34618/48008 [4:58:24<1:50:11,  2.03it/s] 72%|███████▏  | 34619/48008 [4:58:24<1:45:09,  2.12it/s] 72%|███████▏  | 34620/48008 [4:58:24<1:45:53,  2.11it/s] 72%|███████▏  | 34621/48008 [4:58:25<1:46:31,  2.09it/s] 72%|███████▏  | 34622/48008 [4:58:25<1:50:44,  2.01it/s] 72%|███████▏  | 34623/48008 [4:58:26<1:45:29,  2.11it/s] 72%|███████▏  | 34624/48008 [4:58:26<1:50:10,  2.02it/s] 72%|███████▏  | 34625/48008 [4:58:27<1:50:47,  2.01it/s] 72%|███████▏  | 34626/48008 [4:58:27<1:52:30,  1.98it/s] 72%|███████▏  | 34627/48008 [4:58:28<1:54:50,  1.94it/s] 72%|███████▏  | 34628/48008 [4:58:29<1:52:43,  1.98it/s] 72%|███████▏  | 34629/48008 [4:58:29<1:52:19,  1.99it/s] 72%|███████▏  | 34630/48008 [4:58:29<1:46:20,  2.10it/s] 72%|███████▏  | 34631/48008 [4:58:30<1:46:39,  2.09it/s] 72%|███████▏  | 34632/48008 [4:58:30<1:48:18,  2.06it/s] 72%|███████▏  | 34633/48008 [4:58:31<1:48:14,  2.06it/s] 72%|███████▏  | 34634/48008 [4:58:31<1:49:46,  2.03it/s] 72%|███████▏  | 34635/48008 [4:58:32<1:48:54,  2.05it/s] 72%|███████▏  | 34636/48008 [4:58:32<1:49:47,  2.03it/s] 72%|███████▏  | 34637/48008 [4:58:33<1:51:57,  1.99it/s] 72%|███████▏  | 34638/48008 [4:58:33<1:46:18,  2.10it/s] 72%|███████▏  | 34639/48008 [4:58:34<2:13:16,  1.67it/s] 72%|███████▏  | 34640/48008 [4:58:35<2:09:27,  1.72it/s] 72%|███████▏  | 34641/48008 [4:58:36<2:29:15,  1.49it/s] 72%|███████▏  | 34642/48008 [4:58:36<2:16:31,  1.63it/s] 72%|███████▏  | 34643/48008 [4:58:37<2:07:59,  1.74it/s] 72%|███████▏  | 34644/48008 [4:58:37<2:01:32,  1.83it/s] 72%|███████▏  | 34645/48008 [4:58:38<1:57:04,  1.90it/s] 72%|███████▏  | 34646/48008 [4:58:38<1:50:12,  2.02it/s] 72%|███████▏  | 34647/48008 [4:58:38<1:49:58,  2.02it/s] 72%|███████▏  | 34648/48008 [4:58:39<1:49:09,  2.04it/s] 72%|███████▏  | 34649/48008 [4:58:39<1:51:33,  2.00it/s] 72%|███████▏  | 34650/48008 [4:58:40<1:50:22,  2.02it/s]                                                         {'loss': 4.2485, 'grad_norm': 0.10124015063047409, 'learning_rate': 5.565322446258957e-05, 'epoch': 0.72}
 72%|███████▏  | 34650/48008 [4:58:40<1:50:22,  2.02it/s] 72%|███████▏  | 34651/48008 [4:58:40<1:51:45,  1.99it/s] 72%|███████▏  | 34652/48008 [4:58:41<1:51:01,  2.00it/s] 72%|███████▏  | 34653/48008 [4:58:41<1:49:44,  2.03it/s] 72%|███████▏  | 34654/48008 [4:58:42<1:48:51,  2.04it/s] 72%|███████▏  | 34655/48008 [4:58:42<1:48:38,  2.05it/s] 72%|███████▏  | 34656/48008 [4:58:43<1:50:22,  2.02it/s] 72%|███████▏  | 34657/48008 [4:58:44<2:02:14,  1.82it/s] 72%|███████▏  | 34658/48008 [4:58:44<1:53:38,  1.96it/s] 72%|███████▏  | 34659/48008 [4:58:45<1:53:30,  1.96it/s] 72%|███████▏  | 34660/48008 [4:58:45<1:53:02,  1.97it/s] 72%|███████▏  | 34661/48008 [4:58:45<1:50:55,  2.01it/s] 72%|███████▏  | 34662/48008 [4:58:46<1:51:29,  2.00it/s] 72%|███████▏  | 34663/48008 [4:58:47<2:16:35,  1.63it/s] 72%|███████▏  | 34664/48008 [4:58:47<2:09:20,  1.72it/s] 72%|███████▏  | 34665/48008 [4:58:48<2:02:42,  1.81it/s] 72%|███████▏  | 34666/48008 [4:58:48<1:57:59,  1.88it/s] 72%|███████▏  | 34667/48008 [4:58:49<1:50:21,  2.01it/s] 72%|███████▏  | 34668/48008 [4:58:49<1:51:12,  2.00it/s] 72%|███████▏  | 34669/48008 [4:58:50<1:50:13,  2.02it/s] 72%|███████▏  | 34670/48008 [4:58:50<1:49:28,  2.03it/s] 72%|███████▏  | 34671/48008 [4:58:51<1:49:57,  2.02it/s] 72%|███████▏  | 34672/48008 [4:58:51<1:53:00,  1.97it/s] 72%|███████▏  | 34673/48008 [4:58:52<1:52:41,  1.97it/s] 72%|███████▏  | 34674/48008 [4:58:52<1:51:07,  2.00it/s] 72%|███████▏  | 34675/48008 [4:58:53<1:49:49,  2.02it/s] 72%|███████▏  | 34676/48008 [4:58:53<1:49:08,  2.04it/s] 72%|███████▏  | 34677/48008 [4:58:54<1:44:32,  2.13it/s] 72%|███████▏  | 34678/48008 [4:58:54<1:45:29,  2.11it/s] 72%|███████▏  | 34679/48008 [4:58:55<1:46:20,  2.09it/s] 72%|███████▏  | 34680/48008 [4:58:55<1:48:07,  2.05it/s] 72%|███████▏  | 34681/48008 [4:58:56<1:49:45,  2.02it/s] 72%|███████▏  | 34682/48008 [4:58:56<1:44:36,  2.12it/s] 72%|███████▏  | 34683/48008 [4:58:56<1:40:50,  2.20it/s] 72%|███████▏  | 34684/48008 [4:58:57<1:42:43,  2.16it/s] 72%|███████▏  | 34685/48008 [4:58:57<1:45:09,  2.11it/s] 72%|███████▏  | 34686/48008 [4:58:58<1:46:54,  2.08it/s] 72%|███████▏  | 34687/48008 [4:58:59<1:50:50,  2.00it/s] 72%|███████▏  | 34688/48008 [4:58:59<1:49:41,  2.02it/s] 72%|███████▏  | 34689/48008 [4:58:59<1:44:42,  2.12it/s] 72%|███████▏  | 34690/48008 [4:59:00<1:45:18,  2.11it/s] 72%|███████▏  | 34691/48008 [4:59:00<1:45:34,  2.10it/s] 72%|███████▏  | 34692/48008 [4:59:01<1:46:02,  2.09it/s] 72%|███████▏  | 34693/48008 [4:59:01<1:49:45,  2.02it/s] 72%|███████▏  | 34694/48008 [4:59:02<1:50:30,  2.01it/s] 72%|███████▏  | 34695/48008 [4:59:02<1:51:09,  2.00it/s] 72%|███████▏  | 34696/48008 [4:59:03<1:51:03,  2.00it/s] 72%|███████▏  | 34697/48008 [4:59:04<2:02:35,  1.81it/s] 72%|███████▏  | 34698/48008 [4:59:04<1:51:17,  1.99it/s] 72%|███████▏  | 34699/48008 [4:59:04<1:45:31,  2.10it/s] 72%|███████▏  | 34700/48008 [4:59:05<1:46:11,  2.09it/s]                                                         {'loss': 4.248, 'grad_norm': 0.10720954090356827, 'learning_rate': 5.544492584569239e-05, 'epoch': 0.72}
 72%|███████▏  | 34700/48008 [4:59:05<1:46:11,  2.09it/s] 72%|███████▏  | 34701/48008 [4:59:05<1:42:07,  2.17it/s] 72%|███████▏  | 34702/48008 [4:59:06<1:39:11,  2.24it/s] 72%|███████▏  | 34703/48008 [4:59:06<1:45:36,  2.10it/s] 72%|███████▏  | 34704/48008 [4:59:07<1:59:05,  1.86it/s] 72%|███████▏  | 34705/48008 [4:59:07<1:58:08,  1.88it/s] 72%|███████▏  | 34706/48008 [4:59:08<1:50:18,  2.01it/s] 72%|███████▏  | 34707/48008 [4:59:08<1:51:09,  1.99it/s] 72%|███████▏  | 34708/48008 [4:59:09<1:49:53,  2.02it/s] 72%|███████▏  | 34709/48008 [4:59:09<1:50:30,  2.01it/s] 72%|███████▏  | 34710/48008 [4:59:10<1:50:52,  2.00it/s] 72%|███████▏  | 34711/48008 [4:59:11<2:51:24,  1.29it/s] 72%|███████▏  | 34712/48008 [4:59:12<2:33:41,  1.44it/s] 72%|███████▏  | 34713/48008 [4:59:12<2:21:27,  1.57it/s] 72%|███████▏  | 34714/48008 [4:59:13<2:11:11,  1.69it/s] 72%|███████▏  | 34715/48008 [4:59:13<2:04:08,  1.78it/s] 72%|███████▏  | 34716/48008 [4:59:14<2:01:35,  1.82it/s] 72%|███████▏  | 34717/48008 [4:59:15<2:59:29,  1.23it/s] 72%|███████▏  | 34718/48008 [4:59:16<2:37:43,  1.40it/s] 72%|███████▏  | 34719/48008 [4:59:16<2:25:10,  1.53it/s] 72%|███████▏  | 34720/48008 [4:59:17<2:09:22,  1.71it/s] 72%|███████▏  | 34721/48008 [4:59:17<2:02:41,  1.81it/s] 72%|███████▏  | 34722/48008 [4:59:18<2:01:49,  1.82it/s] 72%|███████▏  | 34723/48008 [4:59:19<2:32:06,  1.46it/s] 72%|███████▏  | 34724/48008 [4:59:19<2:18:29,  1.60it/s] 72%|███████▏  | 34725/48008 [4:59:20<2:11:08,  1.69it/s] 72%|███████▏  | 34726/48008 [4:59:20<2:05:19,  1.77it/s] 72%|███████▏  | 34727/48008 [4:59:21<1:59:51,  1.85it/s] 72%|███████▏  | 34728/48008 [4:59:21<1:58:22,  1.87it/s] 72%|███████▏  | 34729/48008 [4:59:22<2:32:43,  1.45it/s] 72%|███████▏  | 34730/48008 [4:59:23<2:18:53,  1.59it/s] 72%|███████▏  | 34731/48008 [4:59:23<2:10:50,  1.69it/s] 72%|███████▏  | 34732/48008 [4:59:24<2:05:19,  1.77it/s] 72%|███████▏  | 34733/48008 [4:59:24<1:59:49,  1.85it/s] 72%|███████▏  | 34734/48008 [4:59:25<1:57:39,  1.88it/s] 72%|███████▏  | 34735/48008 [4:59:25<1:55:45,  1.91it/s] 72%|███████▏  | 34736/48008 [4:59:26<1:52:32,  1.97it/s] 72%|███████▏  | 34737/48008 [4:59:26<1:50:46,  2.00it/s] 72%|███████▏  | 34738/48008 [4:59:27<1:49:35,  2.02it/s] 72%|███████▏  | 34739/48008 [4:59:27<1:48:31,  2.04it/s] 72%|███████▏  | 34740/48008 [4:59:28<2:00:30,  1.84it/s] 72%|███████▏  | 34741/48008 [4:59:28<1:56:23,  1.90it/s] 72%|███████▏  | 34742/48008 [4:59:29<1:53:25,  1.95it/s] 72%|███████▏  | 34743/48008 [4:59:29<1:53:48,  1.94it/s] 72%|███████▏  | 34744/48008 [4:59:30<1:52:58,  1.96it/s] 72%|███████▏  | 34745/48008 [4:59:30<1:53:33,  1.95it/s] 72%|███████▏  | 34746/48008 [4:59:31<1:52:56,  1.96it/s] 72%|███████▏  | 34747/48008 [4:59:31<1:50:47,  1.99it/s] 72%|███████▏  | 34748/48008 [4:59:32<1:50:50,  1.99it/s] 72%|███████▏  | 34749/48008 [4:59:32<1:51:21,  1.98it/s] 72%|███████▏  | 34750/48008 [4:59:33<1:49:39,  2.02it/s]                                                         {'loss': 4.2909, 'grad_norm': 0.09692464023828506, 'learning_rate': 5.52366272287952e-05, 'epoch': 0.72}
 72%|███████▏  | 34750/48008 [4:59:33<1:49:39,  2.02it/s] 72%|███████▏  | 34751/48008 [4:59:33<1:50:05,  2.01it/s] 72%|███████▏  | 34752/48008 [4:59:34<1:51:42,  1.98it/s] 72%|███████▏  | 34753/48008 [4:59:34<1:51:43,  1.98it/s] 72%|███████▏  | 34754/48008 [4:59:35<1:50:00,  2.01it/s] 72%|███████▏  | 34755/48008 [4:59:35<2:01:30,  1.82it/s] 72%|███████▏  | 34756/48008 [4:59:36<1:52:18,  1.97it/s] 72%|███████▏  | 34757/48008 [4:59:36<1:52:47,  1.96it/s] 72%|███████▏  | 34758/48008 [4:59:37<2:18:01,  1.60it/s] 72%|███████▏  | 34759/48008 [4:59:38<2:09:45,  1.70it/s] 72%|███████▏  | 34760/48008 [4:59:38<2:02:37,  1.80it/s] 72%|███████▏  | 34761/48008 [4:59:39<1:57:25,  1.88it/s] 72%|███████▏  | 34762/48008 [4:59:39<1:55:50,  1.91it/s] 72%|███████▏  | 34763/48008 [4:59:40<1:53:14,  1.95it/s] 72%|███████▏  | 34764/48008 [4:59:40<1:55:20,  1.91it/s] 72%|███████▏  | 34765/48008 [4:59:41<1:52:40,  1.96it/s] 72%|███████▏  | 34766/48008 [4:59:41<1:53:17,  1.95it/s] 72%|███████▏  | 34767/48008 [4:59:42<2:17:09,  1.61it/s] 72%|███████▏  | 34768/48008 [4:59:43<2:10:58,  1.68it/s] 72%|███████▏  | 34769/48008 [4:59:43<2:03:55,  1.78it/s] 72%|███████▏  | 34770/48008 [4:59:44<1:54:02,  1.93it/s] 72%|███████▏  | 34771/48008 [4:59:44<1:53:01,  1.95it/s] 72%|███████▏  | 34772/48008 [4:59:44<1:46:43,  2.07it/s] 72%|███████▏  | 34773/48008 [4:59:46<2:37:19,  1.40it/s] 72%|███████▏  | 34774/48008 [4:59:46<2:22:00,  1.55it/s] 72%|███████▏  | 34775/48008 [4:59:47<2:11:24,  1.68it/s] 72%|███████▏  | 34776/48008 [4:59:47<2:03:58,  1.78it/s] 72%|███████▏  | 34777/48008 [4:59:48<1:54:16,  1.93it/s] 72%|███████▏  | 34778/48008 [4:59:48<1:51:50,  1.97it/s] 72%|███████▏  | 34779/48008 [4:59:49<1:49:58,  2.00it/s] 72%|███████▏  | 34780/48008 [4:59:49<1:44:37,  2.11it/s] 72%|███████▏  | 34781/48008 [4:59:50<1:49:14,  2.02it/s] 72%|███████▏  | 34782/48008 [4:59:50<1:50:00,  2.00it/s] 72%|███████▏  | 34783/48008 [4:59:51<1:49:03,  2.02it/s] 72%|███████▏  | 34784/48008 [4:59:51<1:43:43,  2.12it/s] 72%|███████▏  | 34785/48008 [4:59:51<1:45:33,  2.09it/s] 72%|███████▏  | 34786/48008 [4:59:52<1:49:35,  2.01it/s] 72%|███████▏  | 34787/48008 [4:59:52<1:51:27,  1.98it/s] 72%|███████▏  | 34788/48008 [4:59:53<1:49:54,  2.00it/s] 72%|███████▏  | 34789/48008 [4:59:53<1:50:27,  1.99it/s] 72%|███████▏  | 34790/48008 [4:59:54<1:44:53,  2.10it/s] 72%|███████▏  | 34791/48008 [4:59:54<1:45:28,  2.09it/s] 72%|███████▏  | 34792/48008 [4:59:55<1:45:52,  2.08it/s] 72%|███████▏  | 34793/48008 [4:59:55<1:45:45,  2.08it/s] 72%|███████▏  | 34794/48008 [4:59:56<1:45:43,  2.08it/s] 72%|███████▏  | 34795/48008 [4:59:56<1:47:10,  2.05it/s] 72%|███████▏  | 34796/48008 [4:59:57<1:46:54,  2.06it/s] 72%|███████▏  | 34797/48008 [4:59:57<1:46:36,  2.07it/s] 72%|███████▏  | 34798/48008 [4:59:58<1:42:13,  2.15it/s] 72%|███████▏  | 34799/48008 [4:59:58<1:47:02,  2.06it/s] 72%|███████▏  | 34800/48008 [4:59:59<1:42:39,  2.14it/s]                                                         {'loss': 4.2304, 'grad_norm': 0.10102173686027527, 'learning_rate': 5.502832861189802e-05, 'epoch': 0.72} 72%|███████▏  | 34800/48008 [4:59:59<1:42:39,  2.14it/s]
 72%|███████▏  | 34801/48008 [4:59:59<1:46:44,  2.06it/s] 72%|███████▏  | 34802/48008 [5:00:00<1:46:29,  2.07it/s] 72%|███████▏  | 34803/48008 [5:00:00<1:46:15,  2.07it/s] 72%|███████▏  | 34804/48008 [5:00:01<1:42:09,  2.15it/s] 72%|███████▏  | 34805/48008 [5:00:01<1:56:06,  1.90it/s] 73%|███████▎  | 34806/48008 [5:00:02<2:05:38,  1.75it/s] 73%|███████▎  | 34807/48008 [5:00:02<2:01:07,  1.82it/s] 73%|███████▎  | 34808/48008 [5:00:03<1:52:16,  1.96it/s] 73%|███████▎  | 34809/48008 [5:00:03<1:49:55,  2.00it/s] 73%|███████▎  | 34810/48008 [5:00:04<1:48:41,  2.02it/s] 73%|███████▎  | 34811/48008 [5:00:04<1:47:59,  2.04it/s] 73%|███████▎  | 34812/48008 [5:00:05<1:49:11,  2.01it/s] 73%|███████▎  | 34813/48008 [5:00:05<1:50:27,  1.99it/s] 73%|███████▎  | 34814/48008 [5:00:06<1:51:48,  1.97it/s] 73%|███████▎  | 34815/48008 [5:00:06<1:52:29,  1.95it/s] 73%|███████▎  | 34816/48008 [5:00:07<1:53:29,  1.94it/s] 73%|███████▎  | 34817/48008 [5:00:07<1:52:27,  1.95it/s] 73%|███████▎  | 34818/48008 [5:00:08<1:53:19,  1.94it/s] 73%|███████▎  | 34819/48008 [5:00:08<1:52:57,  1.95it/s] 73%|███████▎  | 34820/48008 [5:00:09<1:52:06,  1.96it/s] 73%|███████▎  | 34821/48008 [5:00:09<1:50:26,  1.99it/s] 73%|███████▎  | 34822/48008 [5:00:10<1:49:16,  2.01it/s] 73%|███████▎  | 34823/48008 [5:00:10<1:49:47,  2.00it/s] 73%|███████▎  | 34824/48008 [5:00:11<1:48:24,  2.03it/s] 73%|███████▎  | 34825/48008 [5:00:11<1:43:39,  2.12it/s] 73%|███████▎  | 34826/48008 [5:00:12<1:46:12,  2.07it/s] 73%|███████▎  | 34827/48008 [5:00:12<1:47:26,  2.04it/s] 73%|███████▎  | 34828/48008 [5:00:13<1:50:47,  1.98it/s] 73%|███████▎  | 34829/48008 [5:00:13<1:49:18,  2.01it/s] 73%|███████▎  | 34830/48008 [5:00:14<1:50:03,  2.00it/s] 73%|███████▎  | 34831/48008 [5:00:14<1:48:21,  2.03it/s] 73%|███████▎  | 34832/48008 [5:00:15<2:13:59,  1.64it/s] 73%|███████▎  | 34833/48008 [5:00:16<2:09:22,  1.70it/s] 73%|███████▎  | 34834/48008 [5:00:16<2:03:38,  1.78it/s] 73%|███████▎  | 34835/48008 [5:00:17<2:02:17,  1.80it/s] 73%|███████▎  | 34836/48008 [5:00:17<1:57:31,  1.87it/s] 73%|███████▎  | 34837/48008 [5:00:18<1:58:09,  1.86it/s] 73%|███████▎  | 34838/48008 [5:00:18<1:55:42,  1.90it/s] 73%|███████▎  | 34839/48008 [5:00:19<1:52:54,  1.94it/s] 73%|███████▎  | 34840/48008 [5:00:19<1:52:29,  1.95it/s] 73%|███████▎  | 34841/48008 [5:00:20<2:03:06,  1.78it/s] 73%|███████▎  | 34842/48008 [5:00:20<1:57:50,  1.86it/s] 73%|███████▎  | 34843/48008 [5:00:21<1:54:18,  1.92it/s] 73%|███████▎  | 34844/48008 [5:00:21<1:51:43,  1.96it/s] 73%|███████▎  | 34845/48008 [5:00:22<1:49:34,  2.00it/s] 73%|███████▎  | 34846/48008 [5:00:22<1:44:09,  2.11it/s] 73%|███████▎  | 34847/48008 [5:00:23<1:46:00,  2.07it/s] 73%|███████▎  | 34848/48008 [5:00:23<1:41:34,  2.16it/s] 73%|███████▎  | 34849/48008 [5:00:24<1:45:23,  2.08it/s] 73%|███████▎  | 34850/48008 [5:00:24<1:46:37,  2.06it/s]                                                         {'loss': 4.2795, 'grad_norm': 0.1011313945055008, 'learning_rate': 5.4820029995000834e-05, 'epoch': 0.73}
 73%|███████▎  | 34850/48008 [5:00:24<1:46:37,  2.06it/s] 73%|███████▎  | 34851/48008 [5:00:25<1:42:00,  2.15it/s] 73%|███████▎  | 34852/48008 [5:00:25<1:45:45,  2.07it/s] 73%|███████▎  | 34853/48008 [5:00:26<1:47:11,  2.05it/s] 73%|███████▎  | 34854/48008 [5:00:26<1:46:41,  2.05it/s] 73%|███████▎  | 34855/48008 [5:00:27<1:46:31,  2.06it/s] 73%|███████▎  | 34856/48008 [5:00:27<1:48:51,  2.01it/s] 73%|███████▎  | 34857/48008 [5:00:28<2:00:43,  1.82it/s] 73%|███████▎  | 34858/48008 [5:00:28<1:57:48,  1.86it/s] 73%|███████▎  | 34859/48008 [5:00:29<1:54:19,  1.92it/s] 73%|███████▎  | 34860/48008 [5:00:29<1:51:45,  1.96it/s] 73%|███████▎  | 34861/48008 [5:00:30<1:49:55,  1.99it/s] 73%|███████▎  | 34862/48008 [5:00:30<1:48:48,  2.01it/s] 73%|███████▎  | 34863/48008 [5:00:31<1:47:32,  2.04it/s] 73%|███████▎  | 34864/48008 [5:00:31<1:46:45,  2.05it/s] 73%|███████▎  | 34865/48008 [5:00:32<1:49:10,  2.01it/s] 73%|███████▎  | 34866/48008 [5:00:32<1:49:41,  2.00it/s] 73%|███████▎  | 34867/48008 [5:00:33<1:44:16,  2.10it/s] 73%|███████▎  | 34868/48008 [5:00:33<1:47:07,  2.04it/s] 73%|███████▎  | 34869/48008 [5:00:34<1:50:22,  1.98it/s] 73%|███████▎  | 34870/48008 [5:00:34<1:52:38,  1.94it/s] 73%|███████▎  | 34871/48008 [5:00:35<1:50:55,  1.97it/s] 73%|███████▎  | 34872/48008 [5:00:35<1:49:33,  2.00it/s] 73%|███████▎  | 34873/48008 [5:00:36<1:48:21,  2.02it/s] 73%|███████▎  | 34874/48008 [5:00:36<1:49:48,  1.99it/s] 73%|███████▎  | 34875/48008 [5:00:37<1:48:16,  2.02it/s] 73%|███████▎  | 34876/48008 [5:00:37<1:43:12,  2.12it/s] 73%|███████▎  | 34877/48008 [5:00:38<1:43:50,  2.11it/s] 73%|███████▎  | 34878/48008 [5:00:38<1:44:10,  2.10it/s] 73%|███████▎  | 34879/48008 [5:00:39<1:37:55,  2.23it/s] 73%|███████▎  | 34880/48008 [5:00:39<1:35:57,  2.28it/s] 73%|███████▎  | 34881/48008 [5:00:39<1:38:38,  2.22it/s] 73%|███████▎  | 34882/48008 [5:00:41<2:31:50,  1.44it/s] 73%|███████▎  | 34883/48008 [5:00:41<2:19:29,  1.57it/s] 73%|███████▎  | 34884/48008 [5:00:42<2:09:10,  1.69it/s] 73%|███████▎  | 34885/48008 [5:00:42<2:02:07,  1.79it/s] 73%|███████▎  | 34886/48008 [5:00:43<1:58:53,  1.84it/s] 73%|███████▎  | 34887/48008 [5:00:43<1:50:32,  1.98it/s] 73%|███████▎  | 34888/48008 [5:00:44<1:44:57,  2.08it/s] 73%|███████▎  | 34889/48008 [5:00:44<1:48:49,  2.01it/s] 73%|███████▎  | 34890/48008 [5:00:44<1:43:36,  2.11it/s] 73%|███████▎  | 34891/48008 [5:00:45<1:46:06,  2.06it/s] 73%|███████▎  | 34892/48008 [5:00:45<1:46:03,  2.06it/s] 73%|███████▎  | 34893/48008 [5:00:46<1:48:34,  2.01it/s] 73%|███████▎  | 34894/48008 [5:00:46<1:47:36,  2.03it/s] 73%|███████▎  | 34895/48008 [5:00:47<1:46:54,  2.04it/s] 73%|███████▎  | 34896/48008 [5:00:47<1:48:56,  2.01it/s] 73%|███████▎  | 34897/48008 [5:00:48<1:47:53,  2.03it/s] 73%|███████▎  | 34898/48008 [5:00:48<1:46:49,  2.05it/s] 73%|███████▎  | 34899/48008 [5:00:49<1:46:05,  2.06it/s] 73%|███████▎  | 34900/48008 [5:00:50<1:58:48,  1.84it/s]                                                         {'loss': 4.2641, 'grad_norm': 0.08504245430231094, 'learning_rate': 5.4611731378103645e-05, 'epoch': 0.73}
 73%|███████▎  | 34900/48008 [5:00:50<1:58:48,  1.84it/s] 73%|███████▎  | 34901/48008 [5:00:50<1:54:50,  1.90it/s] 73%|███████▎  | 34902/48008 [5:00:50<1:47:33,  2.03it/s] 73%|███████▎  | 34903/48008 [5:00:51<1:43:00,  2.12it/s] 73%|███████▎  | 34904/48008 [5:00:52<1:56:06,  1.88it/s] 73%|███████▎  | 34905/48008 [5:00:52<1:54:37,  1.91it/s] 73%|███████▎  | 34906/48008 [5:00:53<1:52:01,  1.95it/s] 73%|███████▎  | 34907/48008 [5:00:53<1:45:39,  2.07it/s] 73%|███████▎  | 34908/48008 [5:00:53<1:45:52,  2.06it/s] 73%|███████▎  | 34909/48008 [5:00:54<1:45:37,  2.07it/s] 73%|███████▎  | 34910/48008 [5:00:54<1:49:06,  2.00it/s] 73%|███████▎  | 34911/48008 [5:00:55<1:47:58,  2.02it/s] 73%|███████▎  | 34912/48008 [5:00:55<1:42:55,  2.12it/s] 73%|███████▎  | 34913/48008 [5:00:56<1:45:47,  2.06it/s] 73%|███████▎  | 34914/48008 [5:00:56<1:45:40,  2.07it/s] 73%|███████▎  | 34915/48008 [5:00:57<2:12:02,  1.65it/s] 73%|███████▎  | 34916/48008 [5:00:58<2:04:06,  1.76it/s] 73%|███████▎  | 34917/48008 [5:00:58<1:58:18,  1.84it/s] 73%|███████▎  | 34918/48008 [5:00:59<1:56:30,  1.87it/s] 73%|███████▎  | 34919/48008 [5:01:00<2:18:45,  1.57it/s] 73%|███████▎  | 34920/48008 [5:01:00<2:09:52,  1.68it/s] 73%|███████▎  | 34921/48008 [5:01:01<2:03:38,  1.76it/s] 73%|███████▎  | 34922/48008 [5:01:01<1:58:05,  1.85it/s] 73%|███████▎  | 34923/48008 [5:01:02<1:54:23,  1.91it/s] 73%|███████▎  | 34924/48008 [5:01:02<1:51:08,  1.96it/s] 73%|███████▎  | 34925/48008 [5:01:03<1:49:20,  1.99it/s] 73%|███████▎  | 34926/48008 [5:01:03<1:43:48,  2.10it/s] 73%|███████▎  | 34927/48008 [5:01:03<1:44:12,  2.09it/s] 73%|███████▎  | 34928/48008 [5:01:04<1:57:23,  1.86it/s] 73%|███████▎  | 34929/48008 [5:01:05<1:49:21,  1.99it/s] 73%|███████▎  | 34930/48008 [5:01:05<1:43:41,  2.10it/s] 73%|███████▎  | 34931/48008 [5:01:05<1:39:51,  2.18it/s] 73%|███████▎  | 34932/48008 [5:01:06<1:41:24,  2.15it/s] 73%|███████▎  | 34933/48008 [5:01:06<1:43:34,  2.10it/s] 73%|███████▎  | 34934/48008 [5:01:07<1:43:30,  2.11it/s] 73%|███████▎  | 34935/48008 [5:01:07<1:39:54,  2.18it/s] 73%|███████▎  | 34936/48008 [5:01:08<1:41:30,  2.15it/s] 73%|███████▎  | 34937/48008 [5:01:08<1:42:40,  2.12it/s] 73%|███████▎  | 34938/48008 [5:01:09<1:43:09,  2.11it/s] 73%|███████▎  | 34939/48008 [5:01:09<1:39:28,  2.19it/s] 73%|███████▎  | 34940/48008 [5:01:10<1:44:52,  2.08it/s] 73%|███████▎  | 34941/48008 [5:01:10<1:40:37,  2.16it/s] 73%|███████▎  | 34942/48008 [5:01:11<1:43:01,  2.11it/s] 73%|███████▎  | 34943/48008 [5:01:11<1:47:19,  2.03it/s] 73%|███████▎  | 34944/48008 [5:01:12<1:42:10,  2.13it/s] 73%|███████▎  | 34945/48008 [5:01:12<1:44:25,  2.08it/s] 73%|███████▎  | 34946/48008 [5:01:13<1:47:02,  2.03it/s] 73%|███████▎  | 34947/48008 [5:01:13<1:47:43,  2.02it/s] 73%|███████▎  | 34948/48008 [5:01:14<1:48:09,  2.01it/s] 73%|███████▎  | 34949/48008 [5:01:14<1:51:26,  1.95it/s] 73%|███████▎  | 34950/48008 [5:01:15<1:51:27,  1.95it/s]                                                         {'loss': 4.25, 'grad_norm': 0.08855153620243073, 'learning_rate': 5.440343276120646e-05, 'epoch': 0.73}
 73%|███████▎  | 34950/48008 [5:01:15<1:51:27,  1.95it/s] 73%|███████▎  | 34951/48008 [5:01:15<1:49:37,  1.99it/s] 73%|███████▎  | 34952/48008 [5:01:16<1:49:45,  1.98it/s] 73%|███████▎  | 34953/48008 [5:01:16<1:49:55,  1.98it/s] 73%|███████▎  | 34954/48008 [5:01:17<1:47:58,  2.02it/s] 73%|███████▎  | 34955/48008 [5:01:17<1:47:03,  2.03it/s] 73%|███████▎  | 34956/48008 [5:01:17<1:42:08,  2.13it/s] 73%|███████▎  | 34957/48008 [5:01:18<1:42:44,  2.12it/s] 73%|███████▎  | 34958/48008 [5:01:18<1:45:57,  2.05it/s] 73%|███████▎  | 34959/48008 [5:01:20<2:36:21,  1.39it/s] 73%|███████▎  | 34960/48008 [5:01:20<2:22:07,  1.53it/s] 73%|███████▎  | 34961/48008 [5:01:21<2:06:36,  1.72it/s] 73%|███████▎  | 34962/48008 [5:01:21<1:56:00,  1.87it/s] 73%|███████▎  | 34963/48008 [5:01:21<1:47:57,  2.01it/s] 73%|███████▎  | 34964/48008 [5:01:22<1:48:04,  2.01it/s] 73%|███████▎  | 34965/48008 [5:01:23<1:50:46,  1.96it/s] 73%|███████▎  | 34966/48008 [5:01:23<1:48:37,  2.00it/s] 73%|███████▎  | 34967/48008 [5:01:23<1:47:28,  2.02it/s] 73%|███████▎  | 34968/48008 [5:01:24<1:46:42,  2.04it/s] 73%|███████▎  | 34969/48008 [5:01:24<1:46:00,  2.05it/s] 73%|███████▎  | 34970/48008 [5:01:25<1:45:32,  2.06it/s] 73%|███████▎  | 34971/48008 [5:01:26<2:11:24,  1.65it/s] 73%|███████▎  | 34972/48008 [5:01:26<1:59:04,  1.82it/s] 73%|███████▎  | 34973/48008 [5:01:27<1:54:42,  1.89it/s] 73%|███████▎  | 34974/48008 [5:01:27<1:51:36,  1.95it/s] 73%|███████▎  | 34975/48008 [5:01:28<1:50:58,  1.96it/s] 73%|███████▎  | 34976/48008 [5:01:28<1:44:41,  2.07it/s] 73%|███████▎  | 34977/48008 [5:01:29<1:40:20,  2.16it/s] 73%|███████▎  | 34978/48008 [5:01:29<1:37:32,  2.23it/s] 73%|███████▎  | 34979/48008 [5:01:30<1:52:12,  1.94it/s] 73%|███████▎  | 34980/48008 [5:01:30<1:49:49,  1.98it/s] 73%|███████▎  | 34981/48008 [5:01:31<1:44:01,  2.09it/s] 73%|███████▎  | 34982/48008 [5:01:31<1:39:47,  2.18it/s] 73%|███████▎  | 34983/48008 [5:01:31<1:36:56,  2.24it/s] 73%|███████▎  | 34984/48008 [5:01:32<1:40:26,  2.16it/s] 73%|███████▎  | 34985/48008 [5:01:32<1:41:43,  2.13it/s] 73%|███████▎  | 34986/48008 [5:01:33<1:55:07,  1.89it/s] 73%|███████▎  | 34987/48008 [5:01:34<2:04:11,  1.75it/s] 73%|███████▎  | 34988/48008 [5:01:34<1:59:42,  1.81it/s] 73%|███████▎  | 34989/48008 [5:01:35<1:55:03,  1.89it/s] 73%|███████▎  | 34990/48008 [5:01:35<1:55:30,  1.88it/s] 73%|███████▎  | 34991/48008 [5:01:36<1:51:59,  1.94it/s] 73%|███████▎  | 34992/48008 [5:01:36<1:51:26,  1.95it/s] 73%|███████▎  | 34993/48008 [5:01:37<1:49:27,  1.98it/s] 73%|███████▎  | 34994/48008 [5:01:37<1:47:57,  2.01it/s] 73%|███████▎  | 34995/48008 [5:01:38<1:42:39,  2.11it/s] 73%|███████▎  | 34996/48008 [5:01:38<1:45:47,  2.05it/s] 73%|███████▎  | 34997/48008 [5:01:39<2:11:04,  1.65it/s] 73%|███████▎  | 34998/48008 [5:01:39<2:03:26,  1.76it/s] 73%|███████▎  | 34999/48008 [5:01:40<2:10:31,  1.66it/s] 73%|███████▎  | 35000/48008 [5:01:41<2:06:45,  1.71it/s]                                                         {'loss': 4.2437, 'grad_norm': 0.089079350233078, 'learning_rate': 5.4195134144309286e-05, 'epoch': 0.73} 73%|███████▎  | 35000/48008 [5:01:41<2:06:45,  1.71it/s]
 73%|███████▎  | 35001/48008 [5:01:41<1:56:25,  1.86it/s] 73%|███████▎  | 35002/48008 [5:01:42<1:54:09,  1.90it/s] 73%|███████▎  | 35003/48008 [5:01:42<1:47:00,  2.03it/s] 73%|███████▎  | 35004/48008 [5:01:43<1:46:19,  2.04it/s] 73%|███████▎  | 35005/48008 [5:01:43<1:47:15,  2.02it/s] 73%|███████▎  | 35006/48008 [5:01:44<1:48:07,  2.00it/s] 73%|███████▎  | 35007/48008 [5:01:44<1:43:02,  2.10it/s] 73%|███████▎  | 35008/48008 [5:01:44<1:44:53,  2.07it/s] 73%|███████▎  | 35009/48008 [5:01:45<1:46:08,  2.04it/s] 73%|███████▎  | 35010/48008 [5:01:45<1:45:41,  2.05it/s] 73%|███████▎  | 35011/48008 [5:01:46<1:41:04,  2.14it/s] 73%|███████▎  | 35012/48008 [5:01:46<1:37:48,  2.21it/s] 73%|███████▎  | 35013/48008 [5:01:47<1:35:35,  2.27it/s] 73%|███████▎  | 35014/48008 [5:01:47<1:38:15,  2.20it/s] 73%|███████▎  | 35015/48008 [5:01:48<1:40:05,  2.16it/s] 73%|███████▎  | 35016/48008 [5:01:48<1:37:18,  2.23it/s] 73%|███████▎  | 35017/48008 [5:01:49<1:40:38,  2.15it/s] 73%|███████▎  | 35018/48008 [5:01:49<1:41:45,  2.13it/s] 73%|███████▎  | 35019/48008 [5:01:50<1:43:49,  2.09it/s] 73%|███████▎  | 35020/48008 [5:01:50<1:46:10,  2.04it/s] 73%|███████▎  | 35021/48008 [5:01:51<1:49:37,  1.97it/s] 73%|███████▎  | 35022/48008 [5:01:51<1:50:36,  1.96it/s] 73%|███████▎  | 35023/48008 [5:01:52<1:50:51,  1.95it/s] 73%|███████▎  | 35024/48008 [5:01:52<1:50:08,  1.96it/s] 73%|███████▎  | 35025/48008 [5:01:53<1:49:41,  1.97it/s] 73%|███████▎  | 35026/48008 [5:01:53<1:49:24,  1.98it/s] 73%|███████▎  | 35027/48008 [5:01:54<1:47:56,  2.00it/s] 73%|███████▎  | 35028/48008 [5:01:54<1:48:14,  2.00it/s] 73%|███████▎  | 35029/48008 [5:01:55<1:42:41,  2.11it/s] 73%|███████▎  | 35030/48008 [5:01:55<1:38:52,  2.19it/s] 73%|███████▎  | 35031/48008 [5:01:55<1:40:21,  2.15it/s] 73%|███████▎  | 35032/48008 [5:01:56<1:37:06,  2.23it/s] 73%|███████▎  | 35033/48008 [5:01:56<1:39:22,  2.18it/s] 73%|███████▎  | 35034/48008 [5:01:57<1:40:54,  2.14it/s] 73%|███████▎  | 35035/48008 [5:01:57<1:37:49,  2.21it/s] 73%|███████▎  | 35036/48008 [5:01:58<1:41:54,  2.12it/s] 73%|███████▎  | 35037/48008 [5:01:58<1:43:37,  2.09it/s] 73%|███████▎  | 35038/48008 [5:01:59<1:43:41,  2.08it/s] 73%|███████▎  | 35039/48008 [5:01:59<1:44:00,  2.08it/s] 73%|███████▎  | 35040/48008 [5:02:00<1:39:29,  2.17it/s] 73%|███████▎  | 35041/48008 [5:02:00<1:41:00,  2.14it/s] 73%|███████▎  | 35042/48008 [5:02:01<1:41:57,  2.12it/s] 73%|███████▎  | 35043/48008 [5:02:01<1:42:34,  2.11it/s] 73%|███████▎  | 35044/48008 [5:02:02<1:42:57,  2.10it/s] 73%|███████▎  | 35045/48008 [5:02:02<1:44:41,  2.06it/s] 73%|███████▎  | 35046/48008 [5:02:02<1:40:19,  2.15it/s] 73%|███████▎  | 35047/48008 [5:02:03<1:41:20,  2.13it/s] 73%|███████▎  | 35048/48008 [5:02:03<1:43:53,  2.08it/s] 73%|███████▎  | 35049/48008 [5:02:04<1:43:56,  2.08it/s] 73%|███████▎  | 35050/48008 [5:02:04<1:46:26,  2.03it/s]                                                         {'loss': 4.2444, 'grad_norm': 0.0968569964170456, 'learning_rate': 5.3986835527412104e-05, 'epoch': 0.73}
 73%|███████▎  | 35050/48008 [5:02:04<1:46:26,  2.03it/s] 73%|███████▎  | 35051/48008 [5:02:05<1:45:42,  2.04it/s] 73%|███████▎  | 35052/48008 [5:02:05<1:45:19,  2.05it/s] 73%|███████▎  | 35053/48008 [5:02:06<1:40:41,  2.14it/s] 73%|███████▎  | 35054/48008 [5:02:06<1:41:45,  2.12it/s] 73%|███████▎  | 35055/48008 [5:02:07<1:38:15,  2.20it/s] 73%|███████▎  | 35056/48008 [5:02:07<1:39:55,  2.16it/s] 73%|███████▎  | 35057/48008 [5:02:08<1:41:08,  2.13it/s] 73%|███████▎  | 35058/48008 [5:02:08<1:43:28,  2.09it/s] 73%|███████▎  | 35059/48008 [5:02:09<1:39:31,  2.17it/s] 73%|███████▎  | 35060/48008 [5:02:09<1:42:03,  2.11it/s] 73%|███████▎  | 35061/48008 [5:02:10<1:46:15,  2.03it/s] 73%|███████▎  | 35062/48008 [5:02:11<2:25:59,  1.48it/s] 73%|███████▎  | 35063/48008 [5:02:11<2:15:00,  1.60it/s] 73%|███████▎  | 35064/48008 [5:02:12<2:05:40,  1.72it/s] 73%|███████▎  | 35065/48008 [5:02:12<1:58:50,  1.82it/s] 73%|███████▎  | 35066/48008 [5:02:13<1:54:17,  1.89it/s] 73%|███████▎  | 35067/48008 [5:02:13<1:51:20,  1.94it/s] 73%|███████▎  | 35068/48008 [5:02:14<1:49:09,  1.98it/s] 73%|███████▎  | 35069/48008 [5:02:14<1:50:08,  1.96it/s] 73%|███████▎  | 35070/48008 [5:02:15<1:48:19,  1.99it/s] 73%|███████▎  | 35071/48008 [5:02:15<1:47:07,  2.01it/s] 73%|███████▎  | 35072/48008 [5:02:16<1:48:33,  1.99it/s] 73%|███████▎  | 35073/48008 [5:02:16<1:47:28,  2.01it/s] 73%|███████▎  | 35074/48008 [5:02:17<1:46:37,  2.02it/s] 73%|███████▎  | 35075/48008 [5:02:17<1:45:51,  2.04it/s] 73%|███████▎  | 35076/48008 [5:02:18<1:45:16,  2.05it/s] 73%|███████▎  | 35077/48008 [5:02:18<1:45:05,  2.05it/s] 73%|███████▎  | 35078/48008 [5:02:19<1:46:03,  2.03it/s] 73%|███████▎  | 35079/48008 [5:02:19<1:45:13,  2.05it/s] 73%|███████▎  | 35080/48008 [5:02:20<1:47:15,  2.01it/s] 73%|███████▎  | 35081/48008 [5:02:20<1:47:34,  2.00it/s] 73%|███████▎  | 35082/48008 [5:02:21<1:46:27,  2.02it/s] 73%|███████▎  | 35083/48008 [5:02:22<2:36:01,  1.38it/s] 73%|███████▎  | 35084/48008 [5:02:23<2:46:10,  1.30it/s] 73%|███████▎  | 35085/48008 [5:02:23<2:23:15,  1.50it/s] 73%|███████▎  | 35086/48008 [5:02:24<2:13:28,  1.61it/s] 73%|███████▎  | 35087/48008 [5:02:24<2:04:40,  1.73it/s] 73%|███████▎  | 35088/48008 [5:02:25<1:58:41,  1.81it/s] 73%|███████▎  | 35089/48008 [5:02:25<1:49:50,  1.96it/s] 73%|███████▎  | 35090/48008 [5:02:26<1:49:25,  1.97it/s] 73%|███████▎  | 35091/48008 [5:02:26<1:43:28,  2.08it/s] 73%|███████▎  | 35092/48008 [5:02:26<1:43:08,  2.09it/s] 73%|███████▎  | 35093/48008 [5:02:27<1:45:01,  2.05it/s] 73%|███████▎  | 35094/48008 [5:02:27<1:40:36,  2.14it/s] 73%|███████▎  | 35095/48008 [5:02:28<1:45:17,  2.04it/s] 73%|███████▎  | 35096/48008 [5:02:28<1:45:17,  2.04it/s] 73%|███████▎  | 35097/48008 [5:02:29<2:10:22,  1.65it/s] 73%|███████▎  | 35098/48008 [5:02:31<2:52:05,  1.25it/s] 73%|███████▎  | 35099/48008 [5:02:31<2:33:00,  1.41it/s] 73%|███████▎  | 35100/48008 [5:02:32<2:22:00,  1.51it/s]                                                         {'loss': 4.2535, 'grad_norm': 0.09155453741550446, 'learning_rate': 5.377853691051492e-05, 'epoch': 0.73} 73%|███████▎  | 35100/48008 [5:02:32<2:22:00,  1.51it/s]
 73%|███████▎  | 35101/48008 [5:02:33<2:59:53,  1.20it/s] 73%|███████▎  | 35102/48008 [5:02:33<2:37:08,  1.37it/s] 73%|███████▎  | 35103/48008 [5:02:34<2:17:06,  1.57it/s] 73%|███████▎  | 35104/48008 [5:02:34<2:07:13,  1.69it/s] 73%|███████▎  | 35105/48008 [5:02:35<1:59:47,  1.80it/s] 73%|███████▎  | 35106/48008 [5:02:35<1:55:06,  1.87it/s] 73%|███████▎  | 35107/48008 [5:02:36<1:51:59,  1.92it/s] 73%|███████▎  | 35108/48008 [5:02:36<1:50:07,  1.95it/s] 73%|███████▎  | 35109/48008 [5:02:37<1:50:34,  1.94it/s] 73%|███████▎  | 35110/48008 [5:02:37<1:49:47,  1.96it/s] 73%|███████▎  | 35111/48008 [5:02:38<1:49:31,  1.96it/s] 73%|███████▎  | 35112/48008 [5:02:38<1:47:51,  1.99it/s] 73%|███████▎  | 35113/48008 [5:02:39<1:58:44,  1.81it/s] 73%|███████▎  | 35114/48008 [5:02:39<1:55:32,  1.86it/s] 73%|███████▎  | 35115/48008 [5:02:40<1:52:03,  1.92it/s] 73%|███████▎  | 35116/48008 [5:02:41<2:39:45,  1.34it/s] 73%|███████▎  | 35117/48008 [5:02:42<2:24:02,  1.49it/s] 73%|███████▎  | 35118/48008 [5:02:42<2:14:06,  1.60it/s] 73%|███████▎  | 35119/48008 [5:02:43<2:05:00,  1.72it/s] 73%|███████▎  | 35120/48008 [5:02:43<1:54:32,  1.88it/s] 73%|███████▎  | 35121/48008 [5:02:44<1:50:56,  1.94it/s] 73%|███████▎  | 35122/48008 [5:02:44<1:50:21,  1.95it/s] 73%|███████▎  | 35123/48008 [5:02:45<1:48:22,  1.98it/s] 73%|███████▎  | 35124/48008 [5:02:46<2:36:37,  1.37it/s] 73%|███████▎  | 35125/48008 [5:02:47<2:46:44,  1.29it/s] 73%|███████▎  | 35126/48008 [5:02:47<2:31:26,  1.42it/s] 73%|███████▎  | 35127/48008 [5:02:48<2:17:03,  1.57it/s] 73%|███████▎  | 35128/48008 [5:02:48<2:08:21,  1.67it/s] 73%|███████▎  | 35129/48008 [5:02:49<2:02:48,  1.75it/s] 73%|███████▎  | 35130/48008 [5:02:49<1:57:55,  1.82it/s] 73%|███████▎  | 35131/48008 [5:02:50<1:54:08,  1.88it/s] 73%|███████▎  | 35132/48008 [5:02:50<1:50:50,  1.94it/s] 73%|███████▎  | 35133/48008 [5:02:51<1:48:52,  1.97it/s] 73%|███████▎  | 35134/48008 [5:02:51<1:49:25,  1.96it/s] 73%|███████▎  | 35135/48008 [5:02:52<1:48:43,  1.97it/s] 73%|███████▎  | 35136/48008 [5:02:52<1:59:29,  1.80it/s] 73%|███████▎  | 35137/48008 [5:02:53<1:54:28,  1.87it/s] 73%|███████▎  | 35138/48008 [5:02:53<1:51:18,  1.93it/s] 73%|███████▎  | 35139/48008 [5:02:54<1:50:19,  1.94it/s] 73%|███████▎  | 35140/48008 [5:02:54<1:51:54,  1.92it/s] 73%|███████▎  | 35141/48008 [5:02:55<1:50:38,  1.94it/s] 73%|███████▎  | 35142/48008 [5:02:55<1:50:51,  1.93it/s] 73%|███████▎  | 35143/48008 [5:02:56<1:51:09,  1.93it/s] 73%|███████▎  | 35144/48008 [5:02:57<2:14:12,  1.60it/s] 73%|███████▎  | 35145/48008 [5:02:57<2:05:01,  1.71it/s] 73%|███████▎  | 35146/48008 [5:02:58<1:54:28,  1.87it/s] 73%|███████▎  | 35147/48008 [5:02:58<1:52:10,  1.91it/s] 73%|███████▎  | 35148/48008 [5:02:59<1:49:33,  1.96it/s] 73%|███████▎  | 35149/48008 [5:02:59<1:43:41,  2.07it/s] 73%|███████▎  | 35150/48008 [5:03:00<1:56:02,  1.85it/s]                                                         {'loss': 4.326, 'grad_norm': 0.14754153788089752, 'learning_rate': 5.357023829361774e-05, 'epoch': 0.73}
 73%|███████▎  | 35150/48008 [5:03:00<1:56:02,  1.85it/s] 73%|███████▎  | 35151/48008 [5:03:00<1:52:14,  1.91it/s] 73%|███████▎  | 35152/48008 [5:03:01<1:49:27,  1.96it/s] 73%|███████▎  | 35153/48008 [5:03:01<1:47:36,  1.99it/s] 73%|███████▎  | 35154/48008 [5:03:02<1:49:41,  1.95it/s] 73%|███████▎  | 35155/48008 [5:03:02<1:47:41,  1.99it/s] 73%|███████▎  | 35156/48008 [5:03:03<1:42:09,  2.10it/s] 73%|███████▎  | 35157/48008 [5:03:03<1:38:02,  2.18it/s] 73%|███████▎  | 35158/48008 [5:03:04<1:41:34,  2.11it/s] 73%|███████▎  | 35159/48008 [5:03:04<1:37:42,  2.19it/s] 73%|███████▎  | 35160/48008 [5:03:04<1:41:50,  2.10it/s] 73%|███████▎  | 35161/48008 [5:03:05<1:43:48,  2.06it/s] 73%|███████▎  | 35162/48008 [5:03:05<1:39:10,  2.16it/s] 73%|███████▎  | 35163/48008 [5:03:06<2:05:40,  1.70it/s] 73%|███████▎  | 35164/48008 [5:03:07<2:01:40,  1.76it/s] 73%|███████▎  | 35165/48008 [5:03:07<1:56:17,  1.84it/s] 73%|███████▎  | 35166/48008 [5:03:08<1:48:08,  1.98it/s] 73%|███████▎  | 35167/48008 [5:03:08<1:48:14,  1.98it/s] 73%|███████▎  | 35168/48008 [5:03:09<1:59:16,  1.79it/s] 73%|███████▎  | 35169/48008 [5:03:09<1:54:05,  1.88it/s] 73%|███████▎  | 35170/48008 [5:03:10<1:52:10,  1.91it/s] 73%|███████▎  | 35171/48008 [5:03:10<1:49:17,  1.96it/s] 73%|███████▎  | 35172/48008 [5:03:11<1:47:18,  1.99it/s] 73%|███████▎  | 35173/48008 [5:03:11<1:46:01,  2.02it/s] 73%|███████▎  | 35174/48008 [5:03:12<1:45:20,  2.03it/s] 73%|███████▎  | 35175/48008 [5:03:12<1:44:39,  2.04it/s] 73%|███████▎  | 35176/48008 [5:03:13<1:47:49,  1.98it/s] 73%|███████▎  | 35177/48008 [5:03:13<1:46:23,  2.01it/s] 73%|███████▎  | 35178/48008 [5:03:14<1:48:47,  1.97it/s] 73%|███████▎  | 35179/48008 [5:03:14<1:47:09,  2.00it/s] 73%|███████▎  | 35180/48008 [5:03:15<1:41:52,  2.10it/s] 73%|███████▎  | 35181/48008 [5:03:15<1:42:04,  2.09it/s] 73%|███████▎  | 35182/48008 [5:03:16<1:43:45,  2.06it/s] 73%|███████▎  | 35183/48008 [5:03:16<1:43:32,  2.06it/s] 73%|███████▎  | 35184/48008 [5:03:17<1:43:35,  2.06it/s] 73%|███████▎  | 35185/48008 [5:03:17<1:39:18,  2.15it/s] 73%|███████▎  | 35186/48008 [5:03:18<1:36:14,  2.22it/s] 73%|███████▎  | 35187/48008 [5:03:18<1:39:42,  2.14it/s] 73%|███████▎  | 35188/48008 [5:03:19<1:52:55,  1.89it/s] 73%|███████▎  | 35189/48008 [5:03:19<1:52:24,  1.90it/s] 73%|███████▎  | 35190/48008 [5:03:20<1:49:28,  1.95it/s] 73%|███████▎  | 35191/48008 [5:03:20<1:48:59,  1.96it/s] 73%|███████▎  | 35192/48008 [5:03:21<1:49:33,  1.95it/s] 73%|███████▎  | 35193/48008 [5:03:21<1:50:00,  1.94it/s] 73%|███████▎  | 35194/48008 [5:03:22<1:47:50,  1.98it/s] 73%|███████▎  | 35195/48008 [5:03:22<1:42:00,  2.09it/s] 73%|███████▎  | 35196/48008 [5:03:23<1:54:38,  1.86it/s] 73%|███████▎  | 35197/48008 [5:03:23<1:46:53,  2.00it/s] 73%|███████▎  | 35198/48008 [5:03:24<1:47:12,  1.99it/s] 73%|███████▎  | 35199/48008 [5:03:24<1:48:33,  1.97it/s] 73%|███████▎  | 35200/48008 [5:03:25<1:42:39,  2.08it/s]                                                         {'loss': 4.2566, 'grad_norm': 0.1041310578584671, 'learning_rate': 5.336193967672055e-05, 'epoch': 0.73}
 73%|███████▎  | 35200/48008 [5:03:25<1:42:39,  2.08it/s] 73%|███████▎  | 35201/48008 [5:03:25<1:44:15,  2.05it/s] 73%|███████▎  | 35202/48008 [5:03:26<1:45:17,  2.03it/s] 73%|███████▎  | 35203/48008 [5:03:26<1:45:57,  2.01it/s] 73%|███████▎  | 35204/48008 [5:03:27<1:44:58,  2.03it/s] 73%|███████▎  | 35205/48008 [5:03:27<1:44:13,  2.05it/s] 73%|███████▎  | 35206/48008 [5:03:28<2:32:50,  1.40it/s] 73%|███████▎  | 35207/48008 [5:03:29<2:17:53,  1.55it/s] 73%|███████▎  | 35208/48008 [5:03:29<2:10:07,  1.64it/s] 73%|███████▎  | 35209/48008 [5:03:30<2:03:18,  1.73it/s] 73%|███████▎  | 35210/48008 [5:03:30<1:57:07,  1.82it/s] 73%|███████▎  | 35211/48008 [5:03:31<1:54:12,  1.87it/s] 73%|███████▎  | 35212/48008 [5:03:31<1:54:07,  1.87it/s] 73%|███████▎  | 35213/48008 [5:03:32<1:50:22,  1.93it/s] 73%|███████▎  | 35214/48008 [5:03:32<1:43:53,  2.05it/s] 73%|███████▎  | 35215/48008 [5:03:33<1:43:28,  2.06it/s] 73%|███████▎  | 35216/48008 [5:03:33<1:43:15,  2.06it/s] 73%|███████▎  | 35217/48008 [5:03:34<1:43:04,  2.07it/s] 73%|███████▎  | 35218/48008 [5:03:34<1:43:07,  2.07it/s] 73%|███████▎  | 35219/48008 [5:03:35<2:07:57,  1.67it/s] 73%|███████▎  | 35220/48008 [5:03:36<2:03:52,  1.72it/s] 73%|███████▎  | 35221/48008 [5:03:36<1:59:03,  1.79it/s] 73%|███████▎  | 35222/48008 [5:03:37<1:53:56,  1.87it/s] 73%|███████▎  | 35223/48008 [5:03:37<1:52:49,  1.89it/s] 73%|███████▎  | 35224/48008 [5:03:38<1:45:29,  2.02it/s] 73%|███████▎  | 35225/48008 [5:03:38<1:45:59,  2.01it/s] 73%|███████▎  | 35226/48008 [5:03:39<1:45:02,  2.03it/s] 73%|███████▎  | 35227/48008 [5:03:39<1:45:52,  2.01it/s] 73%|███████▎  | 35228/48008 [5:03:40<1:44:47,  2.03it/s] 73%|███████▎  | 35229/48008 [5:03:40<1:45:13,  2.02it/s] 73%|███████▎  | 35230/48008 [5:03:41<1:56:58,  1.82it/s] 73%|███████▎  | 35231/48008 [5:03:41<1:48:26,  1.96it/s] 73%|███████▎  | 35232/48008 [5:03:42<1:42:34,  2.08it/s] 73%|███████▎  | 35233/48008 [5:03:42<1:42:26,  2.08it/s] 73%|███████▎  | 35234/48008 [5:03:43<1:42:35,  2.08it/s] 73%|███████▎  | 35235/48008 [5:03:43<1:42:51,  2.07it/s] 73%|███████▎  | 35236/48008 [5:03:44<1:45:12,  2.02it/s] 73%|███████▎  | 35237/48008 [5:03:44<1:40:17,  2.12it/s] 73%|███████▎  | 35238/48008 [5:03:44<1:41:13,  2.10it/s] 73%|███████▎  | 35239/48008 [5:03:46<2:30:52,  1.41it/s] 73%|███████▎  | 35240/48008 [5:03:46<2:12:15,  1.61it/s] 73%|███████▎  | 35241/48008 [5:03:47<2:15:50,  1.57it/s] 73%|███████▎  | 35242/48008 [5:03:47<2:18:15,  1.54it/s] 73%|███████▎  | 35243/48008 [5:03:48<2:07:31,  1.67it/s] 73%|███████▎  | 35244/48008 [5:03:48<2:02:27,  1.74it/s] 73%|███████▎  | 35245/48008 [5:03:49<1:56:01,  1.83it/s] 73%|███████▎  | 35246/48008 [5:03:49<1:52:00,  1.90it/s] 73%|███████▎  | 35247/48008 [5:03:50<2:01:23,  1.75it/s] 73%|███████▎  | 35248/48008 [5:03:51<1:57:19,  1.81it/s] 73%|███████▎  | 35249/48008 [5:03:51<2:18:15,  1.54it/s] 73%|███████▎  | 35250/48008 [5:03:52<2:03:24,  1.72it/s]                                                         {'loss': 4.2812, 'grad_norm': 0.10359568893909454, 'learning_rate': 5.3153641059823366e-05, 'epoch': 0.73}
 73%|███████▎  | 35250/48008 [5:03:52<2:03:24,  1.72it/s] 73%|███████▎  | 35251/48008 [5:03:52<1:56:52,  1.82it/s] 73%|███████▎  | 35252/48008 [5:03:53<1:52:34,  1.89it/s] 73%|███████▎  | 35253/48008 [5:03:53<1:49:34,  1.94it/s] 73%|███████▎  | 35254/48008 [5:03:54<1:47:36,  1.98it/s] 73%|███████▎  | 35255/48008 [5:03:54<1:45:56,  2.01it/s] 73%|███████▎  | 35256/48008 [5:03:55<1:44:59,  2.02it/s] 73%|███████▎  | 35257/48008 [5:03:56<2:32:55,  1.39it/s] 73%|███████▎  | 35258/48008 [5:03:57<2:17:34,  1.54it/s] 73%|███████▎  | 35259/48008 [5:03:57<2:02:45,  1.73it/s] 73%|███████▎  | 35260/48008 [5:03:57<1:56:42,  1.82it/s] 73%|███████▎  | 35261/48008 [5:03:58<1:48:06,  1.97it/s] 73%|███████▎  | 35262/48008 [5:03:58<1:47:56,  1.97it/s] 73%|███████▎  | 35263/48008 [5:03:59<1:48:46,  1.95it/s] 73%|███████▎  | 35264/48008 [5:04:00<1:58:58,  1.79it/s] 73%|███████▎  | 35265/48008 [5:04:00<1:54:05,  1.86it/s] 73%|███████▎  | 35266/48008 [5:04:01<1:53:05,  1.88it/s] 73%|███████▎  | 35267/48008 [5:04:01<1:45:45,  2.01it/s] 73%|███████▎  | 35268/48008 [5:04:01<1:40:40,  2.11it/s] 73%|███████▎  | 35269/48008 [5:04:02<1:41:20,  2.09it/s] 73%|███████▎  | 35270/48008 [5:04:02<1:43:05,  2.06it/s] 73%|███████▎  | 35271/48008 [5:04:03<1:38:31,  2.15it/s] 73%|███████▎  | 35272/48008 [5:04:03<1:39:30,  2.13it/s] 73%|███████▎  | 35273/48008 [5:04:04<1:40:20,  2.12it/s] 73%|███████▎  | 35274/48008 [5:04:04<1:36:52,  2.19it/s] 73%|███████▎  | 35275/48008 [5:04:05<1:38:15,  2.16it/s] 73%|███████▎  | 35276/48008 [5:04:05<1:39:06,  2.14it/s] 73%|███████▎  | 35277/48008 [5:04:06<1:40:00,  2.12it/s] 73%|███████▎  | 35278/48008 [5:04:06<1:41:54,  2.08it/s] 73%|███████▎  | 35279/48008 [5:04:07<1:43:16,  2.05it/s] 73%|███████▎  | 35280/48008 [5:04:07<1:36:19,  2.20it/s] 73%|███████▎  | 35281/48008 [5:04:07<1:38:13,  2.16it/s] 73%|███████▎  | 35282/48008 [5:04:08<1:35:17,  2.23it/s] 73%|███████▎  | 35283/48008 [5:04:08<1:38:38,  2.15it/s] 73%|███████▎  | 35284/48008 [5:04:09<1:35:32,  2.22it/s] 73%|███████▎  | 35285/48008 [5:04:09<1:37:28,  2.18it/s] 74%|███████▎  | 35286/48008 [5:04:10<1:39:08,  2.14it/s] 74%|███████▎  | 35287/48008 [5:04:10<1:39:53,  2.12it/s] 74%|███████▎  | 35288/48008 [5:04:11<1:36:28,  2.20it/s] 74%|███████▎  | 35289/48008 [5:04:11<1:38:13,  2.16it/s] 74%|███████▎  | 35290/48008 [5:04:12<1:35:24,  2.22it/s] 74%|███████▎  | 35291/48008 [5:04:12<1:33:12,  2.27it/s] 74%|███████▎  | 35292/48008 [5:04:12<1:36:03,  2.21it/s] 74%|███████▎  | 35293/48008 [5:04:13<1:39:01,  2.14it/s] 74%|███████▎  | 35294/48008 [5:04:13<1:40:07,  2.12it/s] 74%|███████▎  | 35295/48008 [5:04:14<2:06:08,  1.68it/s] 74%|███████▎  | 35296/48008 [5:04:15<2:00:34,  1.76it/s] 74%|███████▎  | 35297/48008 [5:04:15<1:56:19,  1.82it/s] 74%|███████▎  | 35298/48008 [5:04:16<1:47:49,  1.96it/s] 74%|███████▎  | 35299/48008 [5:04:16<1:46:38,  1.99it/s] 74%|███████▎  | 35300/48008 [5:04:17<1:44:59,  2.02it/s]                                                         {'loss': 4.223, 'grad_norm': 0.11778523772954941, 'learning_rate': 5.2945342442926184e-05, 'epoch': 0.74}
 74%|███████▎  | 35300/48008 [5:04:17<1:44:59,  2.02it/s] 74%|███████▎  | 35301/48008 [5:04:17<1:56:17,  1.82it/s] 74%|███████▎  | 35302/48008 [5:04:18<1:51:55,  1.89it/s] 74%|███████▎  | 35303/48008 [5:04:18<1:52:35,  1.88it/s] 74%|███████▎  | 35304/48008 [5:04:19<1:51:09,  1.90it/s] 74%|███████▎  | 35305/48008 [5:04:19<1:44:12,  2.03it/s] 74%|███████▎  | 35306/48008 [5:04:20<1:43:15,  2.05it/s] 74%|███████▎  | 35307/48008 [5:04:21<2:08:15,  1.65it/s] 74%|███████▎  | 35308/48008 [5:04:21<2:00:28,  1.76it/s] 74%|███████▎  | 35309/48008 [5:04:22<1:50:39,  1.91it/s] 74%|███████▎  | 35310/48008 [5:04:22<1:44:03,  2.03it/s] 74%|███████▎  | 35311/48008 [5:04:23<1:45:15,  2.01it/s] 74%|███████▎  | 35312/48008 [5:04:23<1:44:18,  2.03it/s] 74%|███████▎  | 35313/48008 [5:04:23<1:43:30,  2.04it/s] 74%|███████▎  | 35314/48008 [5:04:24<1:44:49,  2.02it/s] 74%|███████▎  | 35315/48008 [5:04:24<1:43:49,  2.04it/s] 74%|███████▎  | 35316/48008 [5:04:25<1:43:23,  2.05it/s] 74%|███████▎  | 35317/48008 [5:04:25<1:46:55,  1.98it/s] 74%|███████▎  | 35318/48008 [5:04:26<1:46:58,  1.98it/s] 74%|███████▎  | 35319/48008 [5:04:27<2:10:22,  1.62it/s] 74%|███████▎  | 35320/48008 [5:04:27<2:02:01,  1.73it/s] 74%|███████▎  | 35321/48008 [5:04:28<1:56:03,  1.82it/s] 74%|███████▎  | 35322/48008 [5:04:28<1:52:01,  1.89it/s] 74%|███████▎  | 35323/48008 [5:04:29<1:51:40,  1.89it/s] 74%|███████▎  | 35324/48008 [5:04:29<1:48:37,  1.95it/s] 74%|███████▎  | 35325/48008 [5:04:30<1:48:24,  1.95it/s] 74%|███████▎  | 35326/48008 [5:04:30<1:46:36,  1.98it/s] 74%|███████▎  | 35327/48008 [5:04:31<1:40:54,  2.09it/s] 74%|███████▎  | 35328/48008 [5:04:31<1:41:14,  2.09it/s] 74%|███████▎  | 35329/48008 [5:04:32<1:41:28,  2.08it/s] 74%|███████▎  | 35330/48008 [5:04:32<1:43:07,  2.05it/s] 74%|███████▎  | 35331/48008 [5:04:33<2:31:35,  1.39it/s] 74%|███████▎  | 35332/48008 [5:04:34<2:19:10,  1.52it/s] 74%|███████▎  | 35333/48008 [5:04:34<2:03:52,  1.71it/s] 74%|███████▎  | 35334/48008 [5:04:35<1:53:11,  1.87it/s] 74%|███████▎  | 35335/48008 [5:04:35<1:51:02,  1.90it/s] 74%|███████▎  | 35336/48008 [5:04:36<1:48:22,  1.95it/s] 74%|███████▎  | 35337/48008 [5:04:36<1:46:39,  1.98it/s] 74%|███████▎  | 35338/48008 [5:04:37<1:45:10,  2.01it/s] 74%|███████▎  | 35339/48008 [5:04:37<1:56:18,  1.82it/s] 74%|███████▎  | 35340/48008 [5:04:38<1:47:42,  1.96it/s] 74%|███████▎  | 35341/48008 [5:04:38<1:47:41,  1.96it/s] 74%|███████▎  | 35342/48008 [5:04:39<2:11:18,  1.61it/s] 74%|███████▎  | 35343/48008 [5:04:40<2:02:33,  1.72it/s] 74%|███████▎  | 35344/48008 [5:04:40<1:52:09,  1.88it/s] 74%|███████▎  | 35345/48008 [5:04:41<1:51:35,  1.89it/s] 74%|███████▎  | 35346/48008 [5:04:41<1:48:16,  1.95it/s] 74%|███████▎  | 35347/48008 [5:04:42<1:46:21,  1.98it/s] 74%|███████▎  | 35348/48008 [5:04:42<1:46:12,  1.99it/s] 74%|███████▎  | 35349/48008 [5:04:43<1:46:11,  1.99it/s] 74%|███████▎  | 35350/48008 [5:04:43<1:47:26,  1.96it/s]                                                         {'loss': 4.2813, 'grad_norm': 0.09922891855239868, 'learning_rate': 5.2737043826029e-05, 'epoch': 0.74}
 74%|███████▎  | 35350/48008 [5:04:43<1:47:26,  1.96it/s] 74%|███████▎  | 35351/48008 [5:04:44<1:49:37,  1.92it/s] 74%|███████▎  | 35352/48008 [5:04:44<1:47:19,  1.97it/s] 74%|███████▎  | 35353/48008 [5:04:45<1:47:18,  1.97it/s] 74%|███████▎  | 35354/48008 [5:04:45<1:45:49,  1.99it/s] 74%|███████▎  | 35355/48008 [5:04:46<1:44:18,  2.02it/s] 74%|███████▎  | 35356/48008 [5:04:46<1:44:48,  2.01it/s] 74%|███████▎  | 35357/48008 [5:04:47<1:39:59,  2.11it/s] 74%|███████▎  | 35358/48008 [5:04:47<1:40:10,  2.10it/s] 74%|███████▎  | 35359/48008 [5:04:48<1:41:01,  2.09it/s] 74%|███████▎  | 35360/48008 [5:04:48<1:37:04,  2.17it/s] 74%|███████▎  | 35361/48008 [5:04:48<1:34:20,  2.23it/s] 74%|███████▎  | 35362/48008 [5:04:49<1:38:03,  2.15it/s] 74%|███████▎  | 35363/48008 [5:04:49<1:39:07,  2.13it/s] 74%|███████▎  | 35364/48008 [5:04:50<1:40:03,  2.11it/s] 74%|███████▎  | 35365/48008 [5:04:50<1:42:24,  2.06it/s] 74%|███████▎  | 35366/48008 [5:04:51<1:42:22,  2.06it/s] 74%|███████▎  | 35367/48008 [5:04:51<1:41:53,  2.07it/s] 74%|███████▎  | 35368/48008 [5:04:52<1:43:09,  2.04it/s] 74%|███████▎  | 35369/48008 [5:04:52<1:38:39,  2.14it/s] 74%|███████▎  | 35370/48008 [5:04:53<1:40:02,  2.11it/s] 74%|███████▎  | 35371/48008 [5:04:53<1:42:59,  2.04it/s] 74%|███████▎  | 35372/48008 [5:04:54<1:42:42,  2.05it/s] 74%|███████▎  | 35373/48008 [5:04:54<1:38:24,  2.14it/s] 74%|███████▎  | 35374/48008 [5:04:55<1:41:53,  2.07it/s] 74%|███████▎  | 35375/48008 [5:04:55<1:41:40,  2.07it/s] 74%|███████▎  | 35376/48008 [5:04:56<1:37:22,  2.16it/s] 74%|███████▎  | 35377/48008 [5:04:56<1:38:23,  2.14it/s] 74%|███████▎  | 35378/48008 [5:04:57<1:41:40,  2.07it/s] 74%|███████▎  | 35379/48008 [5:04:57<1:41:27,  2.07it/s] 74%|███████▎  | 35380/48008 [5:04:58<1:53:28,  1.85it/s] 74%|███████▎  | 35381/48008 [5:04:58<1:45:43,  1.99it/s] 74%|███████▎  | 35382/48008 [5:04:59<1:40:20,  2.10it/s] 74%|███████▎  | 35383/48008 [5:04:59<1:42:03,  2.06it/s] 74%|███████▎  | 35384/48008 [5:05:00<1:41:43,  2.07it/s] 74%|███████▎  | 35385/48008 [5:05:01<2:30:15,  1.40it/s] 74%|███████▎  | 35386/48008 [5:05:01<2:15:36,  1.55it/s] 74%|███████▎  | 35387/48008 [5:05:02<2:07:43,  1.65it/s] 74%|███████▎  | 35388/48008 [5:05:02<1:59:35,  1.76it/s] 74%|███████▎  | 35389/48008 [5:05:03<1:50:01,  1.91it/s] 74%|███████▎  | 35390/48008 [5:05:03<1:48:54,  1.93it/s] 74%|███████▎  | 35391/48008 [5:05:04<1:42:47,  2.05it/s] 74%|███████▎  | 35392/48008 [5:05:04<1:42:17,  2.06it/s] 74%|███████▎  | 35393/48008 [5:05:05<1:42:14,  2.06it/s] 74%|███████▎  | 35394/48008 [5:05:05<1:54:26,  1.84it/s] 74%|███████▎  | 35395/48008 [5:05:06<1:51:57,  1.88it/s] 74%|███████▎  | 35396/48008 [5:05:06<1:50:05,  1.91it/s] 74%|███████▎  | 35397/48008 [5:05:07<1:47:46,  1.95it/s] 74%|███████▎  | 35398/48008 [5:05:07<1:41:53,  2.06it/s] 74%|███████▎  | 35399/48008 [5:05:08<1:37:45,  2.15it/s] 74%|███████▎  | 35400/48008 [5:05:08<1:41:08,  2.08it/s]                                                         {'loss': 4.2296, 'grad_norm': 0.09557134658098221, 'learning_rate': 5.252874520913181e-05, 'epoch': 0.74} 74%|███████▎  | 35400/48008 [5:05:08<1:41:08,  2.08it/s]
 74%|███████▎  | 35401/48008 [5:05:09<1:42:50,  2.04it/s] 74%|███████▎  | 35402/48008 [5:05:09<1:42:22,  2.05it/s] 74%|███████▎  | 35403/48008 [5:05:10<1:43:33,  2.03it/s] 74%|███████▎  | 35404/48008 [5:05:10<1:42:46,  2.04it/s] 74%|███████▎  | 35405/48008 [5:05:11<1:42:20,  2.05it/s] 74%|███████▍  | 35406/48008 [5:05:12<2:30:26,  1.40it/s] 74%|███████▍  | 35407/48008 [5:05:13<2:28:05,  1.42it/s] 74%|███████▍  | 35408/48008 [5:05:13<2:14:01,  1.57it/s] 74%|███████▍  | 35409/48008 [5:05:13<2:00:24,  1.74it/s] 74%|███████▍  | 35410/48008 [5:05:14<2:06:41,  1.66it/s] 74%|███████▍  | 35411/48008 [5:05:15<1:59:22,  1.76it/s] 74%|███████▍  | 35412/48008 [5:05:15<1:49:47,  1.91it/s] 74%|███████▍  | 35413/48008 [5:05:15<1:43:09,  2.03it/s] 74%|███████▍  | 35414/48008 [5:05:16<1:44:37,  2.01it/s] 74%|███████▍  | 35415/48008 [5:05:16<1:45:41,  1.99it/s] 74%|███████▍  | 35416/48008 [5:05:17<1:56:29,  1.80it/s] 74%|███████▍  | 35417/48008 [5:05:18<1:47:27,  1.95it/s] 74%|███████▍  | 35418/48008 [5:05:18<1:45:44,  1.98it/s] 74%|███████▍  | 35419/48008 [5:05:19<1:44:18,  2.01it/s] 74%|███████▍  | 35420/48008 [5:05:19<1:43:14,  2.03it/s] 74%|███████▍  | 35421/48008 [5:05:19<1:42:30,  2.05it/s] 74%|███████▍  | 35422/48008 [5:05:21<2:30:33,  1.39it/s] 74%|███████▍  | 35423/48008 [5:05:21<2:19:11,  1.51it/s] 74%|███████▍  | 35424/48008 [5:05:22<2:08:57,  1.63it/s] 74%|███████▍  | 35425/48008 [5:05:22<2:00:37,  1.74it/s] 74%|███████▍  | 35426/48008 [5:05:23<1:58:18,  1.77it/s] 74%|███████▍  | 35427/48008 [5:05:23<1:55:15,  1.82it/s] 74%|███████▍  | 35428/48008 [5:05:24<1:50:43,  1.89it/s] 74%|███████▍  | 35429/48008 [5:05:24<1:49:09,  1.92it/s] 74%|███████▍  | 35430/48008 [5:05:25<1:42:43,  2.04it/s] 74%|███████▍  | 35431/48008 [5:05:25<1:42:05,  2.05it/s] 74%|███████▍  | 35432/48008 [5:05:26<1:44:00,  2.02it/s] 74%|███████▍  | 35433/48008 [5:05:26<1:43:04,  2.03it/s] 74%|███████▍  | 35434/48008 [5:05:27<1:44:00,  2.01it/s] 74%|███████▍  | 35435/48008 [5:05:27<1:43:04,  2.03it/s] 74%|███████▍  | 35436/48008 [5:05:28<1:42:29,  2.04it/s] 74%|███████▍  | 35437/48008 [5:05:28<1:41:55,  2.06it/s] 74%|███████▍  | 35438/48008 [5:05:29<1:44:12,  2.01it/s] 74%|███████▍  | 35439/48008 [5:05:29<1:44:32,  2.00it/s] 74%|███████▍  | 35440/48008 [5:05:30<1:43:35,  2.02it/s] 74%|███████▍  | 35441/48008 [5:05:30<1:44:52,  2.00it/s] 74%|███████▍  | 35442/48008 [5:05:31<1:39:51,  2.10it/s] 74%|███████▍  | 35443/48008 [5:05:31<1:42:16,  2.05it/s] 74%|███████▍  | 35444/48008 [5:05:32<1:42:01,  2.05it/s] 74%|███████▍  | 35445/48008 [5:05:32<1:41:33,  2.06it/s] 74%|███████▍  | 35446/48008 [5:05:33<1:41:29,  2.06it/s] 74%|███████▍  | 35447/48008 [5:05:33<1:43:49,  2.02it/s] 74%|███████▍  | 35448/48008 [5:05:34<1:43:06,  2.03it/s] 74%|███████▍  | 35449/48008 [5:05:34<1:42:24,  2.04it/s] 74%|███████▍  | 35450/48008 [5:05:34<1:37:58,  2.14it/s]                                                         {'loss': 4.2909, 'grad_norm': 0.09982365369796753, 'learning_rate': 5.232044659223463e-05, 'epoch': 0.74}
 74%|███████▍  | 35450/48008 [5:05:34<1:37:58,  2.14it/s] 74%|███████▍  | 35451/48008 [5:05:35<1:40:24,  2.08it/s] 74%|███████▍  | 35452/48008 [5:05:36<1:45:11,  1.99it/s] 74%|███████▍  | 35453/48008 [5:05:36<1:47:27,  1.95it/s] 74%|███████▍  | 35454/48008 [5:05:37<1:49:18,  1.91it/s] 74%|███████▍  | 35455/48008 [5:05:37<1:43:15,  2.03it/s] 74%|███████▍  | 35456/48008 [5:05:38<1:42:32,  2.04it/s] 74%|███████▍  | 35457/48008 [5:05:38<1:44:24,  2.00it/s] 74%|███████▍  | 35458/48008 [5:05:38<1:39:09,  2.11it/s] 74%|███████▍  | 35459/48008 [5:05:39<1:35:35,  2.19it/s] 74%|███████▍  | 35460/48008 [5:05:39<1:40:32,  2.08it/s] 74%|███████▍  | 35461/48008 [5:05:40<1:40:36,  2.08it/s] 74%|███████▍  | 35462/48008 [5:05:40<1:36:20,  2.17it/s] 74%|███████▍  | 35463/48008 [5:05:41<1:33:32,  2.24it/s] 74%|███████▍  | 35464/48008 [5:05:41<1:37:12,  2.15it/s] 74%|███████▍  | 35465/48008 [5:05:42<1:37:53,  2.14it/s] 74%|███████▍  | 35466/48008 [5:05:42<1:34:45,  2.21it/s] 74%|███████▍  | 35467/48008 [5:05:43<1:36:44,  2.16it/s] 74%|███████▍  | 35468/48008 [5:05:43<1:39:28,  2.10it/s] 74%|███████▍  | 35469/48008 [5:05:44<1:41:20,  2.06it/s] 74%|███████▍  | 35470/48008 [5:05:44<1:41:17,  2.06it/s] 74%|███████▍  | 35471/48008 [5:05:45<1:37:06,  2.15it/s] 74%|███████▍  | 35472/48008 [5:05:45<1:50:23,  1.89it/s] 74%|███████▍  | 35473/48008 [5:05:46<1:47:14,  1.95it/s] 74%|███████▍  | 35474/48008 [5:05:46<1:45:22,  1.98it/s] 74%|███████▍  | 35475/48008 [5:05:47<1:43:37,  2.02it/s] 74%|███████▍  | 35476/48008 [5:05:48<2:07:44,  1.64it/s] 74%|███████▍  | 35477/48008 [5:05:48<1:55:13,  1.81it/s] 74%|███████▍  | 35478/48008 [5:05:48<1:53:17,  1.84it/s] 74%|███████▍  | 35479/48008 [5:05:49<1:49:49,  1.90it/s] 74%|███████▍  | 35480/48008 [5:05:49<1:42:57,  2.03it/s] 74%|███████▍  | 35481/48008 [5:05:50<1:42:18,  2.04it/s] 74%|███████▍  | 35482/48008 [5:05:50<1:38:01,  2.13it/s] 74%|███████▍  | 35483/48008 [5:05:51<1:39:07,  2.11it/s] 74%|███████▍  | 35484/48008 [5:05:51<1:35:39,  2.18it/s] 74%|███████▍  | 35485/48008 [5:05:52<1:38:31,  2.12it/s] 74%|███████▍  | 35486/48008 [5:05:52<1:40:37,  2.07it/s] 74%|███████▍  | 35487/48008 [5:05:53<1:40:35,  2.07it/s] 74%|███████▍  | 35488/48008 [5:05:53<1:44:04,  2.01it/s] 74%|███████▍  | 35489/48008 [5:05:54<1:44:36,  1.99it/s] 74%|███████▍  | 35490/48008 [5:05:54<1:43:24,  2.02it/s] 74%|███████▍  | 35491/48008 [5:05:55<1:42:39,  2.03it/s] 74%|███████▍  | 35492/48008 [5:05:55<1:45:05,  1.98it/s] 74%|███████▍  | 35493/48008 [5:05:56<1:43:45,  2.01it/s] 74%|███████▍  | 35494/48008 [5:05:56<1:42:37,  2.03it/s] 74%|███████▍  | 35495/48008 [5:05:57<1:37:32,  2.14it/s] 74%|███████▍  | 35496/48008 [5:05:57<1:38:40,  2.11it/s] 74%|███████▍  | 35497/48008 [5:05:58<1:38:59,  2.11it/s] 74%|███████▍  | 35498/48008 [5:05:58<1:35:29,  2.18it/s] 74%|███████▍  | 35499/48008 [5:05:58<1:38:28,  2.12it/s] 74%|███████▍  | 35500/48008 [5:05:59<1:40:36,  2.07it/s]                                                         {'loss': 4.2411, 'grad_norm': 0.11406248062849045, 'learning_rate': 5.2112147975337446e-05, 'epoch': 0.74}
 74%|███████▍  | 35500/48008 [5:05:59<1:40:36,  2.07it/s] 74%|███████▍  | 35501/48008 [5:05:59<1:40:20,  2.08it/s] 74%|███████▍  | 35502/48008 [5:06:00<1:40:17,  2.08it/s] 74%|███████▍  | 35503/48008 [5:06:00<1:36:01,  2.17it/s] 74%|███████▍  | 35504/48008 [5:06:01<1:38:31,  2.12it/s] 74%|███████▍  | 35505/48008 [5:06:01<1:40:40,  2.07it/s] 74%|███████▍  | 35506/48008 [5:06:02<1:42:21,  2.04it/s] 74%|███████▍  | 35507/48008 [5:06:02<1:41:30,  2.05it/s] 74%|███████▍  | 35508/48008 [5:06:03<1:42:38,  2.03it/s] 74%|███████▍  | 35509/48008 [5:06:03<1:42:00,  2.04it/s] 74%|███████▍  | 35510/48008 [5:06:04<1:41:34,  2.05it/s] 74%|███████▍  | 35511/48008 [5:06:04<1:41:12,  2.06it/s] 74%|███████▍  | 35512/48008 [5:06:05<1:43:03,  2.02it/s] 74%|███████▍  | 35513/48008 [5:06:05<1:42:01,  2.04it/s] 74%|███████▍  | 35514/48008 [5:06:06<1:41:11,  2.06it/s] 74%|███████▍  | 35515/48008 [5:06:06<1:40:56,  2.06it/s] 74%|███████▍  | 35516/48008 [5:06:07<1:40:54,  2.06it/s] 74%|███████▍  | 35517/48008 [5:06:07<1:40:38,  2.07it/s] 74%|███████▍  | 35518/48008 [5:06:08<1:40:28,  2.07it/s] 74%|███████▍  | 35519/48008 [5:06:08<1:40:24,  2.07it/s] 74%|███████▍  | 35520/48008 [5:06:09<1:40:10,  2.08it/s] 74%|███████▍  | 35521/48008 [5:06:10<2:04:55,  1.67it/s] 74%|███████▍  | 35522/48008 [5:06:10<1:57:33,  1.77it/s] 74%|███████▍  | 35523/48008 [5:06:11<1:54:50,  1.81it/s] 74%|███████▍  | 35524/48008 [5:06:11<1:53:04,  1.84it/s] 74%|███████▍  | 35525/48008 [5:06:12<1:49:01,  1.91it/s] 74%|███████▍  | 35526/48008 [5:06:12<1:48:41,  1.91it/s] 74%|███████▍  | 35527/48008 [5:06:13<1:47:41,  1.93it/s] 74%|███████▍  | 35528/48008 [5:06:13<1:45:36,  1.97it/s] 74%|███████▍  | 35529/48008 [5:06:14<1:44:03,  2.00it/s] 74%|███████▍  | 35530/48008 [5:06:14<1:44:06,  2.00it/s] 74%|███████▍  | 35531/48008 [5:06:15<1:43:00,  2.02it/s] 74%|███████▍  | 35532/48008 [5:06:15<1:42:15,  2.03it/s] 74%|███████▍  | 35533/48008 [5:06:16<1:44:06,  2.00it/s] 74%|███████▍  | 35534/48008 [5:06:16<1:44:06,  2.00it/s] 74%|███████▍  | 35535/48008 [5:06:16<1:42:51,  2.02it/s] 74%|███████▍  | 35536/48008 [5:06:17<1:42:12,  2.03it/s] 74%|███████▍  | 35537/48008 [5:06:17<1:43:57,  2.00it/s] 74%|███████▍  | 35538/48008 [5:06:19<2:31:01,  1.38it/s] 74%|███████▍  | 35539/48008 [5:06:19<2:15:47,  1.53it/s] 74%|███████▍  | 35540/48008 [5:06:20<2:01:07,  1.72it/s] 74%|███████▍  | 35541/48008 [5:06:20<1:50:50,  1.87it/s] 74%|███████▍  | 35542/48008 [5:06:21<1:47:25,  1.93it/s] 74%|███████▍  | 35543/48008 [5:06:21<1:45:25,  1.97it/s] 74%|███████▍  | 35544/48008 [5:06:22<1:45:34,  1.97it/s] 74%|███████▍  | 35545/48008 [5:06:22<1:39:54,  2.08it/s] 74%|███████▍  | 35546/48008 [5:06:22<1:43:20,  2.01it/s] 74%|███████▍  | 35547/48008 [5:06:23<1:54:22,  1.82it/s] 74%|███████▍  | 35548/48008 [5:06:24<1:52:23,  1.85it/s] 74%|███████▍  | 35549/48008 [5:06:24<1:44:31,  1.99it/s] 74%|███████▍  | 35550/48008 [5:06:25<2:31:34,  1.37it/s]                                                         {'loss': 4.2393, 'grad_norm': 0.09649866074323654, 'learning_rate': 5.190384935844026e-05, 'epoch': 0.74}
 74%|███████▍  | 35550/48008 [5:06:25<2:31:34,  1.37it/s] 74%|███████▍  | 35551/48008 [5:06:26<2:12:00,  1.57it/s] 74%|███████▍  | 35552/48008 [5:06:26<2:02:39,  1.69it/s] 74%|███████▍  | 35553/48008 [5:06:27<1:55:51,  1.79it/s] 74%|███████▍  | 35554/48008 [5:06:27<2:03:24,  1.68it/s] 74%|███████▍  | 35555/48008 [5:06:28<1:56:11,  1.79it/s] 74%|███████▍  | 35556/48008 [5:06:28<1:50:58,  1.87it/s] 74%|███████▍  | 35557/48008 [5:06:29<1:47:23,  1.93it/s] 74%|███████▍  | 35558/48008 [5:06:29<1:41:09,  2.05it/s] 74%|███████▍  | 35559/48008 [5:06:30<1:42:07,  2.03it/s] 74%|███████▍  | 35560/48008 [5:06:30<1:42:36,  2.02it/s] 74%|███████▍  | 35561/48008 [5:06:31<1:37:39,  2.12it/s] 74%|███████▍  | 35562/48008 [5:06:31<1:40:42,  2.06it/s] 74%|███████▍  | 35563/48008 [5:06:32<1:42:47,  2.02it/s] 74%|███████▍  | 35564/48008 [5:06:32<1:43:09,  2.01it/s] 74%|███████▍  | 35565/48008 [5:06:33<1:38:10,  2.11it/s] 74%|███████▍  | 35566/48008 [5:06:33<1:38:41,  2.10it/s] 74%|███████▍  | 35567/48008 [5:06:34<1:38:54,  2.10it/s] 74%|███████▍  | 35568/48008 [5:06:34<1:39:04,  2.09it/s] 74%|███████▍  | 35569/48008 [5:06:35<1:39:35,  2.08it/s] 74%|███████▍  | 35570/48008 [5:06:35<1:39:26,  2.08it/s] 74%|███████▍  | 35571/48008 [5:06:35<1:35:50,  2.16it/s] 74%|███████▍  | 35572/48008 [5:06:36<2:02:02,  1.70it/s] 74%|███████▍  | 35573/48008 [5:06:37<1:56:42,  1.78it/s] 74%|███████▍  | 35574/48008 [5:06:37<1:47:45,  1.92it/s] 74%|███████▍  | 35575/48008 [5:06:38<1:45:11,  1.97it/s] 74%|███████▍  | 35576/48008 [5:06:38<1:43:19,  2.01it/s] 74%|███████▍  | 35577/48008 [5:06:39<1:42:32,  2.02it/s] 74%|███████▍  | 35578/48008 [5:06:39<1:42:49,  2.01it/s] 74%|███████▍  | 35579/48008 [5:06:40<1:53:43,  1.82it/s] 74%|███████▍  | 35580/48008 [5:06:40<1:45:28,  1.96it/s] 74%|███████▍  | 35581/48008 [5:06:41<1:46:03,  1.95it/s] 74%|███████▍  | 35582/48008 [5:06:41<1:46:22,  1.95it/s] 74%|███████▍  | 35583/48008 [5:06:42<1:48:12,  1.91it/s] 74%|███████▍  | 35584/48008 [5:06:42<1:47:14,  1.93it/s] 74%|███████▍  | 35585/48008 [5:06:43<1:46:03,  1.95it/s] 74%|███████▍  | 35586/48008 [5:06:44<2:08:30,  1.61it/s] 74%|███████▍  | 35587/48008 [5:06:44<1:55:47,  1.79it/s] 74%|███████▍  | 35588/48008 [5:06:45<1:52:39,  1.84it/s] 74%|███████▍  | 35589/48008 [5:06:45<1:44:45,  1.98it/s] 74%|███████▍  | 35590/48008 [5:06:46<2:30:38,  1.37it/s] 74%|███████▍  | 35591/48008 [5:06:47<2:16:35,  1.52it/s] 74%|███████▍  | 35592/48008 [5:06:47<2:06:48,  1.63it/s] 74%|███████▍  | 35593/48008 [5:06:48<1:58:44,  1.74it/s] 74%|███████▍  | 35594/48008 [5:06:48<1:48:52,  1.90it/s] 74%|███████▍  | 35595/48008 [5:06:49<1:47:33,  1.92it/s] 74%|███████▍  | 35596/48008 [5:06:49<1:46:33,  1.94it/s] 74%|███████▍  | 35597/48008 [5:06:50<1:44:19,  1.98it/s] 74%|███████▍  | 35598/48008 [5:06:50<1:42:58,  2.01it/s] 74%|███████▍  | 35599/48008 [5:06:51<1:41:58,  2.03it/s] 74%|███████▍  | 35600/48008 [5:06:51<1:40:59,  2.05it/s]                                                         {'loss': 4.2455, 'grad_norm': 0.09915521740913391, 'learning_rate': 5.1695550741543074e-05, 'epoch': 0.74}
 74%|███████▍  | 35600/48008 [5:06:51<1:40:59,  2.05it/s] 74%|███████▍  | 35601/48008 [5:06:52<1:36:49,  2.14it/s] 74%|███████▍  | 35602/48008 [5:06:52<1:49:52,  1.88it/s] 74%|███████▍  | 35603/48008 [5:06:53<1:42:40,  2.01it/s] 74%|███████▍  | 35604/48008 [5:06:53<1:45:31,  1.96it/s] 74%|███████▍  | 35605/48008 [5:06:54<1:45:29,  1.96it/s] 74%|███████▍  | 35606/48008 [5:06:54<1:46:15,  1.95it/s] 74%|███████▍  | 35607/48008 [5:06:55<1:44:27,  1.98it/s] 74%|███████▍  | 35608/48008 [5:06:55<1:44:28,  1.98it/s] 74%|███████▍  | 35609/48008 [5:06:56<1:38:58,  2.09it/s] 74%|███████▍  | 35610/48008 [5:06:56<1:39:16,  2.08it/s] 74%|███████▍  | 35611/48008 [5:06:57<1:39:26,  2.08it/s] 74%|███████▍  | 35612/48008 [5:06:57<1:39:04,  2.09it/s] 74%|███████▍  | 35613/48008 [5:06:58<1:39:14,  2.08it/s] 74%|███████▍  | 35614/48008 [5:06:58<1:39:19,  2.08it/s] 74%|███████▍  | 35615/48008 [5:06:59<1:40:47,  2.05it/s] 74%|███████▍  | 35616/48008 [5:06:59<1:40:53,  2.05it/s] 74%|███████▍  | 35617/48008 [5:07:00<2:04:40,  1.66it/s] 74%|███████▍  | 35618/48008 [5:07:00<1:57:01,  1.76it/s] 74%|███████▍  | 35619/48008 [5:07:01<1:53:19,  1.82it/s] 74%|███████▍  | 35620/48008 [5:07:01<1:52:45,  1.83it/s] 74%|███████▍  | 35621/48008 [5:07:02<1:52:36,  1.83it/s] 74%|███████▍  | 35622/48008 [5:07:03<1:48:32,  1.90it/s] 74%|███████▍  | 35623/48008 [5:07:03<1:41:46,  2.03it/s] 74%|███████▍  | 35624/48008 [5:07:03<1:40:58,  2.04it/s] 74%|███████▍  | 35625/48008 [5:07:04<1:36:10,  2.15it/s] 74%|███████▍  | 35626/48008 [5:07:04<1:37:10,  2.12it/s] 74%|███████▍  | 35627/48008 [5:07:05<1:33:41,  2.20it/s] 74%|███████▍  | 35628/48008 [5:07:05<1:35:25,  2.16it/s] 74%|███████▍  | 35629/48008 [5:07:06<1:36:36,  2.14it/s] 74%|███████▍  | 35630/48008 [5:07:06<1:39:01,  2.08it/s] 74%|███████▍  | 35631/48008 [5:07:07<1:39:17,  2.08it/s] 74%|███████▍  | 35632/48008 [5:07:07<1:39:16,  2.08it/s] 74%|███████▍  | 35633/48008 [5:07:08<1:40:32,  2.05it/s] 74%|███████▍  | 35634/48008 [5:07:08<1:52:23,  1.84it/s] 74%|███████▍  | 35635/48008 [5:07:09<1:48:37,  1.90it/s] 74%|███████▍  | 35636/48008 [5:07:09<1:48:25,  1.90it/s] 74%|███████▍  | 35637/48008 [5:07:10<1:47:20,  1.92it/s] 74%|███████▍  | 35638/48008 [5:07:10<1:45:00,  1.96it/s] 74%|███████▍  | 35639/48008 [5:07:11<1:43:25,  1.99it/s] 74%|███████▍  | 35640/48008 [5:07:11<1:42:08,  2.02it/s] 74%|███████▍  | 35641/48008 [5:07:12<1:42:38,  2.01it/s] 74%|███████▍  | 35642/48008 [5:07:12<1:41:40,  2.03it/s] 74%|███████▍  | 35643/48008 [5:07:13<1:40:42,  2.05it/s] 74%|███████▍  | 35644/48008 [5:07:13<1:40:08,  2.06it/s] 74%|███████▍  | 35645/48008 [5:07:14<1:39:53,  2.06it/s] 74%|███████▍  | 35646/48008 [5:07:15<2:03:49,  1.66it/s] 74%|███████▍  | 35647/48008 [5:07:15<1:58:39,  1.74it/s] 74%|███████▍  | 35648/48008 [5:07:16<2:04:35,  1.65it/s] 74%|███████▍  | 35649/48008 [5:07:16<1:53:03,  1.82it/s] 74%|███████▍  | 35650/48008 [5:07:17<1:49:05,  1.89it/s]                                                         {'loss': 4.2688, 'grad_norm': 0.1871548891067505, 'learning_rate': 5.148725212464589e-05, 'epoch': 0.74} 74%|███████▍  | 35650/48008 [5:07:17<1:49:05,  1.89it/s]
 74%|███████▍  | 35651/48008 [5:07:17<1:47:20,  1.92it/s] 74%|███████▍  | 35652/48008 [5:07:18<1:47:22,  1.92it/s] 74%|███████▍  | 35653/48008 [5:07:18<1:45:07,  1.96it/s] 74%|███████▍  | 35654/48008 [5:07:19<1:45:51,  1.95it/s] 74%|███████▍  | 35655/48008 [5:07:19<1:39:55,  2.06it/s] 74%|███████▍  | 35656/48008 [5:07:20<1:42:04,  2.02it/s] 74%|███████▍  | 35657/48008 [5:07:20<1:41:14,  2.03it/s] 74%|███████▍  | 35658/48008 [5:07:21<1:41:49,  2.02it/s] 74%|███████▍  | 35659/48008 [5:07:21<1:40:57,  2.04it/s] 74%|███████▍  | 35660/48008 [5:07:22<1:36:22,  2.14it/s] 74%|███████▍  | 35661/48008 [5:07:22<1:37:10,  2.12it/s] 74%|███████▍  | 35662/48008 [5:07:22<1:33:41,  2.20it/s] 74%|███████▍  | 35663/48008 [5:07:23<1:35:27,  2.16it/s] 74%|███████▍  | 35664/48008 [5:07:23<1:36:34,  2.13it/s] 74%|███████▍  | 35665/48008 [5:07:24<1:37:23,  2.11it/s] 74%|███████▍  | 35666/48008 [5:07:24<1:39:10,  2.07it/s] 74%|███████▍  | 35667/48008 [5:07:25<1:51:04,  1.85it/s] 74%|███████▍  | 35668/48008 [5:07:26<1:48:49,  1.89it/s] 74%|███████▍  | 35669/48008 [5:07:26<1:46:04,  1.94it/s] 74%|███████▍  | 35670/48008 [5:07:27<1:43:55,  1.98it/s] 74%|███████▍  | 35671/48008 [5:07:27<1:38:30,  2.09it/s] 74%|███████▍  | 35672/48008 [5:07:27<1:34:26,  2.18it/s] 74%|███████▍  | 35673/48008 [5:07:28<1:31:46,  2.24it/s] 74%|███████▍  | 35674/48008 [5:07:28<1:34:02,  2.19it/s] 74%|███████▍  | 35675/48008 [5:07:29<1:36:42,  2.13it/s] 74%|███████▍  | 35676/48008 [5:07:29<1:37:22,  2.11it/s] 74%|███████▍  | 35677/48008 [5:07:30<1:37:33,  2.11it/s] 74%|███████▍  | 35678/48008 [5:07:30<1:37:52,  2.10it/s] 74%|███████▍  | 35679/48008 [5:07:31<1:40:47,  2.04it/s] 74%|███████▍  | 35680/48008 [5:07:31<1:41:46,  2.02it/s] 74%|███████▍  | 35681/48008 [5:07:32<1:36:58,  2.12it/s] 74%|███████▍  | 35682/48008 [5:07:32<1:39:50,  2.06it/s] 74%|███████▍  | 35683/48008 [5:07:33<1:35:37,  2.15it/s] 74%|███████▍  | 35684/48008 [5:07:33<1:39:04,  2.07it/s] 74%|███████▍  | 35685/48008 [5:07:34<1:40:44,  2.04it/s] 74%|███████▍  | 35686/48008 [5:07:34<1:40:20,  2.05it/s] 74%|███████▍  | 35687/48008 [5:07:35<1:35:59,  2.14it/s] 74%|███████▍  | 35688/48008 [5:07:35<1:36:55,  2.12it/s] 74%|███████▍  | 35689/48008 [5:07:35<1:33:37,  2.19it/s] 74%|███████▍  | 35690/48008 [5:07:36<1:31:04,  2.25it/s] 74%|███████▍  | 35691/48008 [5:07:36<1:35:16,  2.15it/s] 74%|███████▍  | 35692/48008 [5:07:37<1:32:24,  2.22it/s] 74%|███████▍  | 35693/48008 [5:07:37<1:36:32,  2.13it/s] 74%|███████▍  | 35694/48008 [5:07:38<1:40:33,  2.04it/s] 74%|███████▍  | 35695/48008 [5:07:38<1:39:52,  2.05it/s] 74%|███████▍  | 35696/48008 [5:07:39<2:04:12,  1.65it/s] 74%|███████▍  | 35697/48008 [5:07:40<1:58:55,  1.73it/s] 74%|███████▍  | 35698/48008 [5:07:40<1:56:10,  1.77it/s] 74%|███████▍  | 35699/48008 [5:07:41<1:47:00,  1.92it/s] 74%|███████▍  | 35700/48008 [5:07:41<1:48:26,  1.89it/s]                                                         {'loss': 4.2296, 'grad_norm': 0.10272764414548874, 'learning_rate': 5.127895350774871e-05, 'epoch': 0.74}
 74%|███████▍  | 35700/48008 [5:07:41<1:48:26,  1.89it/s] 74%|███████▍  | 35701/48008 [5:07:42<1:45:32,  1.94it/s] 74%|███████▍  | 35702/48008 [5:07:42<1:45:19,  1.95it/s] 74%|███████▍  | 35703/48008 [5:07:43<1:43:39,  1.98it/s] 74%|███████▍  | 35704/48008 [5:07:43<1:54:20,  1.79it/s] 74%|███████▍  | 35705/48008 [5:07:44<1:49:33,  1.87it/s] 74%|███████▍  | 35706/48008 [5:07:44<1:48:26,  1.89it/s] 74%|███████▍  | 35707/48008 [5:07:45<1:45:46,  1.94it/s] 74%|███████▍  | 35708/48008 [5:07:45<1:45:47,  1.94it/s] 74%|███████▍  | 35709/48008 [5:07:46<1:43:50,  1.97it/s] 74%|███████▍  | 35710/48008 [5:07:46<1:43:45,  1.98it/s] 74%|███████▍  | 35711/48008 [5:07:47<2:21:43,  1.45it/s] 74%|███████▍  | 35712/48008 [5:07:48<2:08:52,  1.59it/s] 74%|███████▍  | 35713/48008 [5:07:48<2:02:25,  1.67it/s] 74%|███████▍  | 35714/48008 [5:07:49<1:55:13,  1.78it/s] 74%|███████▍  | 35715/48008 [5:07:49<1:50:27,  1.85it/s] 74%|███████▍  | 35716/48008 [5:07:50<1:47:07,  1.91it/s] 74%|███████▍  | 35717/48008 [5:07:50<1:40:41,  2.03it/s] 74%|███████▍  | 35718/48008 [5:07:51<1:40:28,  2.04it/s] 74%|███████▍  | 35719/48008 [5:07:51<1:40:11,  2.04it/s] 74%|███████▍  | 35720/48008 [5:07:52<1:39:57,  2.05it/s] 74%|███████▍  | 35721/48008 [5:07:52<1:42:17,  2.00it/s] 74%|███████▍  | 35722/48008 [5:07:53<1:44:52,  1.95it/s] 74%|███████▍  | 35723/48008 [5:07:53<1:39:09,  2.07it/s] 74%|███████▍  | 35724/48008 [5:07:54<2:03:03,  1.66it/s] 74%|███████▍  | 35725/48008 [5:07:55<1:59:29,  1.71it/s] 74%|███████▍  | 35726/48008 [5:07:55<1:53:14,  1.81it/s] 74%|███████▍  | 35727/48008 [5:07:56<1:49:05,  1.88it/s] 74%|███████▍  | 35728/48008 [5:07:56<1:45:42,  1.94it/s] 74%|███████▍  | 35729/48008 [5:07:57<1:46:09,  1.93it/s] 74%|███████▍  | 35730/48008 [5:07:57<1:45:25,  1.94it/s] 74%|███████▍  | 35731/48008 [5:07:58<1:44:41,  1.95it/s] 74%|███████▍  | 35732/48008 [5:07:58<1:45:26,  1.94it/s] 74%|███████▍  | 35733/48008 [5:07:59<1:45:54,  1.93it/s] 74%|███████▍  | 35734/48008 [5:07:59<1:45:08,  1.95it/s] 74%|███████▍  | 35735/48008 [5:08:00<1:39:16,  2.06it/s] 74%|███████▍  | 35736/48008 [5:08:00<1:39:02,  2.07it/s] 74%|███████▍  | 35737/48008 [5:08:01<1:34:36,  2.16it/s] 74%|███████▍  | 35738/48008 [5:08:01<1:31:54,  2.23it/s] 74%|███████▍  | 35739/48008 [5:08:01<1:34:02,  2.17it/s] 74%|███████▍  | 35740/48008 [5:08:02<1:47:02,  1.91it/s] 74%|███████▍  | 35741/48008 [5:08:03<1:44:28,  1.96it/s] 74%|███████▍  | 35742/48008 [5:08:03<1:44:17,  1.96it/s] 74%|███████▍  | 35743/48008 [5:08:04<1:44:04,  1.96it/s] 74%|███████▍  | 35744/48008 [5:08:04<1:38:34,  2.07it/s] 74%|███████▍  | 35745/48008 [5:08:05<1:40:53,  2.03it/s] 74%|███████▍  | 35746/48008 [5:08:05<1:40:11,  2.04it/s] 74%|███████▍  | 35747/48008 [5:08:06<2:04:16,  1.64it/s] 74%|███████▍  | 35748/48008 [5:08:06<1:52:44,  1.81it/s] 74%|███████▍  | 35749/48008 [5:08:07<1:48:54,  1.88it/s] 74%|███████▍  | 35750/48008 [5:08:07<1:41:52,  2.01it/s]                                                         {'loss': 4.2347, 'grad_norm': 0.249411940574646, 'learning_rate': 5.107065489085153e-05, 'epoch': 0.74}
 74%|███████▍  | 35750/48008 [5:08:07<1:41:52,  2.01it/s] 74%|███████▍  | 35751/48008 [5:08:08<1:36:52,  2.11it/s] 74%|███████▍  | 35752/48008 [5:08:08<1:37:34,  2.09it/s] 74%|███████▍  | 35753/48008 [5:08:09<1:38:06,  2.08it/s] 74%|███████▍  | 35754/48008 [5:08:09<1:38:12,  2.08it/s] 74%|███████▍  | 35755/48008 [5:08:10<1:38:28,  2.07it/s] 74%|███████▍  | 35756/48008 [5:08:10<1:40:24,  2.03it/s] 74%|███████▍  | 35757/48008 [5:08:11<1:35:48,  2.13it/s] 74%|███████▍  | 35758/48008 [5:08:11<1:38:05,  2.08it/s] 74%|███████▍  | 35759/48008 [5:08:12<1:39:16,  2.06it/s] 74%|███████▍  | 35760/48008 [5:08:12<1:41:34,  2.01it/s] 74%|███████▍  | 35761/48008 [5:08:13<1:40:24,  2.03it/s] 74%|███████▍  | 35762/48008 [5:08:13<1:39:55,  2.04it/s] 74%|███████▍  | 35763/48008 [5:08:14<1:39:47,  2.05it/s] 74%|███████▍  | 35764/48008 [5:08:14<1:39:43,  2.05it/s] 74%|███████▍  | 35765/48008 [5:08:14<1:39:03,  2.06it/s] 75%|███████▍  | 35766/48008 [5:08:15<1:38:38,  2.07it/s] 75%|███████▍  | 35767/48008 [5:08:15<1:39:59,  2.04it/s] 75%|███████▍  | 35768/48008 [5:08:16<1:39:29,  2.05it/s] 75%|███████▍  | 35769/48008 [5:08:16<1:35:17,  2.14it/s] 75%|███████▍  | 35770/48008 [5:08:17<1:36:24,  2.12it/s] 75%|███████▍  | 35771/48008 [5:08:17<1:32:36,  2.20it/s] 75%|███████▍  | 35772/48008 [5:08:18<1:34:10,  2.17it/s] 75%|███████▍  | 35773/48008 [5:08:18<1:37:49,  2.08it/s] 75%|███████▍  | 35774/48008 [5:08:19<1:37:51,  2.08it/s] 75%|███████▍  | 35775/48008 [5:08:19<1:34:11,  2.16it/s] 75%|███████▍  | 35776/48008 [5:08:20<1:36:46,  2.11it/s] 75%|███████▍  | 35777/48008 [5:08:20<1:37:35,  2.09it/s] 75%|███████▍  | 35778/48008 [5:08:21<1:37:59,  2.08it/s] 75%|███████▍  | 35779/48008 [5:08:21<1:38:29,  2.07it/s] 75%|███████▍  | 35780/48008 [5:08:22<1:38:16,  2.07it/s] 75%|███████▍  | 35781/48008 [5:08:22<1:42:00,  2.00it/s] 75%|███████▍  | 35782/48008 [5:08:23<1:40:32,  2.03it/s] 75%|███████▍  | 35783/48008 [5:08:23<1:36:03,  2.12it/s] 75%|███████▍  | 35784/48008 [5:08:23<1:32:49,  2.19it/s] 75%|███████▍  | 35785/48008 [5:08:24<1:34:29,  2.16it/s] 75%|███████▍  | 35786/48008 [5:08:24<1:35:42,  2.13it/s] 75%|███████▍  | 35787/48008 [5:08:25<1:38:12,  2.07it/s] 75%|███████▍  | 35788/48008 [5:08:25<1:34:11,  2.16it/s] 75%|███████▍  | 35789/48008 [5:08:27<2:22:28,  1.43it/s] 75%|███████▍  | 35790/48008 [5:08:27<2:05:14,  1.63it/s] 75%|███████▍  | 35791/48008 [5:08:27<1:53:09,  1.80it/s] 75%|███████▍  | 35792/48008 [5:08:28<1:48:43,  1.87it/s] 75%|███████▍  | 35793/48008 [5:08:28<1:45:40,  1.93it/s] 75%|███████▍  | 35794/48008 [5:08:29<1:37:16,  2.09it/s] 75%|███████▍  | 35795/48008 [5:08:29<1:37:49,  2.08it/s] 75%|███████▍  | 35796/48008 [5:08:30<1:37:43,  2.08it/s] 75%|███████▍  | 35797/48008 [5:08:31<2:25:12,  1.40it/s] 75%|███████▍  | 35798/48008 [5:08:32<2:10:41,  1.56it/s] 75%|███████▍  | 35799/48008 [5:08:32<2:04:48,  1.63it/s] 75%|███████▍  | 35800/48008 [5:08:33<1:56:38,  1.74it/s]                                                         {'loss': 4.2243, 'grad_norm': 0.4511042833328247, 'learning_rate': 5.086235627395435e-05, 'epoch': 0.75}
 75%|███████▍  | 35800/48008 [5:08:33<1:56:38,  1.74it/s] 75%|███████▍  | 35801/48008 [5:08:33<2:03:01,  1.65it/s] 75%|███████▍  | 35802/48008 [5:08:34<1:55:31,  1.76it/s] 75%|███████▍  | 35803/48008 [5:08:34<1:51:46,  1.82it/s] 75%|███████▍  | 35804/48008 [5:08:35<1:49:00,  1.87it/s] 75%|███████▍  | 35805/48008 [5:08:35<1:45:51,  1.92it/s] 75%|███████▍  | 35806/48008 [5:08:36<1:43:29,  1.97it/s] 75%|███████▍  | 35807/48008 [5:08:36<1:43:18,  1.97it/s] 75%|███████▍  | 35808/48008 [5:08:37<1:44:11,  1.95it/s] 75%|███████▍  | 35809/48008 [5:08:37<1:43:48,  1.96it/s] 75%|███████▍  | 35810/48008 [5:08:38<1:41:46,  2.00it/s] 75%|███████▍  | 35811/48008 [5:08:38<1:41:56,  1.99it/s] 75%|███████▍  | 35812/48008 [5:08:39<1:42:05,  1.99it/s] 75%|███████▍  | 35813/48008 [5:08:39<1:36:46,  2.10it/s] 75%|███████▍  | 35814/48008 [5:08:40<1:48:58,  1.86it/s] 75%|███████▍  | 35815/48008 [5:08:40<1:41:41,  2.00it/s] 75%|███████▍  | 35816/48008 [5:08:41<1:42:40,  1.98it/s] 75%|███████▍  | 35817/48008 [5:08:41<1:41:09,  2.01it/s] 75%|███████▍  | 35818/48008 [5:08:42<1:39:59,  2.03it/s] 75%|███████▍  | 35819/48008 [5:08:42<1:39:29,  2.04it/s] 75%|███████▍  | 35820/48008 [5:08:43<1:39:06,  2.05it/s] 75%|███████▍  | 35821/48008 [5:08:43<1:38:44,  2.06it/s] 75%|███████▍  | 35822/48008 [5:08:44<1:39:51,  2.03it/s] 75%|███████▍  | 35823/48008 [5:08:44<1:39:11,  2.05it/s] 75%|███████▍  | 35824/48008 [5:08:45<1:42:10,  1.99it/s] 75%|███████▍  | 35825/48008 [5:08:45<1:41:14,  2.01it/s] 75%|███████▍  | 35826/48008 [5:08:46<1:36:22,  2.11it/s] 75%|███████▍  | 35827/48008 [5:08:46<1:36:46,  2.10it/s] 75%|███████▍  | 35828/48008 [5:08:46<1:33:08,  2.18it/s] 75%|███████▍  | 35829/48008 [5:08:47<1:34:30,  2.15it/s] 75%|███████▍  | 35830/48008 [5:08:47<1:39:19,  2.04it/s] 75%|███████▍  | 35831/48008 [5:08:48<1:38:44,  2.06it/s] 75%|███████▍  | 35832/48008 [5:08:48<1:38:26,  2.06it/s] 75%|███████▍  | 35833/48008 [5:08:50<2:24:45,  1.40it/s] 75%|███████▍  | 35834/48008 [5:08:50<2:13:26,  1.52it/s] 75%|███████▍  | 35835/48008 [5:08:51<2:04:11,  1.63it/s] 75%|███████▍  | 35836/48008 [5:08:51<1:56:09,  1.75it/s] 75%|███████▍  | 35837/48008 [5:08:52<1:52:22,  1.81it/s] 75%|███████▍  | 35838/48008 [5:08:52<1:47:49,  1.88it/s] 75%|███████▍  | 35839/48008 [5:08:53<1:46:17,  1.91it/s] 75%|███████▍  | 35840/48008 [5:08:53<1:45:05,  1.93it/s] 75%|███████▍  | 35841/48008 [5:08:54<1:43:07,  1.97it/s] 75%|███████▍  | 35842/48008 [5:08:54<1:41:57,  1.99it/s] 75%|███████▍  | 35843/48008 [5:08:55<2:05:05,  1.62it/s] 75%|███████▍  | 35844/48008 [5:08:56<1:56:48,  1.74it/s] 75%|███████▍  | 35845/48008 [5:08:56<1:47:19,  1.89it/s] 75%|███████▍  | 35846/48008 [5:08:57<2:31:17,  1.34it/s] 75%|███████▍  | 35847/48008 [5:08:58<2:16:42,  1.48it/s] 75%|███████▍  | 35848/48008 [5:08:58<2:00:48,  1.68it/s] 75%|███████▍  | 35849/48008 [5:08:59<1:57:22,  1.73it/s] 75%|███████▍  | 35850/48008 [5:08:59<1:51:28,  1.82it/s]                                                         {'loss': 4.2638, 'grad_norm': 0.1453992873430252, 'learning_rate': 5.065405765705716e-05, 'epoch': 0.75}
 75%|███████▍  | 35850/48008 [5:08:59<1:51:28,  1.82it/s] 75%|███████▍  | 35851/48008 [5:09:00<1:43:47,  1.95it/s] 75%|███████▍  | 35852/48008 [5:09:00<1:42:08,  1.98it/s] 75%|███████▍  | 35853/48008 [5:09:01<1:40:49,  2.01it/s] 75%|███████▍  | 35854/48008 [5:09:01<1:43:00,  1.97it/s] 75%|███████▍  | 35855/48008 [5:09:02<1:53:14,  1.79it/s] 75%|███████▍  | 35856/48008 [5:09:02<1:48:46,  1.86it/s] 75%|███████▍  | 35857/48008 [5:09:04<2:37:22,  1.29it/s] 75%|███████▍  | 35858/48008 [5:09:04<2:15:31,  1.49it/s] 75%|███████▍  | 35859/48008 [5:09:04<2:04:24,  1.63it/s] 75%|███████▍  | 35860/48008 [5:09:05<1:52:13,  1.80it/s] 75%|███████▍  | 35861/48008 [5:09:05<1:47:32,  1.88it/s] 75%|███████▍  | 35862/48008 [5:09:06<1:44:14,  1.94it/s] 75%|███████▍  | 35863/48008 [5:09:07<2:44:26,  1.23it/s] 75%|███████▍  | 35864/48008 [5:09:08<2:27:04,  1.38it/s] 75%|███████▍  | 35865/48008 [5:09:08<2:13:46,  1.51it/s] 75%|███████▍  | 35866/48008 [5:09:09<2:04:08,  1.63it/s] 75%|███████▍  | 35867/48008 [5:09:09<1:56:02,  1.74it/s] 75%|███████▍  | 35868/48008 [5:09:10<1:46:30,  1.90it/s] 75%|███████▍  | 35869/48008 [5:09:11<2:17:22,  1.47it/s] 75%|███████▍  | 35870/48008 [5:09:11<2:05:17,  1.61it/s] 75%|███████▍  | 35871/48008 [5:09:12<1:58:20,  1.71it/s] 75%|███████▍  | 35872/48008 [5:09:12<1:51:51,  1.81it/s] 75%|███████▍  | 35873/48008 [5:09:13<1:47:32,  1.88it/s] 75%|███████▍  | 35874/48008 [5:09:13<1:44:34,  1.93it/s] 75%|███████▍  | 35875/48008 [5:09:14<1:44:51,  1.93it/s] 75%|███████▍  | 35876/48008 [5:09:14<1:42:50,  1.97it/s] 75%|███████▍  | 35877/48008 [5:09:15<1:43:36,  1.95it/s] 75%|███████▍  | 35878/48008 [5:09:15<1:41:53,  1.98it/s] 75%|███████▍  | 35879/48008 [5:09:16<1:40:18,  2.02it/s] 75%|███████▍  | 35880/48008 [5:09:16<1:40:50,  2.00it/s] 75%|███████▍  | 35881/48008 [5:09:17<2:19:56,  1.44it/s] 75%|███████▍  | 35882/48008 [5:09:18<2:02:52,  1.64it/s] 75%|███████▍  | 35883/48008 [5:09:18<1:55:23,  1.75it/s] 75%|███████▍  | 35884/48008 [5:09:19<2:01:43,  1.66it/s] 75%|███████▍  | 35885/48008 [5:09:19<1:54:18,  1.77it/s] 75%|███████▍  | 35886/48008 [5:09:20<1:49:18,  1.85it/s] 75%|███████▍  | 35887/48008 [5:09:20<1:45:23,  1.92it/s] 75%|███████▍  | 35888/48008 [5:09:21<1:38:59,  2.04it/s] 75%|███████▍  | 35889/48008 [5:09:21<1:39:59,  2.02it/s] 75%|███████▍  | 35890/48008 [5:09:22<1:39:04,  2.04it/s] 75%|███████▍  | 35891/48008 [5:09:22<1:38:33,  2.05it/s] 75%|███████▍  | 35892/48008 [5:09:23<1:32:09,  2.19it/s] 75%|███████▍  | 35893/48008 [5:09:24<2:20:49,  1.43it/s] 75%|███████▍  | 35894/48008 [5:09:24<2:03:47,  1.63it/s] 75%|███████▍  | 35895/48008 [5:09:25<1:57:15,  1.72it/s] 75%|███████▍  | 35896/48008 [5:09:25<1:51:13,  1.81it/s] 75%|███████▍  | 35897/48008 [5:09:26<1:46:51,  1.89it/s] 75%|███████▍  | 35898/48008 [5:09:26<1:46:16,  1.90it/s] 75%|███████▍  | 35899/48008 [5:09:27<1:43:38,  1.95it/s] 75%|███████▍  | 35900/48008 [5:09:27<1:44:30,  1.93it/s]                                                         {'loss': 4.2257, 'grad_norm': 0.10965533554553986, 'learning_rate': 5.044575904015998e-05, 'epoch': 0.75} 75%|███████▍  | 35900/48008 [5:09:27<1:44:30,  1.93it/s]
 75%|███████▍  | 35901/48008 [5:09:28<1:42:45,  1.96it/s] 75%|███████▍  | 35902/48008 [5:09:28<1:40:59,  2.00it/s] 75%|███████▍  | 35903/48008 [5:09:29<1:42:16,  1.97it/s] 75%|███████▍  | 35904/48008 [5:09:29<1:42:28,  1.97it/s] 75%|███████▍  | 35905/48008 [5:09:30<1:43:13,  1.95it/s] 75%|███████▍  | 35906/48008 [5:09:30<1:41:34,  1.99it/s] 75%|███████▍  | 35907/48008 [5:09:31<1:43:46,  1.94it/s] 75%|███████▍  | 35908/48008 [5:09:31<1:45:40,  1.91it/s] 75%|███████▍  | 35909/48008 [5:09:32<1:39:18,  2.03it/s] 75%|███████▍  | 35910/48008 [5:09:33<1:50:33,  1.82it/s] 75%|███████▍  | 35911/48008 [5:09:33<1:46:29,  1.89it/s] 75%|███████▍  | 35912/48008 [5:09:34<1:43:50,  1.94it/s] 75%|███████▍  | 35913/48008 [5:09:34<1:37:57,  2.06it/s] 75%|███████▍  | 35914/48008 [5:09:34<1:34:12,  2.14it/s] 75%|███████▍  | 35915/48008 [5:09:35<1:35:25,  2.11it/s] 75%|███████▍  | 35916/48008 [5:09:35<1:38:05,  2.05it/s] 75%|███████▍  | 35917/48008 [5:09:36<1:37:55,  2.06it/s] 75%|███████▍  | 35918/48008 [5:09:36<1:37:40,  2.06it/s] 75%|███████▍  | 35919/48008 [5:09:37<1:37:26,  2.07it/s] 75%|███████▍  | 35920/48008 [5:09:37<1:37:07,  2.07it/s] 75%|███████▍  | 35921/48008 [5:09:38<1:39:31,  2.02it/s] 75%|███████▍  | 35922/48008 [5:09:38<1:38:47,  2.04it/s] 75%|███████▍  | 35923/48008 [5:09:39<1:38:28,  2.05it/s] 75%|███████▍  | 35924/48008 [5:09:39<1:38:01,  2.05it/s] 75%|███████▍  | 35925/48008 [5:09:40<1:37:45,  2.06it/s] 75%|███████▍  | 35926/48008 [5:09:40<1:37:39,  2.06it/s] 75%|███████▍  | 35927/48008 [5:09:41<1:37:28,  2.07it/s] 75%|███████▍  | 35928/48008 [5:09:41<1:40:57,  1.99it/s] 75%|███████▍  | 35929/48008 [5:09:42<1:42:00,  1.97it/s] 75%|███████▍  | 35930/48008 [5:09:42<1:43:03,  1.95it/s] 75%|███████▍  | 35931/48008 [5:09:43<1:37:08,  2.07it/s] 75%|███████▍  | 35932/48008 [5:09:43<1:39:39,  2.02it/s] 75%|███████▍  | 35933/48008 [5:09:44<1:40:04,  2.01it/s] 75%|███████▍  | 35934/48008 [5:09:44<1:35:13,  2.11it/s] 75%|███████▍  | 35935/48008 [5:09:45<1:37:12,  2.07it/s] 75%|███████▍  | 35936/48008 [5:09:45<1:39:06,  2.03it/s] 75%|███████▍  | 35937/48008 [5:09:46<1:40:22,  2.00it/s] 75%|███████▍  | 35938/48008 [5:09:46<1:41:27,  1.98it/s] 75%|███████▍  | 35939/48008 [5:09:47<2:26:32,  1.37it/s] 75%|███████▍  | 35940/48008 [5:09:49<2:58:10,  1.13it/s] 75%|███████▍  | 35941/48008 [5:09:49<2:36:21,  1.29it/s] 75%|███████▍  | 35942/48008 [5:09:50<2:19:48,  1.44it/s] 75%|███████▍  | 35943/48008 [5:09:50<2:06:36,  1.59it/s] 75%|███████▍  | 35944/48008 [5:09:51<1:58:52,  1.69it/s] 75%|███████▍  | 35945/48008 [5:09:51<1:52:21,  1.79it/s] 75%|███████▍  | 35946/48008 [5:09:52<1:49:11,  1.84it/s] 75%|███████▍  | 35947/48008 [5:09:52<1:49:04,  1.84it/s] 75%|███████▍  | 35948/48008 [5:09:53<1:45:28,  1.91it/s] 75%|███████▍  | 35949/48008 [5:09:53<1:54:44,  1.75it/s] 75%|███████▍  | 35950/48008 [5:09:54<1:49:14,  1.84it/s]                                                         {'loss': 4.2717, 'grad_norm': 0.1213371679186821, 'learning_rate': 5.0237460423262796e-05, 'epoch': 0.75}
 75%|███████▍  | 35950/48008 [5:09:54<1:49:14,  1.84it/s] 75%|███████▍  | 35951/48008 [5:09:54<1:46:56,  1.88it/s] 75%|███████▍  | 35952/48008 [5:09:55<1:40:08,  2.01it/s] 75%|███████▍  | 35953/48008 [5:09:55<1:38:48,  2.03it/s] 75%|███████▍  | 35954/48008 [5:09:56<1:40:12,  2.00it/s] 75%|███████▍  | 35955/48008 [5:09:56<1:35:11,  2.11it/s] 75%|███████▍  | 35956/48008 [5:09:57<1:35:51,  2.10it/s] 75%|███████▍  | 35957/48008 [5:09:57<1:32:19,  2.18it/s] 75%|███████▍  | 35958/48008 [5:09:58<1:33:19,  2.15it/s] 75%|███████▍  | 35959/48008 [5:09:58<1:35:44,  2.10it/s] 75%|███████▍  | 35960/48008 [5:09:59<1:35:59,  2.09it/s] 75%|███████▍  | 35961/48008 [5:09:59<1:37:32,  2.06it/s] 75%|███████▍  | 35962/48008 [5:10:00<1:40:45,  1.99it/s] 75%|███████▍  | 35963/48008 [5:10:00<1:39:37,  2.02it/s] 75%|███████▍  | 35964/48008 [5:10:01<1:38:43,  2.03it/s] 75%|███████▍  | 35965/48008 [5:10:01<1:39:35,  2.02it/s] 75%|███████▍  | 35966/48008 [5:10:02<1:38:49,  2.03it/s] 75%|███████▍  | 35967/48008 [5:10:02<1:34:17,  2.13it/s] 75%|███████▍  | 35968/48008 [5:10:03<1:37:28,  2.06it/s] 75%|███████▍  | 35969/48008 [5:10:03<1:39:20,  2.02it/s] 75%|███████▍  | 35970/48008 [5:10:04<1:40:57,  1.99it/s] 75%|███████▍  | 35971/48008 [5:10:04<1:39:42,  2.01it/s] 75%|███████▍  | 35972/48008 [5:10:05<1:38:51,  2.03it/s] 75%|███████▍  | 35973/48008 [5:10:05<1:39:48,  2.01it/s] 75%|███████▍  | 35974/48008 [5:10:05<1:35:02,  2.11it/s] 75%|███████▍  | 35975/48008 [5:10:06<1:35:17,  2.10it/s] 75%|███████▍  | 35976/48008 [5:10:06<1:35:46,  2.09it/s] 75%|███████▍  | 35977/48008 [5:10:07<1:35:59,  2.09it/s] 75%|███████▍  | 35978/48008 [5:10:07<1:37:26,  2.06it/s] 75%|███████▍  | 35979/48008 [5:10:08<1:39:12,  2.02it/s] 75%|███████▍  | 35980/48008 [5:10:09<2:02:30,  1.64it/s] 75%|███████▍  | 35981/48008 [5:10:09<1:50:46,  1.81it/s] 75%|███████▍  | 35982/48008 [5:10:10<1:48:39,  1.84it/s] 75%|███████▍  | 35983/48008 [5:10:10<1:46:13,  1.89it/s] 75%|███████▍  | 35984/48008 [5:10:11<1:43:28,  1.94it/s] 75%|███████▍  | 35985/48008 [5:10:11<1:37:34,  2.05it/s] 75%|███████▍  | 35986/48008 [5:10:12<1:48:57,  1.84it/s] 75%|███████▍  | 35987/48008 [5:10:12<1:56:48,  1.72it/s] 75%|███████▍  | 35988/48008 [5:10:13<1:50:45,  1.81it/s] 75%|███████▍  | 35989/48008 [5:10:13<1:49:01,  1.84it/s] 75%|███████▍  | 35990/48008 [5:10:14<1:46:33,  1.88it/s] 75%|███████▍  | 35991/48008 [5:10:14<1:43:25,  1.94it/s] 75%|███████▍  | 35992/48008 [5:10:15<1:42:33,  1.95it/s] 75%|███████▍  | 35993/48008 [5:10:15<1:40:49,  1.99it/s] 75%|███████▍  | 35994/48008 [5:10:16<1:39:21,  2.02it/s] 75%|███████▍  | 35995/48008 [5:10:16<1:34:41,  2.11it/s] 75%|███████▍  | 35996/48008 [5:10:17<1:36:35,  2.07it/s] 75%|███████▍  | 35997/48008 [5:10:17<1:32:29,  2.16it/s] 75%|███████▍  | 35998/48008 [5:10:18<1:33:47,  2.13it/s] 75%|███████▍  | 35999/48008 [5:10:18<1:38:13,  2.04it/s] 75%|███████▍  | 36000/48008 [5:10:19<1:41:17,  1.98it/s]                                                         {'loss': 4.2689, 'grad_norm': 0.09873522818088531, 'learning_rate': 5.0029161806365607e-05, 'epoch': 0.75}
 75%|███████▍  | 36000/48008 [5:10:19<1:41:17,  1.98it/s] 75%|███████▍  | 36001/48008 [5:10:19<1:41:38,  1.97it/s] 75%|███████▍  | 36002/48008 [5:10:20<1:40:21,  1.99it/s] 75%|███████▍  | 36003/48008 [5:10:20<1:35:12,  2.10it/s] 75%|███████▍  | 36004/48008 [5:10:21<1:35:37,  2.09it/s] 75%|███████▍  | 36005/48008 [5:10:21<1:36:16,  2.08it/s] 75%|███████▌  | 36006/48008 [5:10:22<1:36:16,  2.08it/s] 75%|███████▌  | 36007/48008 [5:10:22<1:39:39,  2.01it/s] 75%|███████▌  | 36008/48008 [5:10:23<1:34:45,  2.11it/s] 75%|███████▌  | 36009/48008 [5:10:23<1:38:01,  2.04it/s] 75%|███████▌  | 36010/48008 [5:10:24<1:40:48,  1.98it/s] 75%|███████▌  | 36011/48008 [5:10:24<1:35:32,  2.09it/s] 75%|███████▌  | 36012/48008 [5:10:25<1:35:51,  2.09it/s] 75%|███████▌  | 36013/48008 [5:10:25<1:39:47,  2.00it/s] 75%|███████▌  | 36014/48008 [5:10:26<1:38:56,  2.02it/s] 75%|███████▌  | 36015/48008 [5:10:26<1:38:15,  2.03it/s] 75%|███████▌  | 36016/48008 [5:10:27<1:37:49,  2.04it/s] 75%|███████▌  | 36017/48008 [5:10:28<2:01:20,  1.65it/s] 75%|███████▌  | 36018/48008 [5:10:28<1:55:16,  1.73it/s] 75%|███████▌  | 36019/48008 [5:10:29<2:13:35,  1.50it/s] 75%|███████▌  | 36020/48008 [5:10:29<2:05:04,  1.60it/s] 75%|███████▌  | 36021/48008 [5:10:30<1:58:58,  1.68it/s] 75%|███████▌  | 36022/48008 [5:10:30<1:55:38,  1.73it/s] 75%|███████▌  | 36023/48008 [5:10:31<1:49:48,  1.82it/s] 75%|███████▌  | 36024/48008 [5:10:32<1:49:24,  1.83it/s] 75%|███████▌  | 36025/48008 [5:10:32<1:45:24,  1.89it/s] 75%|███████▌  | 36026/48008 [5:10:33<1:45:03,  1.90it/s] 75%|███████▌  | 36027/48008 [5:10:33<1:42:42,  1.94it/s] 75%|███████▌  | 36028/48008 [5:10:33<1:40:34,  1.99it/s] 75%|███████▌  | 36029/48008 [5:10:34<1:39:04,  2.02it/s] 75%|███████▌  | 36030/48008 [5:10:34<1:40:30,  1.99it/s] 75%|███████▌  | 36031/48008 [5:10:35<1:40:21,  1.99it/s] 75%|███████▌  | 36032/48008 [5:10:35<1:38:58,  2.02it/s] 75%|███████▌  | 36033/48008 [5:10:36<1:49:37,  1.82it/s] 75%|███████▌  | 36034/48008 [5:10:37<1:46:48,  1.87it/s] 75%|███████▌  | 36035/48008 [5:10:37<1:45:14,  1.90it/s] 75%|███████▌  | 36036/48008 [5:10:38<1:36:22,  2.07it/s] 75%|███████▌  | 36037/48008 [5:10:39<2:22:44,  1.40it/s] 75%|███████▌  | 36038/48008 [5:10:39<2:10:59,  1.52it/s] 75%|███████▌  | 36039/48008 [5:10:40<2:00:39,  1.65it/s] 75%|███████▌  | 36040/48008 [5:10:40<1:54:46,  1.74it/s] 75%|███████▌  | 36041/48008 [5:10:41<2:12:47,  1.50it/s] 75%|███████▌  | 36042/48008 [5:10:42<2:04:21,  1.60it/s] 75%|███████▌  | 36043/48008 [5:10:42<1:55:53,  1.72it/s] 75%|███████▌  | 36044/48008 [5:10:43<1:52:25,  1.77it/s] 75%|███████▌  | 36045/48008 [5:10:43<1:48:48,  1.83it/s] 75%|███████▌  | 36046/48008 [5:10:44<1:45:15,  1.89it/s] 75%|███████▌  | 36047/48008 [5:10:44<1:42:42,  1.94it/s] 75%|███████▌  | 36048/48008 [5:10:45<1:42:20,  1.95it/s] 75%|███████▌  | 36049/48008 [5:10:45<1:40:41,  1.98it/s] 75%|███████▌  | 36050/48008 [5:10:46<1:39:18,  2.01it/s]                                                         {'loss': 4.245, 'grad_norm': 0.14177314937114716, 'learning_rate': 4.9820863189468424e-05, 'epoch': 0.75}
 75%|███████▌  | 36050/48008 [5:10:46<1:39:18,  2.01it/s] 75%|███████▌  | 36051/48008 [5:10:46<1:38:38,  2.02it/s] 75%|███████▌  | 36052/48008 [5:10:47<1:40:28,  1.98it/s] 75%|███████▌  | 36053/48008 [5:10:47<1:39:20,  2.01it/s] 75%|███████▌  | 36054/48008 [5:10:48<1:38:31,  2.02it/s] 75%|███████▌  | 36055/48008 [5:10:48<1:49:32,  1.82it/s] 75%|███████▌  | 36056/48008 [5:10:49<1:46:47,  1.87it/s] 75%|███████▌  | 36057/48008 [5:10:50<2:07:07,  1.57it/s] 75%|███████▌  | 36058/48008 [5:10:50<1:57:53,  1.69it/s] 75%|███████▌  | 36059/48008 [5:10:51<1:51:26,  1.79it/s] 75%|███████▌  | 36060/48008 [5:10:51<1:48:39,  1.83it/s] 75%|███████▌  | 36061/48008 [5:10:52<1:48:28,  1.84it/s] 75%|███████▌  | 36062/48008 [5:10:52<1:45:01,  1.90it/s] 75%|███████▌  | 36063/48008 [5:10:53<1:43:48,  1.92it/s] 75%|███████▌  | 36064/48008 [5:10:53<1:42:40,  1.94it/s] 75%|███████▌  | 36065/48008 [5:10:54<1:40:44,  1.98it/s] 75%|███████▌  | 36066/48008 [5:10:55<2:02:45,  1.62it/s] 75%|███████▌  | 36067/48008 [5:10:55<1:50:52,  1.79it/s] 75%|███████▌  | 36068/48008 [5:10:56<1:49:02,  1.83it/s] 75%|███████▌  | 36069/48008 [5:10:56<1:49:15,  1.82it/s] 75%|███████▌  | 36070/48008 [5:10:57<1:47:44,  1.85it/s] 75%|███████▌  | 36071/48008 [5:10:57<1:47:52,  1.84it/s] 75%|███████▌  | 36072/48008 [5:10:58<1:45:25,  1.89it/s] 75%|███████▌  | 36073/48008 [5:10:58<1:46:02,  1.88it/s] 75%|███████▌  | 36074/48008 [5:10:59<1:45:13,  1.89it/s] 75%|███████▌  | 36075/48008 [5:10:59<1:42:04,  1.95it/s] 75%|███████▌  | 36076/48008 [5:11:00<1:40:18,  1.98it/s] 75%|███████▌  | 36077/48008 [5:11:00<1:39:06,  2.01it/s] 75%|███████▌  | 36078/48008 [5:11:01<1:39:10,  2.00it/s] 75%|███████▌  | 36079/48008 [5:11:01<1:38:18,  2.02it/s] 75%|███████▌  | 36080/48008 [5:11:02<1:37:38,  2.04it/s] 75%|███████▌  | 36081/48008 [5:11:02<1:38:37,  2.02it/s] 75%|███████▌  | 36082/48008 [5:11:03<1:33:59,  2.11it/s] 75%|███████▌  | 36083/48008 [5:11:03<1:38:03,  2.03it/s] 75%|███████▌  | 36084/48008 [5:11:04<1:33:31,  2.13it/s] 75%|███████▌  | 36085/48008 [5:11:04<1:35:36,  2.08it/s] 75%|███████▌  | 36086/48008 [5:11:04<1:31:51,  2.16it/s] 75%|███████▌  | 36087/48008 [5:11:05<1:34:44,  2.10it/s] 75%|███████▌  | 36088/48008 [5:11:05<1:35:10,  2.09it/s] 75%|███████▌  | 36089/48008 [5:11:06<1:37:46,  2.03it/s] 75%|███████▌  | 36090/48008 [5:11:06<1:38:27,  2.02it/s] 75%|███████▌  | 36091/48008 [5:11:07<1:40:13,  1.98it/s] 75%|███████▌  | 36092/48008 [5:11:08<1:50:33,  1.80it/s] 75%|███████▌  | 36093/48008 [5:11:08<1:46:19,  1.87it/s] 75%|███████▌  | 36094/48008 [5:11:09<1:44:25,  1.90it/s] 75%|███████▌  | 36095/48008 [5:11:09<1:43:22,  1.92it/s] 75%|███████▌  | 36096/48008 [5:11:10<1:42:19,  1.94it/s] 75%|███████▌  | 36097/48008 [5:11:10<1:40:19,  1.98it/s] 75%|███████▌  | 36098/48008 [5:11:11<1:40:54,  1.97it/s] 75%|███████▌  | 36099/48008 [5:11:11<1:40:58,  1.97it/s] 75%|███████▌  | 36100/48008 [5:11:12<1:41:36,  1.95it/s]                                                         {'loss': 4.2858, 'grad_norm': 0.17569588124752045, 'learning_rate': 4.961256457257124e-05, 'epoch': 0.75}
 75%|███████▌  | 36100/48008 [5:11:12<1:41:36,  1.95it/s] 75%|███████▌  | 36101/48008 [5:11:12<1:39:50,  1.99it/s] 75%|███████▌  | 36102/48008 [5:11:13<1:32:40,  2.14it/s] 75%|███████▌  | 36103/48008 [5:11:13<1:33:16,  2.13it/s] 75%|███████▌  | 36104/48008 [5:11:14<1:33:42,  2.12it/s] 75%|███████▌  | 36105/48008 [5:11:14<1:29:54,  2.21it/s] 75%|███████▌  | 36106/48008 [5:11:14<1:33:06,  2.13it/s] 75%|███████▌  | 36107/48008 [5:11:15<1:33:54,  2.11it/s] 75%|███████▌  | 36108/48008 [5:11:15<1:30:29,  2.19it/s] 75%|███████▌  | 36109/48008 [5:11:16<1:31:50,  2.16it/s] 75%|███████▌  | 36110/48008 [5:11:16<1:28:40,  2.24it/s] 75%|███████▌  | 36111/48008 [5:11:17<1:26:43,  2.29it/s] 75%|███████▌  | 36112/48008 [5:11:17<1:29:21,  2.22it/s] 75%|███████▌  | 36113/48008 [5:11:18<1:33:38,  2.12it/s] 75%|███████▌  | 36114/48008 [5:11:18<1:35:50,  2.07it/s] 75%|███████▌  | 36115/48008 [5:11:19<1:35:27,  2.08it/s] 75%|███████▌  | 36116/48008 [5:11:19<1:35:15,  2.08it/s] 75%|███████▌  | 36117/48008 [5:11:20<1:37:53,  2.02it/s] 75%|███████▌  | 36118/48008 [5:11:20<1:33:17,  2.12it/s] 75%|███████▌  | 36119/48008 [5:11:20<1:30:16,  2.19it/s] 75%|███████▌  | 36120/48008 [5:11:21<1:32:01,  2.15it/s] 75%|███████▌  | 36121/48008 [5:11:21<1:34:39,  2.09it/s] 75%|███████▌  | 36122/48008 [5:11:22<1:34:56,  2.09it/s] 75%|███████▌  | 36123/48008 [5:11:22<1:35:03,  2.08it/s] 75%|███████▌  | 36124/48008 [5:11:23<1:35:13,  2.08it/s] 75%|███████▌  | 36125/48008 [5:11:24<1:59:05,  1.66it/s] 75%|███████▌  | 36126/48008 [5:11:24<1:51:50,  1.77it/s] 75%|███████▌  | 36127/48008 [5:11:25<1:50:11,  1.80it/s] 75%|███████▌  | 36128/48008 [5:11:25<1:47:02,  1.85it/s] 75%|███████▌  | 36129/48008 [5:11:26<1:44:59,  1.89it/s] 75%|███████▌  | 36130/48008 [5:11:26<1:43:27,  1.91it/s] 75%|███████▌  | 36131/48008 [5:11:27<1:42:19,  1.93it/s] 75%|███████▌  | 36132/48008 [5:11:27<1:40:28,  1.97it/s] 75%|███████▌  | 36133/48008 [5:11:28<1:41:08,  1.96it/s] 75%|███████▌  | 36134/48008 [5:11:28<1:41:44,  1.94it/s] 75%|███████▌  | 36135/48008 [5:11:29<1:42:14,  1.94it/s] 75%|███████▌  | 36136/48008 [5:11:29<1:40:20,  1.97it/s] 75%|███████▌  | 36137/48008 [5:11:30<1:38:38,  2.01it/s] 75%|███████▌  | 36138/48008 [5:11:30<1:33:35,  2.11it/s] 75%|███████▌  | 36139/48008 [5:11:31<1:34:09,  2.10it/s] 75%|███████▌  | 36140/48008 [5:11:31<1:35:54,  2.06it/s] 75%|███████▌  | 36141/48008 [5:11:32<1:47:27,  1.84it/s] 75%|███████▌  | 36142/48008 [5:11:32<1:47:15,  1.84it/s] 75%|███████▌  | 36143/48008 [5:11:33<1:39:55,  1.98it/s] 75%|███████▌  | 36144/48008 [5:11:33<1:39:51,  1.98it/s] 75%|███████▌  | 36145/48008 [5:11:34<1:42:08,  1.94it/s] 75%|███████▌  | 36146/48008 [5:11:34<1:40:05,  1.98it/s] 75%|███████▌  | 36147/48008 [5:11:35<1:40:41,  1.96it/s] 75%|███████▌  | 36148/48008 [5:11:35<1:39:06,  1.99it/s] 75%|███████▌  | 36149/48008 [5:11:36<1:40:33,  1.97it/s] 75%|███████▌  | 36150/48008 [5:11:36<1:39:54,  1.98it/s]                                                         {'loss': 4.2675, 'grad_norm': 0.17596609890460968, 'learning_rate': 4.940426595567406e-05, 'epoch': 0.75}
 75%|███████▌  | 36150/48008 [5:11:36<1:39:54,  1.98it/s] 75%|███████▌  | 36151/48008 [5:11:37<1:42:07,  1.93it/s] 75%|███████▌  | 36152/48008 [5:11:37<1:36:20,  2.05it/s] 75%|███████▌  | 36153/48008 [5:11:38<1:32:03,  2.15it/s] 75%|███████▌  | 36154/48008 [5:11:38<1:29:13,  2.21it/s] 75%|███████▌  | 36155/48008 [5:11:39<1:31:05,  2.17it/s] 75%|███████▌  | 36156/48008 [5:11:39<1:28:30,  2.23it/s] 75%|███████▌  | 36157/48008 [5:11:40<1:30:55,  2.17it/s] 75%|███████▌  | 36158/48008 [5:11:40<1:31:59,  2.15it/s] 75%|███████▌  | 36159/48008 [5:11:41<1:36:32,  2.05it/s] 75%|███████▌  | 36160/48008 [5:11:41<1:47:34,  1.84it/s] 75%|███████▌  | 36161/48008 [5:11:42<1:46:19,  1.86it/s] 75%|███████▌  | 36162/48008 [5:11:42<1:42:52,  1.92it/s] 75%|███████▌  | 36163/48008 [5:11:43<1:40:42,  1.96it/s] 75%|███████▌  | 36164/48008 [5:11:43<1:42:36,  1.92it/s] 75%|███████▌  | 36165/48008 [5:11:44<1:42:24,  1.93it/s] 75%|███████▌  | 36166/48008 [5:11:44<1:42:53,  1.92it/s] 75%|███████▌  | 36167/48008 [5:11:45<1:40:42,  1.96it/s] 75%|███████▌  | 36168/48008 [5:11:45<1:40:34,  1.96it/s] 75%|███████▌  | 36169/48008 [5:11:46<1:40:40,  1.96it/s] 75%|███████▌  | 36170/48008 [5:11:46<1:40:57,  1.95it/s] 75%|███████▌  | 36171/48008 [5:11:47<1:39:18,  1.99it/s] 75%|███████▌  | 36172/48008 [5:11:48<2:23:58,  1.37it/s] 75%|███████▌  | 36173/48008 [5:11:49<2:09:01,  1.53it/s] 75%|███████▌  | 36174/48008 [5:11:49<1:55:04,  1.71it/s] 75%|███████▌  | 36175/48008 [5:11:50<1:49:06,  1.81it/s] 75%|███████▌  | 36176/48008 [5:11:50<1:44:56,  1.88it/s] 75%|███████▌  | 36177/48008 [5:11:50<1:38:01,  2.01it/s] 75%|███████▌  | 36178/48008 [5:11:51<1:39:01,  1.99it/s] 75%|███████▌  | 36179/48008 [5:11:51<1:39:30,  1.98it/s] 75%|███████▌  | 36180/48008 [5:11:52<1:49:51,  1.79it/s] 75%|███████▌  | 36181/48008 [5:11:53<1:47:45,  1.83it/s] 75%|███████▌  | 36182/48008 [5:11:53<1:45:17,  1.87it/s] 75%|███████▌  | 36183/48008 [5:11:54<1:44:27,  1.89it/s] 75%|███████▌  | 36184/48008 [5:11:54<1:41:41,  1.94it/s] 75%|███████▌  | 36185/48008 [5:11:55<1:43:02,  1.91it/s] 75%|███████▌  | 36186/48008 [5:11:55<1:40:38,  1.96it/s] 75%|███████▌  | 36187/48008 [5:11:56<1:35:02,  2.07it/s] 75%|███████▌  | 36188/48008 [5:11:56<1:36:17,  2.05it/s] 75%|███████▌  | 36189/48008 [5:11:57<1:36:04,  2.05it/s] 75%|███████▌  | 36190/48008 [5:11:57<1:35:49,  2.06it/s] 75%|███████▌  | 36191/48008 [5:11:58<1:35:37,  2.06it/s] 75%|███████▌  | 36192/48008 [5:11:59<2:20:56,  1.40it/s] 75%|███████▌  | 36193/48008 [5:11:59<2:07:12,  1.55it/s] 75%|███████▌  | 36194/48008 [5:12:00<1:57:39,  1.67it/s] 75%|███████▌  | 36195/48008 [5:12:00<1:53:15,  1.74it/s] 75%|███████▌  | 36196/48008 [5:12:01<1:47:44,  1.83it/s] 75%|███████▌  | 36197/48008 [5:12:01<1:43:49,  1.90it/s] 75%|███████▌  | 36198/48008 [5:12:02<1:35:09,  2.07it/s] 75%|███████▌  | 36199/48008 [5:12:02<1:36:08,  2.05it/s] 75%|███████▌  | 36200/48008 [5:12:03<1:35:37,  2.06it/s]                                                         {'loss': 4.26, 'grad_norm': 0.21532635390758514, 'learning_rate': 4.919596733877687e-05, 'epoch': 0.75}
 75%|███████▌  | 36200/48008 [5:12:03<1:35:37,  2.06it/s] 75%|███████▌  | 36201/48008 [5:12:03<1:31:33,  2.15it/s] 75%|███████▌  | 36202/48008 [5:12:04<1:32:36,  2.12it/s] 75%|███████▌  | 36203/48008 [5:12:04<1:36:52,  2.03it/s] 75%|███████▌  | 36204/48008 [5:12:05<1:36:21,  2.04it/s] 75%|███████▌  | 36205/48008 [5:12:05<1:35:58,  2.05it/s] 75%|███████▌  | 36206/48008 [5:12:06<1:37:04,  2.03it/s] 75%|███████▌  | 36207/48008 [5:12:06<1:59:43,  1.64it/s] 75%|███████▌  | 36208/48008 [5:12:07<1:55:19,  1.71it/s] 75%|███████▌  | 36209/48008 [5:12:07<1:49:08,  1.80it/s] 75%|███████▌  | 36210/48008 [5:12:08<1:45:18,  1.87it/s] 75%|███████▌  | 36211/48008 [5:12:09<2:28:01,  1.33it/s] 75%|███████▌  | 36212/48008 [5:12:10<2:14:24,  1.46it/s] 75%|███████▌  | 36213/48008 [5:12:10<1:58:41,  1.66it/s] 75%|███████▌  | 36214/48008 [5:12:11<1:51:51,  1.76it/s] 75%|███████▌  | 36215/48008 [5:12:11<1:42:54,  1.91it/s] 75%|███████▌  | 36216/48008 [5:12:11<1:36:37,  2.03it/s] 75%|███████▌  | 36217/48008 [5:12:12<1:37:38,  2.01it/s] 75%|███████▌  | 36218/48008 [5:12:12<1:37:59,  2.01it/s] 75%|███████▌  | 36219/48008 [5:12:13<1:33:16,  2.11it/s] 75%|███████▌  | 36220/48008 [5:12:13<1:33:39,  2.10it/s] 75%|███████▌  | 36221/48008 [5:12:14<1:35:23,  2.06it/s] 75%|███████▌  | 36222/48008 [5:12:14<1:36:27,  2.04it/s] 75%|███████▌  | 36223/48008 [5:12:15<1:37:08,  2.02it/s] 75%|███████▌  | 36224/48008 [5:12:15<1:35:58,  2.05it/s] 75%|███████▌  | 36225/48008 [5:12:16<1:46:44,  1.84it/s] 75%|███████▌  | 36226/48008 [5:12:17<1:44:35,  1.88it/s] 75%|███████▌  | 36227/48008 [5:12:17<1:44:58,  1.87it/s] 75%|███████▌  | 36228/48008 [5:12:18<1:43:09,  1.90it/s] 75%|███████▌  | 36229/48008 [5:12:18<1:40:38,  1.95it/s] 75%|███████▌  | 36230/48008 [5:12:19<1:38:39,  1.99it/s] 75%|███████▌  | 36231/48008 [5:12:19<1:38:51,  1.99it/s] 75%|███████▌  | 36232/48008 [5:12:20<1:48:47,  1.80it/s] 75%|███████▌  | 36233/48008 [5:12:20<1:46:46,  1.84it/s] 75%|███████▌  | 36234/48008 [5:12:21<1:46:45,  1.84it/s] 75%|███████▌  | 36235/48008 [5:12:21<1:43:12,  1.90it/s] 75%|███████▌  | 36236/48008 [5:12:22<1:40:22,  1.95it/s] 75%|███████▌  | 36237/48008 [5:12:22<1:39:50,  1.96it/s] 75%|███████▌  | 36238/48008 [5:12:23<2:01:49,  1.61it/s] 75%|███████▌  | 36239/48008 [5:12:24<1:53:33,  1.73it/s] 75%|███████▌  | 36240/48008 [5:12:25<2:32:59,  1.28it/s] 75%|███████▌  | 36241/48008 [5:12:25<2:16:39,  1.44it/s] 75%|███████▌  | 36242/48008 [5:12:26<2:04:06,  1.58it/s] 75%|███████▌  | 36243/48008 [5:12:26<2:06:21,  1.55it/s] 75%|███████▌  | 36244/48008 [5:12:27<1:58:09,  1.66it/s] 75%|███████▌  | 36245/48008 [5:12:27<1:51:08,  1.76it/s] 75%|███████▌  | 36246/48008 [5:12:28<1:46:08,  1.85it/s] 76%|███████▌  | 36247/48008 [5:12:28<1:42:38,  1.91it/s] 76%|███████▌  | 36248/48008 [5:12:29<1:51:22,  1.76it/s] 76%|███████▌  | 36249/48008 [5:12:30<1:47:27,  1.82it/s] 76%|███████▌  | 36250/48008 [5:12:30<1:39:40,  1.97it/s]                                                         {'loss': 4.2744, 'grad_norm': 0.2674649655818939, 'learning_rate': 4.898766872187969e-05, 'epoch': 0.76}
 76%|███████▌  | 36250/48008 [5:12:30<1:39:40,  1.97it/s] 76%|███████▌  | 36251/48008 [5:12:31<1:39:37,  1.97it/s] 76%|███████▌  | 36252/48008 [5:12:31<1:34:15,  2.08it/s] 76%|███████▌  | 36253/48008 [5:12:31<1:35:42,  2.05it/s] 76%|███████▌  | 36254/48008 [5:12:32<1:35:22,  2.05it/s] 76%|███████▌  | 36255/48008 [5:12:32<1:35:05,  2.06it/s] 76%|███████▌  | 36256/48008 [5:12:33<1:46:14,  1.84it/s] 76%|███████▌  | 36257/48008 [5:12:34<1:45:08,  1.86it/s] 76%|███████▌  | 36258/48008 [5:12:34<1:45:30,  1.86it/s] 76%|███████▌  | 36259/48008 [5:12:35<1:38:26,  1.99it/s] 76%|███████▌  | 36260/48008 [5:12:35<1:38:31,  1.99it/s] 76%|███████▌  | 36261/48008 [5:12:36<1:38:37,  1.98it/s] 76%|███████▌  | 36262/48008 [5:12:36<1:37:27,  2.01it/s] 76%|███████▌  | 36263/48008 [5:12:37<1:36:33,  2.03it/s] 76%|███████▌  | 36264/48008 [5:12:37<1:38:16,  1.99it/s] 76%|███████▌  | 36265/48008 [5:12:38<1:37:14,  2.01it/s] 76%|███████▌  | 36266/48008 [5:12:38<1:37:44,  2.00it/s] 76%|███████▌  | 36267/48008 [5:12:39<1:32:49,  2.11it/s] 76%|███████▌  | 36268/48008 [5:12:39<1:29:24,  2.19it/s] 76%|███████▌  | 36269/48008 [5:12:39<1:26:49,  2.25it/s] 76%|███████▌  | 36270/48008 [5:12:40<1:29:14,  2.19it/s] 76%|███████▌  | 36271/48008 [5:12:40<1:34:01,  2.08it/s] 76%|███████▌  | 36272/48008 [5:12:41<1:30:18,  2.17it/s] 76%|███████▌  | 36273/48008 [5:12:41<1:31:17,  2.14it/s] 76%|███████▌  | 36274/48008 [5:12:42<1:34:37,  2.07it/s] 76%|███████▌  | 36275/48008 [5:12:42<1:35:46,  2.04it/s] 76%|███████▌  | 36276/48008 [5:12:43<1:35:19,  2.05it/s] 76%|███████▌  | 36277/48008 [5:12:43<1:46:12,  1.84it/s] 76%|███████▌  | 36278/48008 [5:12:44<1:43:52,  1.88it/s] 76%|███████▌  | 36279/48008 [5:12:44<1:43:18,  1.89it/s] 76%|███████▌  | 36280/48008 [5:12:45<1:36:22,  2.03it/s] 76%|███████▌  | 36281/48008 [5:12:45<1:35:41,  2.04it/s] 76%|███████▌  | 36282/48008 [5:12:46<1:35:18,  2.05it/s] 76%|███████▌  | 36283/48008 [5:12:46<1:31:18,  2.14it/s] 76%|███████▌  | 36284/48008 [5:12:47<1:28:25,  2.21it/s] 76%|███████▌  | 36285/48008 [5:12:47<1:26:07,  2.27it/s] 76%|███████▌  | 36286/48008 [5:12:48<1:29:46,  2.18it/s] 76%|███████▌  | 36287/48008 [5:12:48<1:32:25,  2.11it/s] 76%|███████▌  | 36288/48008 [5:12:49<1:32:50,  2.10it/s] 76%|███████▌  | 36289/48008 [5:12:49<1:35:31,  2.04it/s] 76%|███████▌  | 36290/48008 [5:12:50<2:20:00,  1.39it/s] 76%|███████▌  | 36291/48008 [5:12:51<2:07:28,  1.53it/s] 76%|███████▌  | 36292/48008 [5:12:51<1:53:42,  1.72it/s] 76%|███████▌  | 36293/48008 [5:12:52<1:43:42,  1.88it/s] 76%|███████▌  | 36294/48008 [5:12:52<1:41:57,  1.91it/s] 76%|███████▌  | 36295/48008 [5:12:53<1:41:38,  1.92it/s] 76%|███████▌  | 36296/48008 [5:12:53<1:35:42,  2.04it/s] 76%|███████▌  | 36297/48008 [5:12:54<1:31:29,  2.13it/s] 76%|███████▌  | 36298/48008 [5:12:54<1:33:37,  2.08it/s] 76%|███████▌  | 36299/48008 [5:12:55<1:33:52,  2.08it/s] 76%|███████▌  | 36300/48008 [5:12:55<1:33:43,  2.08it/s]                                                          76%|███████▌  | 36300/48008 [5:12:55<1:33:43,  2.08it/s]{'loss': 4.2288, 'grad_norm': 0.24884231388568878, 'learning_rate': 4.8779370104982504e-05, 'epoch': 0.76}
 76%|███████▌  | 36301/48008 [5:12:55<1:30:01,  2.17it/s] 76%|███████▌  | 36302/48008 [5:12:56<1:27:18,  2.23it/s] 76%|███████▌  | 36303/48008 [5:12:56<1:29:20,  2.18it/s] 76%|███████▌  | 36304/48008 [5:12:57<1:32:00,  2.12it/s] 76%|███████▌  | 36305/48008 [5:12:57<1:35:37,  2.04it/s] 76%|███████▌  | 36306/48008 [5:12:58<1:31:13,  2.14it/s] 76%|███████▌  | 36307/48008 [5:12:59<2:17:25,  1.42it/s] 76%|███████▌  | 36308/48008 [5:13:00<2:05:40,  1.55it/s] 76%|███████▌  | 36309/48008 [5:13:00<1:55:45,  1.68it/s] 76%|███████▌  | 36310/48008 [5:13:01<1:50:32,  1.76it/s] 76%|███████▌  | 36311/48008 [5:13:01<1:45:36,  1.85it/s] 76%|███████▌  | 36312/48008 [5:13:01<1:42:05,  1.91it/s] 76%|███████▌  | 36313/48008 [5:13:02<1:35:56,  2.03it/s] 76%|███████▌  | 36314/48008 [5:13:02<1:35:03,  2.05it/s] 76%|███████▌  | 36315/48008 [5:13:03<1:30:38,  2.15it/s] 76%|███████▌  | 36316/48008 [5:13:03<1:27:43,  2.22it/s] 76%|███████▌  | 36317/48008 [5:13:04<1:29:36,  2.17it/s] 76%|███████▌  | 36318/48008 [5:13:04<1:32:20,  2.11it/s] 76%|███████▌  | 36319/48008 [5:13:05<1:32:54,  2.10it/s] 76%|███████▌  | 36320/48008 [5:13:05<1:35:24,  2.04it/s] 76%|███████▌  | 36321/48008 [5:13:06<1:35:05,  2.05it/s] 76%|███████▌  | 36322/48008 [5:13:06<1:30:48,  2.14it/s] 76%|███████▌  | 36323/48008 [5:13:07<1:33:16,  2.09it/s] 76%|███████▌  | 36324/48008 [5:13:07<1:34:51,  2.05it/s] 76%|███████▌  | 36325/48008 [5:13:08<1:34:29,  2.06it/s] 76%|███████▌  | 36326/48008 [5:13:08<1:37:39,  1.99it/s] 76%|███████▌  | 36327/48008 [5:13:09<1:38:01,  1.99it/s] 76%|███████▌  | 36328/48008 [5:13:09<1:40:14,  1.94it/s] 76%|███████▌  | 36329/48008 [5:13:10<1:39:27,  1.96it/s] 76%|███████▌  | 36330/48008 [5:13:10<1:48:46,  1.79it/s] 76%|███████▌  | 36331/48008 [5:13:11<1:46:20,  1.83it/s] 76%|███████▌  | 36332/48008 [5:13:11<1:38:36,  1.97it/s] 76%|███████▌  | 36333/48008 [5:13:12<1:36:59,  2.01it/s] 76%|███████▌  | 36334/48008 [5:13:12<1:37:19,  2.00it/s] 76%|███████▌  | 36335/48008 [5:13:13<1:37:40,  1.99it/s] 76%|███████▌  | 36336/48008 [5:13:13<1:39:48,  1.95it/s] 76%|███████▌  | 36337/48008 [5:13:14<1:34:11,  2.07it/s] 76%|███████▌  | 36338/48008 [5:13:14<1:35:18,  2.04it/s] 76%|███████▌  | 36339/48008 [5:13:15<1:30:56,  2.14it/s] 76%|███████▌  | 36340/48008 [5:13:15<1:32:50,  2.09it/s] 76%|███████▌  | 36341/48008 [5:13:16<1:33:07,  2.09it/s] 76%|███████▌  | 36342/48008 [5:13:16<1:33:10,  2.09it/s] 76%|███████▌  | 36343/48008 [5:13:17<1:33:18,  2.08it/s] 76%|███████▌  | 36344/48008 [5:13:17<1:44:39,  1.86it/s] 76%|███████▌  | 36345/48008 [5:13:18<1:52:51,  1.72it/s] 76%|███████▌  | 36346/48008 [5:13:18<1:47:13,  1.81it/s] 76%|███████▌  | 36347/48008 [5:13:19<1:39:23,  1.96it/s] 76%|███████▌  | 36348/48008 [5:13:19<1:39:07,  1.96it/s] 76%|███████▌  | 36349/48008 [5:13:20<1:40:41,  1.93it/s] 76%|███████▌  | 36350/48008 [5:13:20<1:38:34,  1.97it/s]                                                         {'loss': 4.2531, 'grad_norm': 0.16366107761859894, 'learning_rate': 4.857107148808532e-05, 'epoch': 0.76}
 76%|███████▌  | 36350/48008 [5:13:20<1:38:34,  1.97it/s] 76%|███████▌  | 36351/48008 [5:13:21<1:33:25,  2.08it/s] 76%|███████▌  | 36352/48008 [5:13:21<1:34:33,  2.05it/s] 76%|███████▌  | 36353/48008 [5:13:22<1:34:29,  2.06it/s] 76%|███████▌  | 36354/48008 [5:13:22<1:35:14,  2.04it/s] 76%|███████▌  | 36355/48008 [5:13:23<1:36:03,  2.02it/s] 76%|███████▌  | 36356/48008 [5:13:23<1:35:10,  2.04it/s] 76%|███████▌  | 36357/48008 [5:13:24<1:34:41,  2.05it/s] 76%|███████▌  | 36358/48008 [5:13:24<1:34:12,  2.06it/s] 76%|███████▌  | 36359/48008 [5:13:25<1:35:13,  2.04it/s] 76%|███████▌  | 36360/48008 [5:13:25<1:37:03,  2.00it/s] 76%|███████▌  | 36361/48008 [5:13:26<1:36:02,  2.02it/s] 76%|███████▌  | 36362/48008 [5:13:26<1:35:08,  2.04it/s] 76%|███████▌  | 36363/48008 [5:13:27<1:35:40,  2.03it/s] 76%|███████▌  | 36364/48008 [5:13:27<1:31:12,  2.13it/s] 76%|███████▌  | 36365/48008 [5:13:28<1:27:50,  2.21it/s] 76%|███████▌  | 36366/48008 [5:13:28<1:31:01,  2.13it/s] 76%|███████▌  | 36367/48008 [5:13:29<1:33:02,  2.09it/s] 76%|███████▌  | 36368/48008 [5:13:29<1:35:24,  2.03it/s] 76%|███████▌  | 36369/48008 [5:13:30<1:36:14,  2.02it/s] 76%|███████▌  | 36370/48008 [5:13:30<1:37:38,  1.99it/s] 76%|███████▌  | 36371/48008 [5:13:31<1:37:37,  1.99it/s] 76%|███████▌  | 36372/48008 [5:13:31<1:36:22,  2.01it/s] 76%|███████▌  | 36373/48008 [5:13:32<1:35:27,  2.03it/s] 76%|███████▌  | 36374/48008 [5:13:32<1:36:45,  2.00it/s] 76%|███████▌  | 36375/48008 [5:13:33<1:35:45,  2.02it/s] 76%|███████▌  | 36376/48008 [5:13:33<1:35:15,  2.04it/s] 76%|███████▌  | 36377/48008 [5:13:34<1:34:32,  2.05it/s] 76%|███████▌  | 36378/48008 [5:13:35<2:19:12,  1.39it/s] 76%|███████▌  | 36379/48008 [5:13:35<2:05:25,  1.55it/s] 76%|███████▌  | 36380/48008 [5:13:36<1:56:56,  1.66it/s] 76%|███████▌  | 36381/48008 [5:13:37<2:34:35,  1.25it/s] 76%|███████▌  | 36382/48008 [5:13:37<2:16:13,  1.42it/s] 76%|███████▌  | 36383/48008 [5:13:38<2:03:24,  1.57it/s] 76%|███████▌  | 36384/48008 [5:13:38<1:50:22,  1.76it/s] 76%|███████▌  | 36385/48008 [5:13:39<1:45:16,  1.84it/s] 76%|███████▌  | 36386/48008 [5:13:39<1:41:40,  1.90it/s] 76%|███████▌  | 36387/48008 [5:13:40<1:40:23,  1.93it/s] 76%|███████▌  | 36388/48008 [5:13:41<1:49:44,  1.76it/s] 76%|███████▌  | 36389/48008 [5:13:41<1:47:01,  1.81it/s] 76%|███████▌  | 36390/48008 [5:13:42<1:44:16,  1.86it/s] 76%|███████▌  | 36391/48008 [5:13:42<1:43:08,  1.88it/s] 76%|███████▌  | 36392/48008 [5:13:43<1:40:11,  1.93it/s] 76%|███████▌  | 36393/48008 [5:13:43<1:37:59,  1.98it/s] 76%|███████▌  | 36394/48008 [5:13:44<1:36:16,  2.01it/s] 76%|███████▌  | 36395/48008 [5:13:44<1:35:24,  2.03it/s] 76%|███████▌  | 36396/48008 [5:13:44<1:30:55,  2.13it/s] 76%|███████▌  | 36397/48008 [5:13:45<1:42:31,  1.89it/s] 76%|███████▌  | 36398/48008 [5:13:46<1:51:01,  1.74it/s] 76%|███████▌  | 36399/48008 [5:13:46<1:42:04,  1.90it/s] 76%|███████▌  | 36400/48008 [5:13:47<1:40:45,  1.92it/s]                                                         {'loss': 4.2198, 'grad_norm': 0.11143587529659271, 'learning_rate': 4.836277287118814e-05, 'epoch': 0.76} 76%|███████▌  | 36400/48008 [5:13:47<1:40:45,  1.92it/s]
 76%|███████▌  | 36401/48008 [5:13:47<1:38:37,  1.96it/s] 76%|███████▌  | 36402/48008 [5:13:48<1:37:00,  1.99it/s] 76%|███████▌  | 36403/48008 [5:13:48<1:35:51,  2.02it/s] 76%|███████▌  | 36404/48008 [5:13:49<1:37:12,  1.99it/s] 76%|███████▌  | 36405/48008 [5:13:49<1:31:59,  2.10it/s] 76%|███████▌  | 36406/48008 [5:13:50<1:34:05,  2.06it/s] 76%|███████▌  | 36407/48008 [5:13:50<1:33:47,  2.06it/s] 76%|███████▌  | 36408/48008 [5:13:51<1:33:38,  2.06it/s] 76%|███████▌  | 36409/48008 [5:13:51<1:36:54,  1.99it/s] 76%|███████▌  | 36410/48008 [5:13:52<1:32:00,  2.10it/s] 76%|███████▌  | 36411/48008 [5:13:52<1:32:09,  2.10it/s] 76%|███████▌  | 36412/48008 [5:13:52<1:32:49,  2.08it/s] 76%|███████▌  | 36413/48008 [5:13:53<1:34:20,  2.05it/s] 76%|███████▌  | 36414/48008 [5:13:53<1:34:58,  2.03it/s] 76%|███████▌  | 36415/48008 [5:13:54<1:34:19,  2.05it/s] 76%|███████▌  | 36416/48008 [5:13:54<1:30:08,  2.14it/s] 76%|███████▌  | 36417/48008 [5:13:55<1:31:11,  2.12it/s] 76%|███████▌  | 36418/48008 [5:13:55<1:31:47,  2.10it/s] 76%|███████▌  | 36419/48008 [5:13:56<1:28:40,  2.18it/s] 76%|███████▌  | 36420/48008 [5:13:56<1:26:15,  2.24it/s] 76%|███████▌  | 36421/48008 [5:13:57<1:29:41,  2.15it/s] 76%|███████▌  | 36422/48008 [5:13:57<1:30:39,  2.13it/s] 76%|███████▌  | 36423/48008 [5:13:58<1:31:01,  2.12it/s] 76%|███████▌  | 36424/48008 [5:13:58<1:31:13,  2.12it/s] 76%|███████▌  | 36425/48008 [5:13:59<1:33:10,  2.07it/s] 76%|███████▌  | 36426/48008 [5:13:59<1:32:57,  2.08it/s] 76%|███████▌  | 36427/48008 [5:14:00<1:29:04,  2.17it/s] 76%|███████▌  | 36428/48008 [5:14:00<1:30:17,  2.14it/s] 76%|███████▌  | 36429/48008 [5:14:01<1:32:28,  2.09it/s] 76%|███████▌  | 36430/48008 [5:14:01<1:32:33,  2.08it/s] 76%|███████▌  | 36431/48008 [5:14:01<1:32:22,  2.09it/s] 76%|███████▌  | 36432/48008 [5:14:02<1:35:49,  2.01it/s] 76%|███████▌  | 36433/48008 [5:14:03<1:46:22,  1.81it/s] 76%|███████▌  | 36434/48008 [5:14:03<1:43:33,  1.86it/s] 76%|███████▌  | 36435/48008 [5:14:04<2:24:33,  1.33it/s] 76%|███████▌  | 36436/48008 [5:14:05<2:08:56,  1.50it/s] 76%|███████▌  | 36437/48008 [5:14:06<2:09:30,  1.49it/s] 76%|███████▌  | 36438/48008 [5:14:06<1:59:41,  1.61it/s] 76%|███████▌  | 36439/48008 [5:14:07<1:52:54,  1.71it/s] 76%|███████▌  | 36440/48008 [5:14:07<1:42:51,  1.87it/s] 76%|███████▌  | 36441/48008 [5:14:08<1:41:17,  1.90it/s] 76%|███████▌  | 36442/48008 [5:14:08<1:40:40,  1.91it/s] 76%|███████▌  | 36443/48008 [5:14:09<1:39:46,  1.93it/s] 76%|███████▌  | 36444/48008 [5:14:09<1:33:56,  2.05it/s] 76%|███████▌  | 36445/48008 [5:14:10<2:18:36,  1.39it/s] 76%|███████▌  | 36446/48008 [5:14:11<2:05:57,  1.53it/s] 76%|███████▌  | 36447/48008 [5:14:11<1:55:43,  1.66it/s] 76%|███████▌  | 36448/48008 [5:14:12<1:49:04,  1.77it/s] 76%|███████▌  | 36449/48008 [5:14:12<1:43:56,  1.85it/s] 76%|███████▌  | 36450/48008 [5:14:13<1:35:10,  2.02it/s]                                                         {'loss': 4.2915, 'grad_norm': 0.13256734609603882, 'learning_rate': 4.8154474254290956e-05, 'epoch': 0.76}
 76%|███████▌  | 36450/48008 [5:14:13<1:35:10,  2.02it/s] 76%|███████▌  | 36451/48008 [5:14:13<1:35:58,  2.01it/s] 76%|███████▌  | 36452/48008 [5:14:14<1:35:02,  2.03it/s] 76%|███████▌  | 36453/48008 [5:14:14<1:34:26,  2.04it/s] 76%|███████▌  | 36454/48008 [5:14:14<1:30:10,  2.14it/s] 76%|███████▌  | 36455/48008 [5:14:15<1:30:44,  2.12it/s] 76%|███████▌  | 36456/48008 [5:14:15<1:32:57,  2.07it/s] 76%|███████▌  | 36457/48008 [5:14:16<1:32:47,  2.07it/s] 76%|███████▌  | 36458/48008 [5:14:16<1:35:48,  2.01it/s] 76%|███████▌  | 36459/48008 [5:14:17<1:35:56,  2.01it/s] 76%|███████▌  | 36460/48008 [5:14:17<1:35:05,  2.02it/s] 76%|███████▌  | 36461/48008 [5:14:18<1:34:44,  2.03it/s] 76%|███████▌  | 36462/48008 [5:14:18<1:34:31,  2.04it/s] 76%|███████▌  | 36463/48008 [5:14:19<1:35:08,  2.02it/s] 76%|███████▌  | 36464/48008 [5:14:19<1:34:32,  2.04it/s] 76%|███████▌  | 36465/48008 [5:14:20<1:30:13,  2.13it/s] 76%|███████▌  | 36466/48008 [5:14:20<1:31:59,  2.09it/s] 76%|███████▌  | 36467/48008 [5:14:21<1:34:17,  2.04it/s] 76%|███████▌  | 36468/48008 [5:14:21<1:36:14,  2.00it/s] 76%|███████▌  | 36469/48008 [5:14:22<1:31:22,  2.10it/s] 76%|███████▌  | 36470/48008 [5:14:22<1:32:55,  2.07it/s] 76%|███████▌  | 36471/48008 [5:14:23<1:36:26,  1.99it/s] 76%|███████▌  | 36472/48008 [5:14:23<1:35:25,  2.02it/s] 76%|███████▌  | 36473/48008 [5:14:24<1:37:54,  1.96it/s] 76%|███████▌  | 36474/48008 [5:14:24<1:36:04,  2.00it/s] 76%|███████▌  | 36475/48008 [5:14:25<1:34:52,  2.03it/s] 76%|███████▌  | 36476/48008 [5:14:25<1:36:31,  1.99it/s] 76%|███████▌  | 36477/48008 [5:14:26<1:37:22,  1.97it/s] 76%|███████▌  | 36478/48008 [5:14:26<1:31:59,  2.09it/s] 76%|███████▌  | 36479/48008 [5:14:27<1:43:17,  1.86it/s] 76%|███████▌  | 36480/48008 [5:14:27<1:39:43,  1.93it/s] 76%|███████▌  | 36481/48008 [5:14:28<1:37:28,  1.97it/s] 76%|███████▌  | 36482/48008 [5:14:29<1:47:06,  1.79it/s] 76%|███████▌  | 36483/48008 [5:14:29<1:46:10,  1.81it/s] 76%|███████▌  | 36484/48008 [5:14:30<1:42:08,  1.88it/s] 76%|███████▌  | 36485/48008 [5:14:30<1:35:36,  2.01it/s] 76%|███████▌  | 36486/48008 [5:14:30<1:36:07,  2.00it/s] 76%|███████▌  | 36487/48008 [5:14:31<1:36:13,  2.00it/s] 76%|███████▌  | 36488/48008 [5:14:31<1:36:20,  1.99it/s] 76%|███████▌  | 36489/48008 [5:14:32<1:35:19,  2.01it/s] 76%|███████▌  | 36490/48008 [5:14:32<1:34:15,  2.04it/s] 76%|███████▌  | 36491/48008 [5:14:33<1:33:33,  2.05it/s] 76%|███████▌  | 36492/48008 [5:14:33<1:29:29,  2.14it/s] 76%|███████▌  | 36493/48008 [5:14:34<1:30:38,  2.12it/s] 76%|███████▌  | 36494/48008 [5:14:34<1:33:29,  2.05it/s] 76%|███████▌  | 36495/48008 [5:14:35<1:34:06,  2.04it/s] 76%|███████▌  | 36496/48008 [5:14:35<1:33:38,  2.05it/s] 76%|███████▌  | 36497/48008 [5:14:36<1:35:38,  2.01it/s] 76%|███████▌  | 36498/48008 [5:14:36<1:34:34,  2.03it/s] 76%|███████▌  | 36499/48008 [5:14:37<1:36:58,  1.98it/s] 76%|███████▌  | 36500/48008 [5:14:37<1:31:46,  2.09it/s]                                                         {'loss': 4.2126, 'grad_norm': 0.1782967448234558, 'learning_rate': 4.794617563739377e-05, 'epoch': 0.76} 76%|███████▌  | 36500/48008 [5:14:37<1:31:46,  2.09it/s]
 76%|███████▌  | 36501/48008 [5:14:38<1:33:24,  2.05it/s] 76%|███████▌  | 36502/48008 [5:14:38<1:33:05,  2.06it/s] 76%|███████▌  | 36503/48008 [5:14:39<1:27:06,  2.20it/s] 76%|███████▌  | 36504/48008 [5:14:39<1:24:56,  2.26it/s] 76%|███████▌  | 36505/48008 [5:14:40<1:28:28,  2.17it/s] 76%|███████▌  | 36506/48008 [5:14:41<2:21:39,  1.35it/s] 76%|███████▌  | 36507/48008 [5:14:41<2:08:00,  1.50it/s] 76%|███████▌  | 36508/48008 [5:14:42<1:59:42,  1.60it/s] 76%|███████▌  | 36509/48008 [5:14:43<1:53:51,  1.68it/s] 76%|███████▌  | 36510/48008 [5:14:43<1:43:46,  1.85it/s] 76%|███████▌  | 36511/48008 [5:14:43<1:40:27,  1.91it/s] 76%|███████▌  | 36512/48008 [5:14:45<2:31:28,  1.26it/s] 76%|███████▌  | 36513/48008 [5:14:45<2:13:52,  1.43it/s] 76%|███████▌  | 36514/48008 [5:14:46<1:57:41,  1.63it/s] 76%|███████▌  | 36515/48008 [5:14:46<1:46:11,  1.80it/s] 76%|███████▌  | 36516/48008 [5:14:47<1:53:51,  1.68it/s] 76%|███████▌  | 36517/48008 [5:14:47<1:48:46,  1.76it/s] 76%|███████▌  | 36518/48008 [5:14:48<2:18:57,  1.38it/s] 76%|███████▌  | 36519/48008 [5:14:49<2:06:52,  1.51it/s] 76%|███████▌  | 36520/48008 [5:14:49<1:56:47,  1.64it/s] 76%|███████▌  | 36521/48008 [5:14:50<1:49:20,  1.75it/s] 76%|███████▌  | 36522/48008 [5:14:50<1:43:57,  1.84it/s] 76%|███████▌  | 36523/48008 [5:14:51<1:41:34,  1.88it/s] 76%|███████▌  | 36524/48008 [5:14:51<1:39:55,  1.92it/s] 76%|███████▌  | 36525/48008 [5:14:52<1:38:56,  1.93it/s] 76%|███████▌  | 36526/48008 [5:14:52<1:36:56,  1.97it/s] 76%|███████▌  | 36527/48008 [5:14:53<1:35:33,  2.00it/s] 76%|███████▌  | 36528/48008 [5:14:53<1:34:31,  2.02it/s] 76%|███████▌  | 36529/48008 [5:14:54<1:37:18,  1.97it/s] 76%|███████▌  | 36530/48008 [5:14:55<2:08:04,  1.49it/s] 76%|███████▌  | 36531/48008 [5:14:55<1:57:28,  1.63it/s] 76%|███████▌  | 36532/48008 [5:14:56<1:50:21,  1.73it/s] 76%|███████▌  | 36533/48008 [5:14:56<1:40:55,  1.90it/s] 76%|███████▌  | 36534/48008 [5:14:57<1:39:40,  1.92it/s] 76%|███████▌  | 36535/48008 [5:14:57<1:37:11,  1.97it/s] 76%|███████▌  | 36536/48008 [5:14:58<1:37:15,  1.97it/s] 76%|███████▌  | 36537/48008 [5:14:58<1:36:46,  1.98it/s] 76%|███████▌  | 36538/48008 [5:14:59<1:31:45,  2.08it/s] 76%|███████▌  | 36539/48008 [5:14:59<1:33:15,  2.05it/s] 76%|███████▌  | 36540/48008 [5:15:00<1:32:46,  2.06it/s] 76%|███████▌  | 36541/48008 [5:15:00<1:34:37,  2.02it/s] 76%|███████▌  | 36542/48008 [5:15:01<1:44:42,  1.83it/s] 76%|███████▌  | 36543/48008 [5:15:01<1:43:05,  1.85it/s] 76%|███████▌  | 36544/48008 [5:15:02<1:41:11,  1.89it/s] 76%|███████▌  | 36545/48008 [5:15:02<1:38:07,  1.95it/s] 76%|███████▌  | 36546/48008 [5:15:03<1:36:23,  1.98it/s] 76%|███████▌  | 36547/48008 [5:15:03<1:35:04,  2.01it/s] 76%|███████▌  | 36548/48008 [5:15:04<1:35:33,  2.00it/s] 76%|███████▌  | 36549/48008 [5:15:04<1:34:17,  2.03it/s] 76%|███████▌  | 36550/48008 [5:15:05<1:33:25,  2.04it/s]                                                         {'loss': 4.2632, 'grad_norm': 0.10972245037555695, 'learning_rate': 4.7737877020496584e-05, 'epoch': 0.76}
 76%|███████▌  | 36550/48008 [5:15:05<1:33:25,  2.04it/s] 76%|███████▌  | 36551/48008 [5:15:05<1:32:42,  2.06it/s] 76%|███████▌  | 36552/48008 [5:15:06<1:32:31,  2.06it/s] 76%|███████▌  | 36553/48008 [5:15:06<1:34:20,  2.02it/s] 76%|███████▌  | 36554/48008 [5:15:07<1:34:30,  2.02it/s] 76%|███████▌  | 36555/48008 [5:15:07<1:35:38,  2.00it/s] 76%|███████▌  | 36556/48008 [5:15:08<1:34:28,  2.02it/s] 76%|███████▌  | 36557/48008 [5:15:08<1:33:38,  2.04it/s] 76%|███████▌  | 36558/48008 [5:15:09<1:34:56,  2.01it/s] 76%|███████▌  | 36559/48008 [5:15:09<1:36:04,  1.99it/s] 76%|███████▌  | 36560/48008 [5:15:10<1:34:48,  2.01it/s] 76%|███████▌  | 36561/48008 [5:15:10<1:34:22,  2.02it/s] 76%|███████▌  | 36562/48008 [5:15:11<1:44:23,  1.83it/s] 76%|███████▌  | 36563/48008 [5:15:11<1:40:51,  1.89it/s] 76%|███████▌  | 36564/48008 [5:15:12<1:49:03,  1.75it/s] 76%|███████▌  | 36565/48008 [5:15:13<1:55:35,  1.65it/s] 76%|███████▌  | 36566/48008 [5:15:13<1:44:42,  1.82it/s] 76%|███████▌  | 36567/48008 [5:15:14<1:36:53,  1.97it/s] 76%|███████▌  | 36568/48008 [5:15:14<1:31:38,  2.08it/s] 76%|███████▌  | 36569/48008 [5:15:15<1:33:49,  2.03it/s] 76%|███████▌  | 36570/48008 [5:15:15<1:29:28,  2.13it/s] 76%|███████▌  | 36571/48008 [5:15:15<1:26:32,  2.20it/s] 76%|███████▌  | 36572/48008 [5:15:16<1:28:47,  2.15it/s] 76%|███████▌  | 36573/48008 [5:15:16<1:29:49,  2.12it/s] 76%|███████▌  | 36574/48008 [5:15:17<1:31:41,  2.08it/s] 76%|███████▌  | 36575/48008 [5:15:17<1:31:54,  2.07it/s] 76%|███████▌  | 36576/48008 [5:15:18<1:31:36,  2.08it/s] 76%|███████▌  | 36577/48008 [5:15:18<1:32:49,  2.05it/s] 76%|███████▌  | 36578/48008 [5:15:19<1:28:46,  2.15it/s] 76%|███████▌  | 36579/48008 [5:15:19<1:29:45,  2.12it/s] 76%|███████▌  | 36580/48008 [5:15:21<2:14:49,  1.41it/s] 76%|███████▌  | 36581/48008 [5:15:21<1:58:09,  1.61it/s] 76%|███████▌  | 36582/48008 [5:15:21<1:51:48,  1.70it/s] 76%|███████▌  | 36583/48008 [5:15:22<1:42:03,  1.87it/s] 76%|███████▌  | 36584/48008 [5:15:22<1:38:44,  1.93it/s] 76%|███████▌  | 36585/48008 [5:15:23<1:37:52,  1.95it/s] 76%|███████▌  | 36586/48008 [5:15:23<1:35:51,  1.99it/s] 76%|███████▌  | 36587/48008 [5:15:24<1:34:16,  2.02it/s] 76%|███████▌  | 36588/48008 [5:15:24<1:44:31,  1.82it/s] 76%|███████▌  | 36589/48008 [5:15:25<1:42:05,  1.86it/s] 76%|███████▌  | 36590/48008 [5:15:25<1:35:04,  2.00it/s] 76%|███████▌  | 36591/48008 [5:15:26<1:33:43,  2.03it/s] 76%|███████▌  | 36592/48008 [5:15:26<1:34:19,  2.02it/s] 76%|███████▌  | 36593/48008 [5:15:27<1:33:35,  2.03it/s] 76%|███████▌  | 36594/48008 [5:15:27<1:32:54,  2.05it/s] 76%|███████▌  | 36595/48008 [5:15:28<1:32:27,  2.06it/s] 76%|███████▌  | 36596/48008 [5:15:28<1:32:12,  2.06it/s] 76%|███████▌  | 36597/48008 [5:15:29<1:28:21,  2.15it/s] 76%|███████▌  | 36598/48008 [5:15:29<1:29:25,  2.13it/s] 76%|███████▌  | 36599/48008 [5:15:30<1:30:17,  2.11it/s] 76%|███████▌  | 36600/48008 [5:15:30<1:27:01,  2.18it/s]                                                         {'loss': 4.2113, 'grad_norm': 0.11286302655935287, 'learning_rate': 4.75295784035994e-05, 'epoch': 0.76} 76%|███████▌  | 36600/48008 [5:15:30<1:27:01,  2.18it/s]
 76%|███████▌  | 36601/48008 [5:15:31<1:29:48,  2.12it/s] 76%|███████▌  | 36602/48008 [5:15:31<1:26:39,  2.19it/s] 76%|███████▌  | 36603/48008 [5:15:31<1:24:38,  2.25it/s] 76%|███████▌  | 36604/48008 [5:15:32<1:29:11,  2.13it/s] 76%|███████▌  | 36605/48008 [5:15:33<2:13:51,  1.42it/s] 76%|███████▌  | 36606/48008 [5:15:34<2:00:47,  1.57it/s] 76%|███████▋  | 36607/48008 [5:15:34<1:48:22,  1.75it/s] 76%|███████▋  | 36608/48008 [5:15:35<1:43:08,  1.84it/s] 76%|███████▋  | 36609/48008 [5:15:35<1:41:34,  1.87it/s] 76%|███████▋  | 36610/48008 [5:15:36<1:39:25,  1.91it/s] 76%|███████▋  | 36611/48008 [5:15:37<2:22:08,  1.34it/s] 76%|███████▋  | 36612/48008 [5:15:37<2:07:37,  1.49it/s] 76%|███████▋  | 36613/48008 [5:15:38<1:56:39,  1.63it/s] 76%|███████▋  | 36614/48008 [5:15:39<2:34:05,  1.23it/s] 76%|███████▋  | 36615/48008 [5:15:40<2:15:24,  1.40it/s] 76%|███████▋  | 36616/48008 [5:15:40<2:02:00,  1.56it/s] 76%|███████▋  | 36617/48008 [5:15:41<1:56:29,  1.63it/s] 76%|███████▋  | 36618/48008 [5:15:41<1:48:46,  1.75it/s] 76%|███████▋  | 36619/48008 [5:15:42<1:39:58,  1.90it/s] 76%|███████▋  | 36620/48008 [5:15:42<1:39:41,  1.90it/s] 76%|███████▋  | 36621/48008 [5:15:43<1:39:57,  1.90it/s] 76%|███████▋  | 36622/48008 [5:15:44<2:21:03,  1.35it/s] 76%|███████▋  | 36623/48008 [5:15:44<2:06:07,  1.50it/s] 76%|███████▋  | 36624/48008 [5:15:45<1:56:00,  1.64it/s] 76%|███████▋  | 36625/48008 [5:15:45<1:50:05,  1.72it/s] 76%|███████▋  | 36626/48008 [5:15:46<1:44:35,  1.81it/s] 76%|███████▋  | 36627/48008 [5:15:46<1:40:24,  1.89it/s] 76%|███████▋  | 36628/48008 [5:15:48<2:21:12,  1.34it/s] 76%|███████▋  | 36629/48008 [5:15:48<2:08:14,  1.48it/s] 76%|███████▋  | 36630/48008 [5:15:49<1:57:03,  1.62it/s] 76%|███████▋  | 36631/48008 [5:15:49<1:51:26,  1.70it/s] 76%|███████▋  | 36632/48008 [5:15:49<1:39:59,  1.90it/s] 76%|███████▋  | 36633/48008 [5:15:50<1:37:37,  1.94it/s] 76%|███████▋  | 36634/48008 [5:15:50<1:31:54,  2.06it/s] 76%|███████▋  | 36635/48008 [5:15:51<1:32:00,  2.06it/s] 76%|███████▋  | 36636/48008 [5:15:51<1:33:23,  2.03it/s] 76%|███████▋  | 36637/48008 [5:15:52<1:33:42,  2.02it/s] 76%|███████▋  | 36638/48008 [5:15:52<1:33:24,  2.03it/s] 76%|███████▋  | 36639/48008 [5:15:53<1:32:56,  2.04it/s] 76%|███████▋  | 36640/48008 [5:15:53<1:32:21,  2.05it/s] 76%|███████▋  | 36641/48008 [5:15:54<1:34:27,  2.01it/s] 76%|███████▋  | 36642/48008 [5:15:54<1:30:06,  2.10it/s] 76%|███████▋  | 36643/48008 [5:15:55<1:31:45,  2.06it/s] 76%|███████▋  | 36644/48008 [5:15:55<1:33:55,  2.02it/s] 76%|███████▋  | 36645/48008 [5:15:56<1:32:50,  2.04it/s] 76%|███████▋  | 36646/48008 [5:15:56<1:34:33,  2.00it/s] 76%|███████▋  | 36647/48008 [5:15:57<1:33:43,  2.02it/s] 76%|███████▋  | 36648/48008 [5:15:57<1:35:55,  1.97it/s] 76%|███████▋  | 36649/48008 [5:15:58<1:45:25,  1.80it/s] 76%|███████▋  | 36650/48008 [5:15:58<1:41:31,  1.86it/s]                                                         {'loss': 4.2799, 'grad_norm': 0.20336218178272247, 'learning_rate': 4.732127978670222e-05, 'epoch': 0.76}
 76%|███████▋  | 36650/48008 [5:15:58<1:41:31,  1.86it/s] 76%|███████▋  | 36651/48008 [5:15:59<1:34:56,  1.99it/s] 76%|███████▋  | 36652/48008 [5:15:59<1:33:45,  2.02it/s] 76%|███████▋  | 36653/48008 [5:16:00<1:33:55,  2.01it/s] 76%|███████▋  | 36654/48008 [5:16:00<1:33:00,  2.03it/s] 76%|███████▋  | 36655/48008 [5:16:01<1:32:11,  2.05it/s] 76%|███████▋  | 36656/48008 [5:16:01<1:28:22,  2.14it/s] 76%|███████▋  | 36657/48008 [5:16:02<1:29:12,  2.12it/s] 76%|███████▋  | 36658/48008 [5:16:02<1:31:29,  2.07it/s] 76%|███████▋  | 36659/48008 [5:16:03<1:31:31,  2.07it/s] 76%|███████▋  | 36660/48008 [5:16:03<1:32:40,  2.04it/s] 76%|███████▋  | 36661/48008 [5:16:04<1:32:29,  2.04it/s] 76%|███████▋  | 36662/48008 [5:16:04<1:35:10,  1.99it/s] 76%|███████▋  | 36663/48008 [5:16:05<1:28:22,  2.14it/s] 76%|███████▋  | 36664/48008 [5:16:05<1:29:05,  2.12it/s] 76%|███████▋  | 36665/48008 [5:16:06<1:30:38,  2.09it/s] 76%|███████▋  | 36666/48008 [5:16:06<1:33:57,  2.01it/s] 76%|███████▋  | 36667/48008 [5:16:07<1:34:05,  2.01it/s] 76%|███████▋  | 36668/48008 [5:16:07<1:34:38,  2.00it/s] 76%|███████▋  | 36669/48008 [5:16:08<1:33:30,  2.02it/s] 76%|███████▋  | 36670/48008 [5:16:08<1:35:11,  1.99it/s] 76%|███████▋  | 36671/48008 [5:16:09<1:34:03,  2.01it/s] 76%|███████▋  | 36672/48008 [5:16:09<1:34:38,  2.00it/s] 76%|███████▋  | 36673/48008 [5:16:10<1:33:51,  2.01it/s] 76%|███████▋  | 36674/48008 [5:16:10<1:33:16,  2.03it/s] 76%|███████▋  | 36675/48008 [5:16:11<1:34:40,  1.99it/s] 76%|███████▋  | 36676/48008 [5:16:11<1:30:12,  2.09it/s] 76%|███████▋  | 36677/48008 [5:16:12<1:31:35,  2.06it/s] 76%|███████▋  | 36678/48008 [5:16:12<1:32:36,  2.04it/s] 76%|███████▋  | 36679/48008 [5:16:12<1:28:32,  2.13it/s] 76%|███████▋  | 36680/48008 [5:16:13<1:29:10,  2.12it/s] 76%|███████▋  | 36681/48008 [5:16:13<1:31:57,  2.05it/s] 76%|███████▋  | 36682/48008 [5:16:14<1:31:35,  2.06it/s] 76%|███████▋  | 36683/48008 [5:16:14<1:32:53,  2.03it/s] 76%|███████▋  | 36684/48008 [5:16:15<1:35:43,  1.97it/s] 76%|███████▋  | 36685/48008 [5:16:15<1:30:27,  2.09it/s] 76%|███████▋  | 36686/48008 [5:16:16<1:33:09,  2.03it/s] 76%|███████▋  | 36687/48008 [5:16:16<1:32:21,  2.04it/s] 76%|███████▋  | 36688/48008 [5:16:17<1:33:26,  2.02it/s] 76%|███████▋  | 36689/48008 [5:16:18<1:54:53,  1.64it/s] 76%|███████▋  | 36690/48008 [5:16:18<1:47:42,  1.75it/s] 76%|███████▋  | 36691/48008 [5:16:19<1:38:42,  1.91it/s] 76%|███████▋  | 36692/48008 [5:16:19<1:36:22,  1.96it/s] 76%|███████▋  | 36693/48008 [5:16:20<1:34:42,  1.99it/s] 76%|███████▋  | 36694/48008 [5:16:21<2:16:59,  1.38it/s] 76%|███████▋  | 36695/48008 [5:16:21<2:05:16,  1.51it/s] 76%|███████▋  | 36696/48008 [5:16:22<1:51:10,  1.70it/s] 76%|███████▋  | 36697/48008 [5:16:22<1:44:59,  1.80it/s] 76%|███████▋  | 36698/48008 [5:16:23<1:37:05,  1.94it/s] 76%|███████▋  | 36699/48008 [5:16:23<1:37:24,  1.94it/s] 76%|███████▋  | 36700/48008 [5:16:24<1:35:32,  1.97it/s]{'loss': 4.2582, 'grad_norm': 0.10970185697078705, 'learning_rate': 4.7112981169805036e-05, 'epoch': 0.76}                                                          76%|███████▋  | 36700/48008 [5:16:24<1:35:32,  1.97it/s]
 76%|███████▋  | 36701/48008 [5:16:24<1:30:19,  2.09it/s] 76%|███████▋  | 36702/48008 [5:16:25<1:30:29,  2.08it/s] 76%|███████▋  | 36703/48008 [5:16:25<1:25:06,  2.21it/s] 76%|███████▋  | 36704/48008 [5:16:26<1:28:02,  2.14it/s] 76%|███████▋  | 36705/48008 [5:16:26<1:24:58,  2.22it/s] 76%|███████▋  | 36706/48008 [5:16:26<1:26:42,  2.17it/s] 76%|███████▋  | 36707/48008 [5:16:27<1:28:06,  2.14it/s] 76%|███████▋  | 36708/48008 [5:16:27<1:29:06,  2.11it/s] 76%|███████▋  | 36709/48008 [5:16:28<1:31:37,  2.06it/s] 76%|███████▋  | 36710/48008 [5:16:28<1:31:25,  2.06it/s] 76%|███████▋  | 36711/48008 [5:16:29<1:31:24,  2.06it/s] 76%|███████▋  | 36712/48008 [5:16:29<1:31:26,  2.06it/s] 76%|███████▋  | 36713/48008 [5:16:30<1:32:21,  2.04it/s] 76%|███████▋  | 36714/48008 [5:16:30<1:31:35,  2.06it/s] 76%|███████▋  | 36715/48008 [5:16:31<1:32:24,  2.04it/s] 76%|███████▋  | 36716/48008 [5:16:31<1:32:58,  2.02it/s] 76%|███████▋  | 36717/48008 [5:16:32<1:32:29,  2.03it/s] 76%|███████▋  | 36718/48008 [5:16:32<1:42:33,  1.83it/s] 76%|███████▋  | 36719/48008 [5:16:33<1:38:35,  1.91it/s] 76%|███████▋  | 36720/48008 [5:16:33<1:37:14,  1.93it/s] 76%|███████▋  | 36721/48008 [5:16:34<1:36:18,  1.95it/s] 76%|███████▋  | 36722/48008 [5:16:35<2:19:04,  1.35it/s] 76%|███████▋  | 36723/48008 [5:16:36<2:01:08,  1.55it/s] 76%|███████▋  | 36724/48008 [5:16:36<1:51:36,  1.69it/s] 76%|███████▋  | 36725/48008 [5:16:37<1:41:41,  1.85it/s] 76%|███████▋  | 36726/48008 [5:16:37<1:38:42,  1.90it/s] 77%|███████▋  | 36727/48008 [5:16:37<1:32:54,  2.02it/s] 77%|███████▋  | 36728/48008 [5:16:38<1:33:27,  2.01it/s] 77%|███████▋  | 36729/48008 [5:16:38<1:32:37,  2.03it/s] 77%|███████▋  | 36730/48008 [5:16:39<1:32:15,  2.04it/s] 77%|███████▋  | 36731/48008 [5:16:39<1:32:00,  2.04it/s] 77%|███████▋  | 36732/48008 [5:16:40<1:32:54,  2.02it/s] 77%|███████▋  | 36733/48008 [5:16:40<1:35:05,  1.98it/s] 77%|███████▋  | 36734/48008 [5:16:41<1:33:34,  2.01it/s] 77%|███████▋  | 36735/48008 [5:16:41<1:35:56,  1.96it/s] 77%|███████▋  | 36736/48008 [5:16:42<1:35:26,  1.97it/s] 77%|███████▋  | 36737/48008 [5:16:42<1:33:53,  2.00it/s] 77%|███████▋  | 36738/48008 [5:16:43<1:35:25,  1.97it/s] 77%|███████▋  | 36739/48008 [5:16:43<1:30:35,  2.07it/s] 77%|███████▋  | 36740/48008 [5:16:44<1:33:45,  2.00it/s] 77%|███████▋  | 36741/48008 [5:16:44<1:32:55,  2.02it/s] 77%|███████▋  | 36742/48008 [5:16:45<1:35:13,  1.97it/s] 77%|███████▋  | 36743/48008 [5:16:45<1:33:49,  2.00it/s] 77%|███████▋  | 36744/48008 [5:16:46<1:32:36,  2.03it/s] 77%|███████▋  | 36745/48008 [5:16:46<1:33:54,  2.00it/s] 77%|███████▋  | 36746/48008 [5:16:48<2:16:02,  1.38it/s] 77%|███████▋  | 36747/48008 [5:16:48<2:02:30,  1.53it/s] 77%|███████▋  | 36748/48008 [5:16:49<1:53:10,  1.66it/s] 77%|███████▋  | 36749/48008 [5:16:49<1:46:10,  1.77it/s] 77%|███████▋  | 36750/48008 [5:16:50<1:41:35,  1.85it/s]                                                         {'loss': 4.2486, 'grad_norm': 0.10241402685642242, 'learning_rate': 4.6904682552907854e-05, 'epoch': 0.77}
 77%|███████▋  | 36750/48008 [5:16:50<1:41:35,  1.85it/s] 77%|███████▋  | 36751/48008 [5:16:50<1:39:17,  1.89it/s] 77%|███████▋  | 36752/48008 [5:16:51<1:33:04,  2.02it/s] 77%|███████▋  | 36753/48008 [5:16:51<1:32:18,  2.03it/s] 77%|███████▋  | 36754/48008 [5:16:52<1:32:00,  2.04it/s] 77%|███████▋  | 36755/48008 [5:16:52<1:31:17,  2.05it/s] 77%|███████▋  | 36756/48008 [5:16:52<1:27:24,  2.15it/s] 77%|███████▋  | 36757/48008 [5:16:53<1:29:41,  2.09it/s] 77%|███████▋  | 36758/48008 [5:16:53<1:30:13,  2.08it/s] 77%|███████▋  | 36759/48008 [5:16:54<1:30:29,  2.07it/s] 77%|███████▋  | 36760/48008 [5:16:54<1:30:25,  2.07it/s] 77%|███████▋  | 36761/48008 [5:16:55<1:32:51,  2.02it/s] 77%|███████▋  | 36762/48008 [5:16:55<1:35:31,  1.96it/s] 77%|███████▋  | 36763/48008 [5:16:56<1:34:12,  1.99it/s] 77%|███████▋  | 36764/48008 [5:16:56<1:29:09,  2.10it/s] 77%|███████▋  | 36765/48008 [5:16:57<1:52:08,  1.67it/s] 77%|███████▋  | 36766/48008 [5:16:58<1:45:17,  1.78it/s] 77%|███████▋  | 36767/48008 [5:16:58<1:40:28,  1.86it/s] 77%|███████▋  | 36768/48008 [5:16:59<1:33:52,  2.00it/s] 77%|███████▋  | 36769/48008 [5:16:59<1:32:33,  2.02it/s] 77%|███████▋  | 36770/48008 [5:17:00<1:35:05,  1.97it/s] 77%|███████▋  | 36771/48008 [5:17:00<1:33:47,  2.00it/s] 77%|███████▋  | 36772/48008 [5:17:01<1:32:46,  2.02it/s] 77%|███████▋  | 36773/48008 [5:17:01<1:28:38,  2.11it/s] 77%|███████▋  | 36774/48008 [5:17:02<1:30:54,  2.06it/s] 77%|███████▋  | 36775/48008 [5:17:02<1:41:27,  1.85it/s] 77%|███████▋  | 36776/48008 [5:17:03<1:37:46,  1.91it/s] 77%|███████▋  | 36777/48008 [5:17:03<1:36:59,  1.93it/s] 77%|███████▋  | 36778/48008 [5:17:04<1:34:54,  1.97it/s] 77%|███████▋  | 36779/48008 [5:17:04<1:33:51,  1.99it/s] 77%|███████▋  | 36780/48008 [5:17:05<1:32:29,  2.02it/s] 77%|███████▋  | 36781/48008 [5:17:05<1:31:46,  2.04it/s] 77%|███████▋  | 36782/48008 [5:17:06<1:31:28,  2.05it/s] 77%|███████▋  | 36783/48008 [5:17:06<1:31:12,  2.05it/s] 77%|███████▋  | 36784/48008 [5:17:07<1:33:11,  2.01it/s] 77%|███████▋  | 36785/48008 [5:17:07<1:28:36,  2.11it/s] 77%|███████▋  | 36786/48008 [5:17:07<1:25:27,  2.19it/s] 77%|███████▋  | 36787/48008 [5:17:08<1:27:04,  2.15it/s] 77%|███████▋  | 36788/48008 [5:17:08<1:27:50,  2.13it/s] 77%|███████▋  | 36789/48008 [5:17:09<1:28:24,  2.11it/s] 77%|███████▋  | 36790/48008 [5:17:09<1:31:17,  2.05it/s] 77%|███████▋  | 36791/48008 [5:17:10<1:30:57,  2.06it/s] 77%|███████▋  | 36792/48008 [5:17:10<1:33:43,  1.99it/s] 77%|███████▋  | 36793/48008 [5:17:11<1:29:03,  2.10it/s] 77%|███████▋  | 36794/48008 [5:17:11<1:30:24,  2.07it/s] 77%|███████▋  | 36795/48008 [5:17:12<1:30:10,  2.07it/s] 77%|███████▋  | 36796/48008 [5:17:12<1:30:17,  2.07it/s] 77%|███████▋  | 36797/48008 [5:17:13<1:30:14,  2.07it/s] 77%|███████▋  | 36798/48008 [5:17:13<1:30:17,  2.07it/s] 77%|███████▋  | 36799/48008 [5:17:14<1:32:29,  2.02it/s] 77%|███████▋  | 36800/48008 [5:17:14<1:31:41,  2.04it/s]                                                         {'loss': 4.2501, 'grad_norm': 0.10344714671373367, 'learning_rate': 4.669638393601067e-05, 'epoch': 0.77}
 77%|███████▋  | 36800/48008 [5:17:14<1:31:41,  2.04it/s] 77%|███████▋  | 36801/48008 [5:17:15<1:31:30,  2.04it/s] 77%|███████▋  | 36802/48008 [5:17:15<1:27:32,  2.13it/s] 77%|███████▋  | 36803/48008 [5:17:16<1:28:30,  2.11it/s] 77%|███████▋  | 36804/48008 [5:17:16<1:28:35,  2.11it/s] 77%|███████▋  | 36805/48008 [5:17:17<1:29:14,  2.09it/s] 77%|███████▋  | 36806/48008 [5:17:17<1:29:27,  2.09it/s] 77%|███████▋  | 36807/48008 [5:17:18<1:26:02,  2.17it/s] 77%|███████▋  | 36808/48008 [5:17:18<1:29:32,  2.08it/s] 77%|███████▋  | 36809/48008 [5:17:19<1:32:00,  2.03it/s] 77%|███████▋  | 36810/48008 [5:17:19<1:33:42,  1.99it/s] 77%|███████▋  | 36811/48008 [5:17:20<1:33:56,  1.99it/s] 77%|███████▋  | 36812/48008 [5:17:20<1:34:14,  1.98it/s] 77%|███████▋  | 36813/48008 [5:17:21<1:34:19,  1.98it/s] 77%|███████▋  | 36814/48008 [5:17:22<1:55:38,  1.61it/s] 77%|███████▋  | 36815/48008 [5:17:22<1:49:19,  1.71it/s] 77%|███████▋  | 36816/48008 [5:17:23<1:44:36,  1.78it/s] 77%|███████▋  | 36817/48008 [5:17:23<1:40:14,  1.86it/s] 77%|███████▋  | 36818/48008 [5:17:23<1:37:20,  1.92it/s] 77%|███████▋  | 36819/48008 [5:17:24<1:35:12,  1.96it/s] 77%|███████▋  | 36820/48008 [5:17:24<1:33:32,  1.99it/s] 77%|███████▋  | 36821/48008 [5:17:25<1:32:18,  2.02it/s] 77%|███████▋  | 36822/48008 [5:17:25<1:31:18,  2.04it/s] 77%|███████▋  | 36823/48008 [5:17:26<1:30:50,  2.05it/s] 77%|███████▋  | 36824/48008 [5:17:26<1:30:41,  2.06it/s] 77%|███████▋  | 36825/48008 [5:17:27<1:33:46,  1.99it/s] 77%|███████▋  | 36826/48008 [5:17:27<1:32:30,  2.01it/s] 77%|███████▋  | 36827/48008 [5:17:28<1:31:45,  2.03it/s] 77%|███████▋  | 36828/48008 [5:17:28<1:27:34,  2.13it/s] 77%|███████▋  | 36829/48008 [5:17:29<1:27:58,  2.12it/s] 77%|███████▋  | 36830/48008 [5:17:29<1:28:30,  2.10it/s] 77%|███████▋  | 36831/48008 [5:17:30<1:28:35,  2.10it/s] 77%|███████▋  | 36832/48008 [5:17:30<1:31:18,  2.04it/s] 77%|███████▋  | 36833/48008 [5:17:31<1:52:44,  1.65it/s] 77%|███████▋  | 36834/48008 [5:17:32<1:45:51,  1.76it/s] 77%|███████▋  | 36835/48008 [5:17:32<1:42:27,  1.82it/s] 77%|███████▋  | 36836/48008 [5:17:33<1:40:36,  1.85it/s] 77%|███████▋  | 36837/48008 [5:17:33<1:40:35,  1.85it/s] 77%|███████▋  | 36838/48008 [5:17:34<1:39:34,  1.87it/s] 77%|███████▋  | 36839/48008 [5:17:34<1:38:09,  1.90it/s] 77%|███████▋  | 36840/48008 [5:17:35<1:57:58,  1.58it/s] 77%|███████▋  | 36841/48008 [5:17:36<1:51:00,  1.68it/s] 77%|███████▋  | 36842/48008 [5:17:36<1:44:38,  1.78it/s] 77%|███████▋  | 36843/48008 [5:17:37<1:41:39,  1.83it/s] 77%|███████▋  | 36844/48008 [5:17:37<1:37:44,  1.90it/s] 77%|███████▋  | 36845/48008 [5:17:38<1:35:25,  1.95it/s] 77%|███████▋  | 36846/48008 [5:17:38<1:36:01,  1.94it/s] 77%|███████▋  | 36847/48008 [5:17:39<1:44:44,  1.78it/s] 77%|███████▋  | 36848/48008 [5:17:39<1:41:43,  1.83it/s] 77%|███████▋  | 36849/48008 [5:17:40<1:34:31,  1.97it/s] 77%|███████▋  | 36850/48008 [5:17:40<1:33:03,  2.00it/s]                                                         {'loss': 4.2649, 'grad_norm': 0.09825055301189423, 'learning_rate': 4.648808531911348e-05, 'epoch': 0.77}
 77%|███████▋  | 36850/48008 [5:17:40<1:33:03,  2.00it/s] 77%|███████▋  | 36851/48008 [5:17:41<2:01:33,  1.53it/s] 77%|███████▋  | 36852/48008 [5:17:42<1:52:00,  1.66it/s] 77%|███████▋  | 36853/48008 [5:17:42<1:45:26,  1.76it/s] 77%|███████▋  | 36854/48008 [5:17:43<1:40:53,  1.84it/s] 77%|███████▋  | 36855/48008 [5:17:43<1:38:54,  1.88it/s] 77%|███████▋  | 36856/48008 [5:17:44<1:38:13,  1.89it/s] 77%|███████▋  | 36857/48008 [5:17:44<1:35:29,  1.95it/s] 77%|███████▋  | 36858/48008 [5:17:45<1:33:22,  1.99it/s] 77%|███████▋  | 36859/48008 [5:17:45<1:34:17,  1.97it/s] 77%|███████▋  | 36860/48008 [5:17:46<2:16:03,  1.37it/s] 77%|███████▋  | 36861/48008 [5:17:47<2:01:44,  1.53it/s] 77%|███████▋  | 36862/48008 [5:17:47<1:54:01,  1.63it/s] 77%|███████▋  | 36863/48008 [5:17:48<1:47:51,  1.72it/s] 77%|███████▋  | 36864/48008 [5:17:48<1:42:11,  1.82it/s] 77%|███████▋  | 36865/48008 [5:17:49<1:40:43,  1.84it/s] 77%|███████▋  | 36866/48008 [5:17:49<1:37:25,  1.91it/s] 77%|███████▋  | 36867/48008 [5:17:50<1:36:28,  1.92it/s] 77%|███████▋  | 36868/48008 [5:17:50<1:30:28,  2.05it/s] 77%|███████▋  | 36869/48008 [5:17:51<1:26:42,  2.14it/s] 77%|███████▋  | 36870/48008 [5:17:51<1:27:31,  2.12it/s] 77%|███████▋  | 36871/48008 [5:17:52<1:28:20,  2.10it/s] 77%|███████▋  | 36872/48008 [5:17:52<1:29:02,  2.08it/s] 77%|███████▋  | 36873/48008 [5:17:53<1:29:19,  2.08it/s] 77%|███████▋  | 36874/48008 [5:17:53<1:31:27,  2.03it/s] 77%|███████▋  | 36875/48008 [5:17:54<1:31:00,  2.04it/s] 77%|███████▋  | 36876/48008 [5:17:54<1:41:30,  1.83it/s] 77%|███████▋  | 36877/48008 [5:17:55<1:34:19,  1.97it/s] 77%|███████▋  | 36878/48008 [5:17:55<1:33:07,  1.99it/s] 77%|███████▋  | 36879/48008 [5:17:56<1:31:51,  2.02it/s] 77%|███████▋  | 36880/48008 [5:17:56<1:31:10,  2.03it/s] 77%|███████▋  | 36881/48008 [5:17:57<1:27:02,  2.13it/s] 77%|███████▋  | 36882/48008 [5:17:57<1:27:24,  2.12it/s] 77%|███████▋  | 36883/48008 [5:17:58<1:29:04,  2.08it/s] 77%|███████▋  | 36884/48008 [5:17:58<1:30:22,  2.05it/s] 77%|███████▋  | 36885/48008 [5:17:59<1:30:56,  2.04it/s] 77%|███████▋  | 36886/48008 [5:17:59<1:24:55,  2.18it/s] 77%|███████▋  | 36887/48008 [5:18:00<2:09:35,  1.43it/s] 77%|███████▋  | 36888/48008 [5:18:01<1:57:18,  1.58it/s] 77%|███████▋  | 36889/48008 [5:18:01<1:48:49,  1.70it/s] 77%|███████▋  | 36890/48008 [5:18:02<1:44:18,  1.78it/s] 77%|███████▋  | 36891/48008 [5:18:02<1:42:12,  1.81it/s] 77%|███████▋  | 36892/48008 [5:18:03<1:37:55,  1.89it/s] 77%|███████▋  | 36893/48008 [5:18:03<1:36:31,  1.92it/s] 77%|███████▋  | 36894/48008 [5:18:04<1:35:27,  1.94it/s] 77%|███████▋  | 36895/48008 [5:18:04<1:35:53,  1.93it/s] 77%|███████▋  | 36896/48008 [5:18:05<1:33:34,  1.98it/s] 77%|███████▋  | 36897/48008 [5:18:05<1:32:19,  2.01it/s] 77%|███████▋  | 36898/48008 [5:18:06<1:31:38,  2.02it/s] 77%|███████▋  | 36899/48008 [5:18:06<1:32:27,  2.00it/s] 77%|███████▋  | 36900/48008 [5:18:07<1:31:35,  2.02it/s]                                                         {'loss': 4.2268, 'grad_norm': 0.11423885822296143, 'learning_rate': 4.62797867022163e-05, 'epoch': 0.77}
 77%|███████▋  | 36900/48008 [5:18:07<1:31:35,  2.02it/s] 77%|███████▋  | 36901/48008 [5:18:07<1:30:48,  2.04it/s] 77%|███████▋  | 36902/48008 [5:18:08<1:30:30,  2.05it/s] 77%|███████▋  | 36903/48008 [5:18:08<1:32:20,  2.00it/s] 77%|███████▋  | 36904/48008 [5:18:09<1:27:52,  2.11it/s] 77%|███████▋  | 36905/48008 [5:18:09<1:24:31,  2.19it/s] 77%|███████▋  | 36906/48008 [5:18:09<1:25:45,  2.16it/s] 77%|███████▋  | 36907/48008 [5:18:10<1:28:44,  2.08it/s] 77%|███████▋  | 36908/48008 [5:18:11<1:30:57,  2.03it/s] 77%|███████▋  | 36909/48008 [5:18:12<2:13:34,  1.38it/s] 77%|███████▋  | 36910/48008 [5:18:12<2:01:36,  1.52it/s] 77%|███████▋  | 36911/48008 [5:18:13<1:51:54,  1.65it/s] 77%|███████▋  | 36912/48008 [5:18:13<1:41:31,  1.82it/s] 77%|███████▋  | 36913/48008 [5:18:14<1:37:24,  1.90it/s] 77%|███████▋  | 36914/48008 [5:18:14<1:34:39,  1.95it/s] 77%|███████▋  | 36915/48008 [5:18:15<1:35:27,  1.94it/s] 77%|███████▋  | 36916/48008 [5:18:15<1:29:55,  2.06it/s] 77%|███████▋  | 36917/48008 [5:18:16<1:30:07,  2.05it/s] 77%|███████▋  | 36918/48008 [5:18:16<1:30:54,  2.03it/s] 77%|███████▋  | 36919/48008 [5:18:17<1:32:34,  2.00it/s] 77%|███████▋  | 36920/48008 [5:18:17<1:34:55,  1.95it/s] 77%|███████▋  | 36921/48008 [5:18:18<1:36:33,  1.91it/s] 77%|███████▋  | 36922/48008 [5:18:18<1:37:37,  1.89it/s] 77%|███████▋  | 36923/48008 [5:18:19<1:34:53,  1.95it/s] 77%|███████▋  | 36924/48008 [5:18:20<2:15:55,  1.36it/s] 77%|███████▋  | 36925/48008 [5:18:20<2:01:47,  1.52it/s] 77%|███████▋  | 36926/48008 [5:18:21<1:52:02,  1.65it/s] 77%|███████▋  | 36927/48008 [5:18:21<1:45:03,  1.76it/s] 77%|███████▋  | 36928/48008 [5:18:22<1:40:08,  1.84it/s] 77%|███████▋  | 36929/48008 [5:18:22<1:38:13,  1.88it/s] 77%|███████▋  | 36930/48008 [5:18:23<1:38:53,  1.87it/s] 77%|███████▋  | 36931/48008 [5:18:24<2:18:26,  1.33it/s] 77%|███████▋  | 36932/48008 [5:18:25<2:04:50,  1.48it/s] 77%|███████▋  | 36933/48008 [5:18:25<1:54:15,  1.62it/s] 77%|███████▋  | 36934/48008 [5:18:26<1:48:50,  1.70it/s] 77%|███████▋  | 36935/48008 [5:18:26<1:42:58,  1.79it/s] 77%|███████▋  | 36936/48008 [5:18:27<1:38:53,  1.87it/s] 77%|███████▋  | 36937/48008 [5:18:27<1:35:58,  1.92it/s] 77%|███████▋  | 36938/48008 [5:18:28<1:44:42,  1.76it/s] 77%|███████▋  | 36939/48008 [5:18:29<2:02:21,  1.51it/s] 77%|███████▋  | 36940/48008 [5:18:29<2:03:25,  1.49it/s] 77%|███████▋  | 36941/48008 [5:18:30<1:52:49,  1.63it/s] 77%|███████▋  | 36942/48008 [5:18:30<1:45:38,  1.75it/s] 77%|███████▋  | 36943/48008 [5:18:31<1:40:46,  1.83it/s] 77%|███████▋  | 36944/48008 [5:18:31<1:38:20,  1.88it/s] 77%|███████▋  | 36945/48008 [5:18:32<1:38:46,  1.87it/s] 77%|███████▋  | 36946/48008 [5:18:32<1:36:09,  1.92it/s] 77%|███████▋  | 36947/48008 [5:18:33<1:30:15,  2.04it/s] 77%|███████▋  | 36948/48008 [5:18:33<1:29:40,  2.06it/s] 77%|███████▋  | 36949/48008 [5:18:34<1:25:44,  2.15it/s] 77%|███████▋  | 36950/48008 [5:18:34<1:28:33,  2.08it/s]                                                         {'loss': 4.2515, 'grad_norm': 0.10040818154811859, 'learning_rate': 4.6071488085319116e-05, 'epoch': 0.77} 77%|███████▋  | 36950/48008 [5:18:34<1:28:33,  2.08it/s]
 77%|███████▋  | 36951/48008 [5:18:35<1:25:20,  2.16it/s] 77%|███████▋  | 36952/48008 [5:18:35<1:26:12,  2.14it/s] 77%|███████▋  | 36953/48008 [5:18:36<1:27:07,  2.11it/s] 77%|███████▋  | 36954/48008 [5:18:36<1:38:14,  1.88it/s] 77%|███████▋  | 36955/48008 [5:18:37<1:35:27,  1.93it/s] 77%|███████▋  | 36956/48008 [5:18:37<1:33:29,  1.97it/s] 77%|███████▋  | 36957/48008 [5:18:38<1:31:57,  2.00it/s] 77%|███████▋  | 36958/48008 [5:18:38<1:27:22,  2.11it/s] 77%|███████▋  | 36959/48008 [5:18:39<1:27:27,  2.11it/s] 77%|███████▋  | 36960/48008 [5:18:39<1:27:31,  2.10it/s] 77%|███████▋  | 36961/48008 [5:18:40<1:30:51,  2.03it/s] 77%|███████▋  | 36962/48008 [5:18:40<1:26:46,  2.12it/s] 77%|███████▋  | 36963/48008 [5:18:41<1:27:15,  2.11it/s] 77%|███████▋  | 36964/48008 [5:18:41<1:28:59,  2.07it/s] 77%|███████▋  | 36965/48008 [5:18:42<1:30:04,  2.04it/s] 77%|███████▋  | 36966/48008 [5:18:42<1:51:59,  1.64it/s] 77%|███████▋  | 36967/48008 [5:18:43<1:44:44,  1.76it/s] 77%|███████▋  | 36968/48008 [5:18:43<1:41:01,  1.82it/s] 77%|███████▋  | 36969/48008 [5:18:45<2:20:16,  1.31it/s] 77%|███████▋  | 36970/48008 [5:18:45<2:05:53,  1.46it/s] 77%|███████▋  | 36971/48008 [5:18:46<1:54:51,  1.60it/s] 77%|███████▋  | 36972/48008 [5:18:46<1:48:07,  1.70it/s] 77%|███████▋  | 36973/48008 [5:18:47<1:43:25,  1.78it/s] 77%|███████▋  | 36974/48008 [5:18:47<1:39:01,  1.86it/s] 77%|███████▋  | 36975/48008 [5:18:48<1:38:54,  1.86it/s] 77%|███████▋  | 36976/48008 [5:18:48<1:35:28,  1.93it/s] 77%|███████▋  | 36977/48008 [5:18:49<1:35:43,  1.92it/s] 77%|███████▋  | 36978/48008 [5:18:49<1:30:02,  2.04it/s] 77%|███████▋  | 36979/48008 [5:18:49<1:26:01,  2.14it/s] 77%|███████▋  | 36980/48008 [5:18:50<1:28:15,  2.08it/s] 77%|███████▋  | 36981/48008 [5:18:50<1:28:26,  2.08it/s] 77%|███████▋  | 36982/48008 [5:18:51<1:28:21,  2.08it/s] 77%|███████▋  | 36983/48008 [5:18:51<1:29:47,  2.05it/s] 77%|███████▋  | 36984/48008 [5:18:52<1:29:24,  2.06it/s] 77%|███████▋  | 36985/48008 [5:18:52<1:30:16,  2.03it/s] 77%|███████▋  | 36986/48008 [5:18:53<1:29:22,  2.06it/s] 77%|███████▋  | 36987/48008 [5:18:53<1:29:14,  2.06it/s] 77%|███████▋  | 36988/48008 [5:18:54<1:29:08,  2.06it/s] 77%|███████▋  | 36989/48008 [5:18:54<1:28:57,  2.06it/s] 77%|███████▋  | 36990/48008 [5:18:55<1:31:58,  2.00it/s] 77%|███████▋  | 36991/48008 [5:18:55<1:32:24,  1.99it/s] 77%|███████▋  | 36992/48008 [5:18:56<1:34:31,  1.94it/s] 77%|███████▋  | 36993/48008 [5:18:56<1:34:12,  1.95it/s] 77%|███████▋  | 36994/48008 [5:18:57<1:28:57,  2.06it/s] 77%|███████▋  | 36995/48008 [5:18:57<1:28:31,  2.07it/s] 77%|███████▋  | 36996/48008 [5:18:58<1:24:47,  2.16it/s] 77%|███████▋  | 36997/48008 [5:18:58<1:29:02,  2.06it/s] 77%|███████▋  | 36998/48008 [5:18:59<1:25:07,  2.16it/s] 77%|███████▋  | 36999/48008 [5:18:59<1:26:15,  2.13it/s] 77%|███████▋  | 37000/48008 [5:19:00<1:29:18,  2.05it/s]                                                         {'loss': 4.2363, 'grad_norm': 0.09677980095148087, 'learning_rate': 4.586318946842193e-05, 'epoch': 0.77}
 77%|███████▋  | 37000/48008 [5:19:00<1:29:18,  2.05it/s] 77%|███████▋  | 37001/48008 [5:19:00<1:25:22,  2.15it/s] 77%|███████▋  | 37002/48008 [5:19:01<1:29:11,  2.06it/s] 77%|███████▋  | 37003/48008 [5:19:01<1:28:55,  2.06it/s] 77%|███████▋  | 37004/48008 [5:19:02<1:28:46,  2.07it/s] 77%|███████▋  | 37005/48008 [5:19:02<1:28:24,  2.07it/s] 77%|███████▋  | 37006/48008 [5:19:03<1:29:43,  2.04it/s] 77%|███████▋  | 37007/48008 [5:19:04<2:12:03,  1.39it/s] 77%|███████▋  | 37008/48008 [5:19:04<1:58:40,  1.54it/s] 77%|███████▋  | 37009/48008 [5:19:05<1:50:46,  1.65it/s] 77%|███████▋  | 37010/48008 [5:19:05<1:40:06,  1.83it/s] 77%|███████▋  | 37011/48008 [5:19:06<1:36:36,  1.90it/s] 77%|███████▋  | 37012/48008 [5:19:06<1:30:38,  2.02it/s] 77%|███████▋  | 37013/48008 [5:19:07<2:12:40,  1.38it/s] 77%|███████▋  | 37014/48008 [5:19:08<1:59:20,  1.54it/s] 77%|███████▋  | 37015/48008 [5:19:08<1:53:19,  1.62it/s] 77%|███████▋  | 37016/48008 [5:19:09<1:45:44,  1.73it/s] 77%|███████▋  | 37017/48008 [5:19:09<1:40:28,  1.82it/s] 77%|███████▋  | 37018/48008 [5:19:10<1:36:57,  1.89it/s] 77%|███████▋  | 37019/48008 [5:19:10<1:33:58,  1.95it/s] 77%|███████▋  | 37020/48008 [5:19:11<1:32:20,  1.98it/s] 77%|███████▋  | 37021/48008 [5:19:11<1:34:24,  1.94it/s] 77%|███████▋  | 37022/48008 [5:19:12<1:29:01,  2.06it/s] 77%|███████▋  | 37023/48008 [5:19:13<1:39:19,  1.84it/s] 77%|███████▋  | 37024/48008 [5:19:13<1:36:15,  1.90it/s] 77%|███████▋  | 37025/48008 [5:19:14<1:34:00,  1.95it/s] 77%|███████▋  | 37026/48008 [5:19:14<1:32:08,  1.99it/s] 77%|███████▋  | 37027/48008 [5:19:15<1:52:27,  1.63it/s] 77%|███████▋  | 37028/48008 [5:19:15<1:41:33,  1.80it/s] 77%|███████▋  | 37029/48008 [5:19:16<1:38:36,  1.86it/s] 77%|███████▋  | 37030/48008 [5:19:16<1:35:04,  1.92it/s] 77%|███████▋  | 37031/48008 [5:19:17<1:32:42,  1.97it/s] 77%|███████▋  | 37032/48008 [5:19:17<1:31:26,  2.00it/s] 77%|███████▋  | 37033/48008 [5:19:18<1:31:50,  1.99it/s] 77%|███████▋  | 37034/48008 [5:19:18<1:31:43,  1.99it/s] 77%|███████▋  | 37035/48008 [5:19:19<1:30:48,  2.01it/s] 77%|███████▋  | 37036/48008 [5:19:19<1:29:50,  2.04it/s] 77%|███████▋  | 37037/48008 [5:19:20<1:29:11,  2.05it/s] 77%|███████▋  | 37038/48008 [5:19:20<1:29:57,  2.03it/s] 77%|███████▋  | 37039/48008 [5:19:21<1:29:07,  2.05it/s] 77%|███████▋  | 37040/48008 [5:19:21<1:30:05,  2.03it/s] 77%|███████▋  | 37041/48008 [5:19:22<1:26:00,  2.13it/s] 77%|███████▋  | 37042/48008 [5:19:22<1:26:37,  2.11it/s] 77%|███████▋  | 37043/48008 [5:19:22<1:23:33,  2.19it/s] 77%|███████▋  | 37044/48008 [5:19:23<1:27:17,  2.09it/s] 77%|███████▋  | 37045/48008 [5:19:23<1:27:38,  2.08it/s] 77%|███████▋  | 37046/48008 [5:19:24<1:27:29,  2.09it/s] 77%|███████▋  | 37047/48008 [5:19:24<1:24:10,  2.17it/s] 77%|███████▋  | 37048/48008 [5:19:25<1:27:35,  2.09it/s] 77%|███████▋  | 37049/48008 [5:19:25<1:28:42,  2.06it/s] 77%|███████▋  | 37050/48008 [5:19:26<1:28:37,  2.06it/s]                                                         {'loss': 4.2383, 'grad_norm': 0.0926712304353714, 'learning_rate': 4.5654890851524744e-05, 'epoch': 0.77}
 77%|███████▋  | 37050/48008 [5:19:26<1:28:37,  2.06it/s] 77%|███████▋  | 37051/48008 [5:19:27<1:39:09,  1.84it/s] 77%|███████▋  | 37052/48008 [5:19:27<1:38:09,  1.86it/s] 77%|███████▋  | 37053/48008 [5:19:28<1:35:09,  1.92it/s] 77%|███████▋  | 37054/48008 [5:19:29<2:15:25,  1.35it/s] 77%|███████▋  | 37055/48008 [5:19:29<2:01:00,  1.51it/s] 77%|███████▋  | 37056/48008 [5:19:30<1:47:33,  1.70it/s] 77%|███████▋  | 37057/48008 [5:19:30<1:41:42,  1.79it/s] 77%|███████▋  | 37058/48008 [5:19:31<1:38:56,  1.84it/s] 77%|███████▋  | 37059/48008 [5:19:31<1:35:43,  1.91it/s] 77%|███████▋  | 37060/48008 [5:19:32<1:34:41,  1.93it/s] 77%|███████▋  | 37061/48008 [5:19:32<1:32:49,  1.97it/s] 77%|███████▋  | 37062/48008 [5:19:33<1:32:42,  1.97it/s] 77%|███████▋  | 37063/48008 [5:19:33<1:32:32,  1.97it/s] 77%|███████▋  | 37064/48008 [5:19:34<1:31:16,  2.00it/s] 77%|███████▋  | 37065/48008 [5:19:34<1:24:48,  2.15it/s] 77%|███████▋  | 37066/48008 [5:19:35<1:25:40,  2.13it/s] 77%|███████▋  | 37067/48008 [5:19:35<1:26:08,  2.12it/s] 77%|███████▋  | 37068/48008 [5:19:35<1:23:09,  2.19it/s] 77%|███████▋  | 37069/48008 [5:19:36<1:25:52,  2.12it/s] 77%|███████▋  | 37070/48008 [5:19:36<1:26:22,  2.11it/s] 77%|███████▋  | 37071/48008 [5:19:37<1:27:00,  2.09it/s] 77%|███████▋  | 37072/48008 [5:19:37<1:29:20,  2.04it/s] 77%|███████▋  | 37073/48008 [5:19:38<1:30:06,  2.02it/s] 77%|███████▋  | 37074/48008 [5:19:38<1:31:42,  1.99it/s] 77%|███████▋  | 37075/48008 [5:19:39<1:30:35,  2.01it/s] 77%|███████▋  | 37076/48008 [5:19:40<1:40:29,  1.81it/s] 77%|███████▋  | 37077/48008 [5:19:40<1:39:39,  1.83it/s] 77%|███████▋  | 37078/48008 [5:19:41<1:36:05,  1.90it/s] 77%|███████▋  | 37079/48008 [5:19:41<1:35:42,  1.90it/s] 77%|███████▋  | 37080/48008 [5:19:42<1:34:28,  1.93it/s] 77%|███████▋  | 37081/48008 [5:19:42<1:32:35,  1.97it/s] 77%|███████▋  | 37082/48008 [5:19:43<1:27:34,  2.08it/s] 77%|███████▋  | 37083/48008 [5:19:43<1:27:44,  2.08it/s] 77%|███████▋  | 37084/48008 [5:19:44<1:30:05,  2.02it/s] 77%|███████▋  | 37085/48008 [5:19:44<1:30:33,  2.01it/s] 77%|███████▋  | 37086/48008 [5:19:45<1:29:49,  2.03it/s] 77%|███████▋  | 37087/48008 [5:19:45<1:30:19,  2.02it/s] 77%|███████▋  | 37088/48008 [5:19:46<1:29:26,  2.03it/s] 77%|███████▋  | 37089/48008 [5:19:46<1:31:04,  2.00it/s] 77%|███████▋  | 37090/48008 [5:19:46<1:26:24,  2.11it/s] 77%|███████▋  | 37091/48008 [5:19:47<1:30:04,  2.02it/s] 77%|███████▋  | 37092/48008 [5:19:47<1:29:01,  2.04it/s] 77%|███████▋  | 37093/48008 [5:19:48<1:25:09,  2.14it/s] 77%|███████▋  | 37094/48008 [5:19:48<1:27:09,  2.09it/s] 77%|███████▋  | 37095/48008 [5:19:49<1:29:38,  2.03it/s] 77%|███████▋  | 37096/48008 [5:19:49<1:28:53,  2.05it/s] 77%|███████▋  | 37097/48008 [5:19:50<1:28:31,  2.05it/s] 77%|███████▋  | 37098/48008 [5:19:50<1:31:27,  1.99it/s] 77%|███████▋  | 37099/48008 [5:19:51<1:26:35,  2.10it/s] 77%|███████▋  | 37100/48008 [5:19:51<1:28:00,  2.07it/s]                                                         {'loss': 4.2539, 'grad_norm': 0.11021985858678818, 'learning_rate': 4.544659223462757e-05, 'epoch': 0.77}
 77%|███████▋  | 37100/48008 [5:19:51<1:28:00,  2.07it/s] 77%|███████▋  | 37101/48008 [5:19:52<1:29:05,  2.04it/s] 77%|███████▋  | 37102/48008 [5:19:52<1:25:18,  2.13it/s] 77%|███████▋  | 37103/48008 [5:19:53<1:27:06,  2.09it/s] 77%|███████▋  | 37104/48008 [5:19:53<1:26:52,  2.09it/s] 77%|███████▋  | 37105/48008 [5:19:54<1:27:03,  2.09it/s] 77%|███████▋  | 37106/48008 [5:19:54<1:27:15,  2.08it/s] 77%|███████▋  | 37107/48008 [5:19:55<1:27:15,  2.08it/s] 77%|███████▋  | 37108/48008 [5:19:55<1:27:21,  2.08it/s] 77%|███████▋  | 37109/48008 [5:19:56<1:27:27,  2.08it/s] 77%|███████▋  | 37110/48008 [5:19:56<1:27:29,  2.08it/s] 77%|███████▋  | 37111/48008 [5:19:57<1:29:49,  2.02it/s] 77%|███████▋  | 37112/48008 [5:19:57<1:25:25,  2.13it/s] 77%|███████▋  | 37113/48008 [5:19:58<1:26:25,  2.10it/s] 77%|███████▋  | 37114/48008 [5:19:58<1:26:23,  2.10it/s] 77%|███████▋  | 37115/48008 [5:19:59<1:30:02,  2.02it/s] 77%|███████▋  | 37116/48008 [5:19:59<1:30:27,  2.01it/s] 77%|███████▋  | 37117/48008 [5:20:00<1:30:59,  1.99it/s] 77%|███████▋  | 37118/48008 [5:20:00<1:29:44,  2.02it/s] 77%|███████▋  | 37119/48008 [5:20:01<1:30:21,  2.01it/s] 77%|███████▋  | 37120/48008 [5:20:01<1:29:22,  2.03it/s] 77%|███████▋  | 37121/48008 [5:20:02<1:28:55,  2.04it/s] 77%|███████▋  | 37122/48008 [5:20:02<1:31:53,  1.97it/s] 77%|███████▋  | 37123/48008 [5:20:03<1:30:14,  2.01it/s] 77%|███████▋  | 37124/48008 [5:20:03<1:29:28,  2.03it/s] 77%|███████▋  | 37125/48008 [5:20:03<1:25:09,  2.13it/s] 77%|███████▋  | 37126/48008 [5:20:04<1:22:05,  2.21it/s] 77%|███████▋  | 37127/48008 [5:20:04<1:25:11,  2.13it/s] 77%|███████▋  | 37128/48008 [5:20:05<1:26:05,  2.11it/s] 77%|███████▋  | 37129/48008 [5:20:05<1:26:18,  2.10it/s] 77%|███████▋  | 37130/48008 [5:20:06<1:23:13,  2.18it/s] 77%|███████▋  | 37131/48008 [5:20:06<1:26:46,  2.09it/s] 77%|███████▋  | 37132/48008 [5:20:07<1:27:11,  2.08it/s] 77%|███████▋  | 37133/48008 [5:20:07<1:28:49,  2.04it/s] 77%|███████▋  | 37134/48008 [5:20:09<2:10:30,  1.39it/s] 77%|███████▋  | 37135/48008 [5:20:09<2:18:43,  1.31it/s] 77%|███████▋  | 37136/48008 [5:20:10<2:13:47,  1.35it/s] 77%|███████▋  | 37137/48008 [5:20:11<1:59:50,  1.51it/s] 77%|███████▋  | 37138/48008 [5:20:11<1:50:10,  1.64it/s] 77%|███████▋  | 37139/48008 [5:20:11<1:39:46,  1.82it/s] 77%|███████▋  | 37140/48008 [5:20:12<1:37:06,  1.87it/s] 77%|███████▋  | 37141/48008 [5:20:12<1:34:10,  1.92it/s] 77%|███████▋  | 37142/48008 [5:20:13<1:31:59,  1.97it/s] 77%|███████▋  | 37143/48008 [5:20:14<1:33:51,  1.93it/s] 77%|███████▋  | 37144/48008 [5:20:14<1:31:54,  1.97it/s] 77%|███████▋  | 37145/48008 [5:20:14<1:31:39,  1.98it/s] 77%|███████▋  | 37146/48008 [5:20:15<1:30:00,  2.01it/s] 77%|███████▋  | 37147/48008 [5:20:15<1:29:08,  2.03it/s] 77%|███████▋  | 37148/48008 [5:20:16<1:28:16,  2.05it/s] 77%|███████▋  | 37149/48008 [5:20:16<1:28:01,  2.06it/s] 77%|███████▋  | 37150/48008 [5:20:17<1:27:51,  2.06it/s]                                                         {'loss': 4.273, 'grad_norm': 0.0978398323059082, 'learning_rate': 4.523829361773038e-05, 'epoch': 0.77} 77%|███████▋  | 37150/48008 [5:20:17<1:27:51,  2.06it/s]
 77%|███████▋  | 37151/48008 [5:20:17<1:28:45,  2.04it/s] 77%|███████▋  | 37152/48008 [5:20:18<1:29:37,  2.02it/s] 77%|███████▋  | 37153/48008 [5:20:18<1:31:05,  1.99it/s] 77%|███████▋  | 37154/48008 [5:20:19<1:33:03,  1.94it/s] 77%|███████▋  | 37155/48008 [5:20:19<1:31:21,  1.98it/s] 77%|███████▋  | 37156/48008 [5:20:20<1:31:30,  1.98it/s] 77%|███████▋  | 37157/48008 [5:20:20<1:30:18,  2.00it/s] 77%|███████▋  | 37158/48008 [5:20:21<1:30:46,  1.99it/s] 77%|███████▋  | 37159/48008 [5:20:21<1:26:07,  2.10it/s] 77%|███████▋  | 37160/48008 [5:20:22<1:26:22,  2.09it/s] 77%|███████▋  | 37161/48008 [5:20:23<1:48:24,  1.67it/s] 77%|███████▋  | 37162/48008 [5:20:23<1:41:47,  1.78it/s] 77%|███████▋  | 37163/48008 [5:20:24<1:37:33,  1.85it/s] 77%|███████▋  | 37164/48008 [5:20:24<1:37:32,  1.85it/s] 77%|███████▋  | 37165/48008 [5:20:25<1:37:20,  1.86it/s] 77%|███████▋  | 37166/48008 [5:20:25<1:34:28,  1.91it/s] 77%|███████▋  | 37167/48008 [5:20:26<1:32:19,  1.96it/s] 77%|███████▋  | 37168/48008 [5:20:26<1:32:06,  1.96it/s] 77%|███████▋  | 37169/48008 [5:20:27<1:31:42,  1.97it/s] 77%|███████▋  | 37170/48008 [5:20:27<1:30:24,  2.00it/s] 77%|███████▋  | 37171/48008 [5:20:28<1:29:24,  2.02it/s] 77%|███████▋  | 37172/48008 [5:20:28<1:28:37,  2.04it/s] 77%|███████▋  | 37173/48008 [5:20:29<1:28:00,  2.05it/s] 77%|███████▋  | 37174/48008 [5:20:29<1:27:26,  2.07it/s] 77%|███████▋  | 37175/48008 [5:20:30<1:23:50,  2.15it/s] 77%|███████▋  | 37176/48008 [5:20:30<1:24:49,  2.13it/s] 77%|███████▋  | 37177/48008 [5:20:31<1:25:39,  2.11it/s] 77%|███████▋  | 37178/48008 [5:20:31<1:36:15,  1.88it/s] 77%|███████▋  | 37179/48008 [5:20:32<1:34:44,  1.90it/s] 77%|███████▋  | 37180/48008 [5:20:32<1:32:16,  1.96it/s] 77%|███████▋  | 37181/48008 [5:20:33<1:32:30,  1.95it/s] 77%|███████▋  | 37182/48008 [5:20:33<1:34:11,  1.92it/s] 77%|███████▋  | 37183/48008 [5:20:34<1:31:54,  1.96it/s] 77%|███████▋  | 37184/48008 [5:20:34<1:33:29,  1.93it/s] 77%|███████▋  | 37185/48008 [5:20:35<1:33:24,  1.93it/s] 77%|███████▋  | 37186/48008 [5:20:35<1:33:47,  1.92it/s] 77%|███████▋  | 37187/48008 [5:20:36<1:28:08,  2.05it/s] 77%|███████▋  | 37188/48008 [5:20:36<1:27:42,  2.06it/s] 77%|███████▋  | 37189/48008 [5:20:37<1:38:24,  1.83it/s] 77%|███████▋  | 37190/48008 [5:20:37<1:37:02,  1.86it/s] 77%|███████▋  | 37191/48008 [5:20:38<1:30:31,  1.99it/s] 77%|███████▋  | 37192/48008 [5:20:39<1:39:58,  1.80it/s] 77%|███████▋  | 37193/48008 [5:20:39<1:37:04,  1.86it/s] 77%|███████▋  | 37194/48008 [5:20:39<1:34:06,  1.92it/s] 77%|███████▋  | 37195/48008 [5:20:40<1:31:58,  1.96it/s] 77%|███████▋  | 37196/48008 [5:20:40<1:31:49,  1.96it/s] 77%|███████▋  | 37197/48008 [5:20:41<1:30:00,  2.00it/s] 77%|███████▋  | 37198/48008 [5:20:41<1:29:02,  2.02it/s] 77%|███████▋  | 37199/48008 [5:20:42<1:30:34,  1.99it/s] 77%|███████▋  | 37200/48008 [5:20:42<1:29:22,  2.02it/s]                                                         {'loss': 4.2883, 'grad_norm': 0.09996742755174637, 'learning_rate': 4.5029995000833196e-05, 'epoch': 0.77} 77%|███████▋  | 37200/48008 [5:20:42<1:29:22,  2.02it/s]
 77%|███████▋  | 37201/48008 [5:20:43<1:28:50,  2.03it/s] 77%|███████▋  | 37202/48008 [5:20:43<1:29:10,  2.02it/s] 77%|███████▋  | 37203/48008 [5:20:44<1:30:36,  1.99it/s] 77%|███████▋  | 37204/48008 [5:20:44<1:29:25,  2.01it/s] 77%|███████▋  | 37205/48008 [5:20:45<1:25:18,  2.11it/s] 77%|███████▋  | 37206/48008 [5:20:45<1:26:42,  2.08it/s] 78%|███████▊  | 37207/48008 [5:20:46<1:23:38,  2.15it/s] 78%|███████▊  | 37208/48008 [5:20:46<1:25:53,  2.10it/s] 78%|███████▊  | 37209/48008 [5:20:47<1:29:03,  2.02it/s] 78%|███████▊  | 37210/48008 [5:20:47<1:28:11,  2.04it/s] 78%|███████▊  | 37211/48008 [5:20:48<1:28:10,  2.04it/s] 78%|███████▊  | 37212/48008 [5:20:48<1:27:47,  2.05it/s] 78%|███████▊  | 37213/48008 [5:20:49<1:27:32,  2.06it/s] 78%|███████▊  | 37214/48008 [5:20:49<1:28:20,  2.04it/s] 78%|███████▊  | 37215/48008 [5:20:50<1:27:53,  2.05it/s] 78%|███████▊  | 37216/48008 [5:20:50<1:30:34,  1.99it/s] 78%|███████▊  | 37217/48008 [5:20:51<1:32:29,  1.94it/s] 78%|███████▊  | 37218/48008 [5:20:51<1:31:47,  1.96it/s] 78%|███████▊  | 37219/48008 [5:20:52<1:30:22,  1.99it/s] 78%|███████▊  | 37220/48008 [5:20:52<1:25:49,  2.09it/s] 78%|███████▊  | 37221/48008 [5:20:53<1:27:22,  2.06it/s] 78%|███████▊  | 37222/48008 [5:20:53<1:37:32,  1.84it/s] 78%|███████▊  | 37223/48008 [5:20:55<2:15:35,  1.33it/s] 78%|███████▊  | 37224/48008 [5:20:55<2:03:12,  1.46it/s] 78%|███████▊  | 37225/48008 [5:20:56<1:52:10,  1.60it/s] 78%|███████▊  | 37226/48008 [5:20:56<1:44:42,  1.72it/s] 78%|███████▊  | 37227/48008 [5:20:57<1:41:57,  1.76it/s] 78%|███████▊  | 37228/48008 [5:20:57<1:37:25,  1.84it/s] 78%|███████▊  | 37229/48008 [5:20:58<1:34:30,  1.90it/s] 78%|███████▊  | 37230/48008 [5:20:58<1:28:29,  2.03it/s] 78%|███████▊  | 37231/48008 [5:20:59<1:27:55,  2.04it/s] 78%|███████▊  | 37232/48008 [5:20:59<1:28:48,  2.02it/s] 78%|███████▊  | 37233/48008 [5:21:00<1:27:57,  2.04it/s] 78%|███████▊  | 37234/48008 [5:21:00<1:29:01,  2.02it/s] 78%|███████▊  | 37235/48008 [5:21:00<1:24:54,  2.11it/s] 78%|███████▊  | 37236/48008 [5:21:01<1:21:59,  2.19it/s] 78%|███████▊  | 37237/48008 [5:21:01<1:23:39,  2.15it/s] 78%|███████▊  | 37238/48008 [5:21:02<1:27:07,  2.06it/s] 78%|███████▊  | 37239/48008 [5:21:02<1:28:01,  2.04it/s] 78%|███████▊  | 37240/48008 [5:21:03<1:30:39,  1.98it/s] 78%|███████▊  | 37241/48008 [5:21:03<1:30:54,  1.97it/s] 78%|███████▊  | 37242/48008 [5:21:04<1:26:08,  2.08it/s] 78%|███████▊  | 37243/48008 [5:21:04<1:28:22,  2.03it/s] 78%|███████▊  | 37244/48008 [5:21:05<1:29:34,  2.00it/s] 78%|███████▊  | 37245/48008 [5:21:05<1:28:23,  2.03it/s] 78%|███████▊  | 37246/48008 [5:21:06<1:27:45,  2.04it/s] 78%|███████▊  | 37247/48008 [5:21:06<1:29:34,  2.00it/s] 78%|███████▊  | 37248/48008 [5:21:07<1:28:43,  2.02it/s] 78%|███████▊  | 37249/48008 [5:21:07<1:29:23,  2.01it/s] 78%|███████▊  | 37250/48008 [5:21:08<1:49:46,  1.63it/s]                                                         {'loss': 4.2401, 'grad_norm': 0.08932360261678696, 'learning_rate': 4.4821696383936014e-05, 'epoch': 0.78} 78%|███████▊  | 37250/48008 [5:21:08<1:49:46,  1.63it/s]
 78%|███████▊  | 37251/48008 [5:21:09<1:43:47,  1.73it/s] 78%|███████▊  | 37252/48008 [5:21:09<1:38:55,  1.81it/s] 78%|███████▊  | 37253/48008 [5:21:10<1:35:02,  1.89it/s] 78%|███████▊  | 37254/48008 [5:21:10<1:32:22,  1.94it/s] 78%|███████▊  | 37255/48008 [5:21:11<1:31:44,  1.95it/s] 78%|███████▊  | 37256/48008 [5:21:11<1:40:18,  1.79it/s] 78%|███████▊  | 37257/48008 [5:21:12<1:32:37,  1.93it/s] 78%|███████▊  | 37258/48008 [5:21:12<1:32:06,  1.95it/s] 78%|███████▊  | 37259/48008 [5:21:13<1:30:12,  1.99it/s] 78%|███████▊  | 37260/48008 [5:21:13<1:25:32,  2.09it/s] 78%|███████▊  | 37261/48008 [5:21:14<1:36:06,  1.86it/s] 78%|███████▊  | 37262/48008 [5:21:14<1:32:46,  1.93it/s] 78%|███████▊  | 37263/48008 [5:21:15<1:30:48,  1.97it/s] 78%|███████▊  | 37264/48008 [5:21:15<1:25:54,  2.08it/s] 78%|███████▊  | 37265/48008 [5:21:16<1:29:08,  2.01it/s] 78%|███████▊  | 37266/48008 [5:21:16<1:24:49,  2.11it/s] 78%|███████▊  | 37267/48008 [5:21:17<1:26:14,  2.08it/s] 78%|███████▊  | 37268/48008 [5:21:17<1:27:11,  2.05it/s] 78%|███████▊  | 37269/48008 [5:21:18<1:26:53,  2.06it/s] 78%|███████▊  | 37270/48008 [5:21:19<1:47:41,  1.66it/s] 78%|███████▊  | 37271/48008 [5:21:19<1:41:12,  1.77it/s] 78%|███████▊  | 37272/48008 [5:21:20<1:39:47,  1.79it/s] 78%|███████▊  | 37273/48008 [5:21:20<1:35:40,  1.87it/s] 78%|███████▊  | 37274/48008 [5:21:21<1:33:43,  1.91it/s] 78%|███████▊  | 37275/48008 [5:21:21<1:34:25,  1.89it/s] 78%|███████▊  | 37276/48008 [5:21:22<1:33:15,  1.92it/s] 78%|███████▊  | 37277/48008 [5:21:22<1:31:11,  1.96it/s] 78%|███████▊  | 37278/48008 [5:21:23<1:26:18,  2.07it/s] 78%|███████▊  | 37279/48008 [5:21:23<1:29:24,  2.00it/s] 78%|███████▊  | 37280/48008 [5:21:24<1:28:44,  2.01it/s] 78%|███████▊  | 37281/48008 [5:21:24<1:24:18,  2.12it/s] 78%|███████▊  | 37282/48008 [5:21:24<1:26:57,  2.06it/s] 78%|███████▊  | 37283/48008 [5:21:25<1:28:50,  2.01it/s] 78%|███████▊  | 37284/48008 [5:21:25<1:28:09,  2.03it/s] 78%|███████▊  | 37285/48008 [5:21:26<1:23:54,  2.13it/s] 78%|███████▊  | 37286/48008 [5:21:26<1:24:15,  2.12it/s] 78%|███████▊  | 37287/48008 [5:21:27<1:25:39,  2.09it/s] 78%|███████▊  | 37288/48008 [5:21:28<2:07:12,  1.40it/s] 78%|███████▊  | 37289/48008 [5:21:29<1:56:09,  1.54it/s] 78%|███████▊  | 37290/48008 [5:21:29<1:57:43,  1.52it/s] 78%|███████▊  | 37291/48008 [5:21:30<1:50:23,  1.62it/s] 78%|███████▊  | 37292/48008 [5:21:30<1:39:39,  1.79it/s] 78%|███████▊  | 37293/48008 [5:21:31<1:45:56,  1.69it/s] 78%|███████▊  | 37294/48008 [5:21:31<1:41:24,  1.76it/s] 78%|███████▊  | 37295/48008 [5:21:32<1:36:47,  1.84it/s] 78%|███████▊  | 37296/48008 [5:21:32<1:36:42,  1.85it/s] 78%|███████▊  | 37297/48008 [5:21:33<1:35:29,  1.87it/s] 78%|███████▊  | 37298/48008 [5:21:34<1:54:01,  1.57it/s] 78%|███████▊  | 37299/48008 [5:21:34<1:47:30,  1.66it/s] 78%|███████▊  | 37300/48008 [5:21:35<1:42:12,  1.75it/s]                                                         {'loss': 4.2609, 'grad_norm': 0.09657511860132217, 'learning_rate': 4.461339776703883e-05, 'epoch': 0.78}
 78%|███████▊  | 37300/48008 [5:21:35<1:42:12,  1.75it/s] 78%|███████▊  | 37301/48008 [5:21:35<1:40:30,  1.78it/s] 78%|███████▊  | 37302/48008 [5:21:36<1:36:11,  1.86it/s] 78%|███████▊  | 37303/48008 [5:21:36<1:34:13,  1.89it/s] 78%|███████▊  | 37304/48008 [5:21:37<1:28:20,  2.02it/s] 78%|███████▊  | 37305/48008 [5:21:37<1:28:39,  2.01it/s] 78%|███████▊  | 37306/48008 [5:21:38<1:49:03,  1.64it/s] 78%|███████▊  | 37307/48008 [5:21:39<1:42:17,  1.74it/s] 78%|███████▊  | 37308/48008 [5:21:39<1:33:34,  1.91it/s] 78%|███████▊  | 37309/48008 [5:21:40<1:34:18,  1.89it/s] 78%|███████▊  | 37310/48008 [5:21:40<1:35:10,  1.87it/s] 78%|███████▊  | 37311/48008 [5:21:41<1:32:19,  1.93it/s] 78%|███████▊  | 37312/48008 [5:21:41<1:26:43,  2.06it/s] 78%|███████▊  | 37313/48008 [5:21:42<1:27:27,  2.04it/s] 78%|███████▊  | 37314/48008 [5:21:43<2:08:07,  1.39it/s] 78%|███████▊  | 37315/48008 [5:21:43<1:55:48,  1.54it/s] 78%|███████▊  | 37316/48008 [5:21:44<1:46:58,  1.67it/s] 78%|███████▊  | 37317/48008 [5:21:44<1:42:10,  1.74it/s] 78%|███████▊  | 37318/48008 [5:21:45<1:37:17,  1.83it/s] 78%|███████▊  | 37319/48008 [5:21:45<1:36:04,  1.85it/s] 78%|███████▊  | 37320/48008 [5:21:46<1:33:54,  1.90it/s] 78%|███████▊  | 37321/48008 [5:21:46<1:33:42,  1.90it/s] 78%|███████▊  | 37322/48008 [5:21:47<1:34:25,  1.89it/s] 78%|███████▊  | 37323/48008 [5:21:47<1:31:51,  1.94it/s] 78%|███████▊  | 37324/48008 [5:21:48<1:40:11,  1.78it/s] 78%|███████▊  | 37325/48008 [5:21:48<1:35:35,  1.86it/s] 78%|███████▊  | 37326/48008 [5:21:49<1:32:36,  1.92it/s] 78%|███████▊  | 37327/48008 [5:21:49<1:30:38,  1.96it/s] 78%|███████▊  | 37328/48008 [5:21:50<1:39:20,  1.79it/s] 78%|███████▊  | 37329/48008 [5:21:51<1:36:07,  1.85it/s] 78%|███████▊  | 37330/48008 [5:21:51<1:34:28,  1.88it/s] 78%|███████▊  | 37331/48008 [5:21:52<1:42:03,  1.74it/s] 78%|███████▊  | 37332/48008 [5:21:52<1:37:18,  1.83it/s] 78%|███████▊  | 37333/48008 [5:21:53<1:33:55,  1.89it/s] 78%|███████▊  | 37334/48008 [5:21:53<1:31:33,  1.94it/s] 78%|███████▊  | 37335/48008 [5:21:54<1:32:00,  1.93it/s] 78%|███████▊  | 37336/48008 [5:21:54<1:30:13,  1.97it/s] 78%|███████▊  | 37337/48008 [5:21:55<1:25:10,  2.09it/s] 78%|███████▊  | 37338/48008 [5:21:55<1:21:54,  2.17it/s] 78%|███████▊  | 37339/48008 [5:21:56<1:23:00,  2.14it/s] 78%|███████▊  | 37340/48008 [5:21:56<1:23:55,  2.12it/s] 78%|███████▊  | 37341/48008 [5:21:57<1:34:45,  1.88it/s] 78%|███████▊  | 37342/48008 [5:21:57<1:31:49,  1.94it/s] 78%|███████▊  | 37343/48008 [5:21:58<1:29:59,  1.98it/s] 78%|███████▊  | 37344/48008 [5:21:58<1:30:50,  1.96it/s] 78%|███████▊  | 37345/48008 [5:21:59<1:29:25,  1.99it/s] 78%|███████▊  | 37346/48008 [5:21:59<1:24:48,  2.10it/s] 78%|███████▊  | 37347/48008 [5:22:00<1:25:08,  2.09it/s] 78%|███████▊  | 37348/48008 [5:22:00<1:25:00,  2.09it/s] 78%|███████▊  | 37349/48008 [5:22:01<1:25:14,  2.08it/s] 78%|███████▊  | 37350/48008 [5:22:01<1:25:22,  2.08it/s]                                                         {'loss': 4.3014, 'grad_norm': 0.10506124049425125, 'learning_rate': 4.440509915014164e-05, 'epoch': 0.78} 78%|███████▊  | 37350/48008 [5:22:01<1:25:22,  2.08it/s]
 78%|███████▊  | 37351/48008 [5:22:01<1:21:59,  2.17it/s] 78%|███████▊  | 37352/48008 [5:22:02<1:22:58,  2.14it/s] 78%|███████▊  | 37353/48008 [5:22:02<1:23:39,  2.12it/s] 78%|███████▊  | 37354/48008 [5:22:03<1:24:03,  2.11it/s] 78%|███████▊  | 37355/48008 [5:22:03<1:21:11,  2.19it/s] 78%|███████▊  | 37356/48008 [5:22:04<1:18:49,  2.25it/s] 78%|███████▊  | 37357/48008 [5:22:04<1:21:56,  2.17it/s] 78%|███████▊  | 37358/48008 [5:22:05<1:23:51,  2.12it/s] 78%|███████▊  | 37359/48008 [5:22:05<1:25:56,  2.07it/s] 78%|███████▊  | 37360/48008 [5:22:06<1:27:11,  2.04it/s] 78%|███████▊  | 37361/48008 [5:22:06<1:27:58,  2.02it/s] 78%|███████▊  | 37362/48008 [5:22:07<1:30:16,  1.97it/s] 78%|███████▊  | 37363/48008 [5:22:07<1:31:56,  1.93it/s] 78%|███████▊  | 37364/48008 [5:22:08<1:30:06,  1.97it/s] 78%|███████▊  | 37365/48008 [5:22:08<1:29:46,  1.98it/s] 78%|███████▊  | 37366/48008 [5:22:09<1:28:27,  2.01it/s] 78%|███████▊  | 37367/48008 [5:22:09<1:27:18,  2.03it/s] 78%|███████▊  | 37368/48008 [5:22:10<1:26:51,  2.04it/s] 78%|███████▊  | 37369/48008 [5:22:10<1:27:33,  2.03it/s] 78%|███████▊  | 37370/48008 [5:22:11<1:29:14,  1.99it/s] 78%|███████▊  | 37371/48008 [5:22:11<1:27:53,  2.02it/s] 78%|███████▊  | 37372/48008 [5:22:12<1:27:14,  2.03it/s] 78%|███████▊  | 37373/48008 [5:22:12<1:23:15,  2.13it/s] 78%|███████▊  | 37374/48008 [5:22:13<1:25:09,  2.08it/s] 78%|███████▊  | 37375/48008 [5:22:14<1:46:03,  1.67it/s] 78%|███████▊  | 37376/48008 [5:22:14<1:39:45,  1.78it/s] 78%|███████▊  | 37377/48008 [5:22:15<1:35:15,  1.86it/s] 78%|███████▊  | 37378/48008 [5:22:15<1:35:31,  1.85it/s] 78%|███████▊  | 37379/48008 [5:22:16<1:32:23,  1.92it/s] 78%|███████▊  | 37380/48008 [5:22:16<1:33:23,  1.90it/s] 78%|███████▊  | 37381/48008 [5:22:17<1:32:19,  1.92it/s] 78%|███████▊  | 37382/48008 [5:22:17<1:51:06,  1.59it/s] 78%|███████▊  | 37383/48008 [5:22:18<1:44:34,  1.69it/s] 78%|███████▊  | 37384/48008 [5:22:18<1:40:01,  1.77it/s] 78%|███████▊  | 37385/48008 [5:22:19<1:32:06,  1.92it/s] 78%|███████▊  | 37386/48008 [5:22:19<1:30:02,  1.97it/s] 78%|███████▊  | 37387/48008 [5:22:20<1:29:50,  1.97it/s] 78%|███████▊  | 37388/48008 [5:22:20<1:29:47,  1.97it/s] 78%|███████▊  | 37389/48008 [5:22:21<1:28:24,  2.00it/s] 78%|███████▊  | 37390/48008 [5:22:21<1:23:51,  2.11it/s] 78%|███████▊  | 37391/48008 [5:22:22<1:24:22,  2.10it/s] 78%|███████▊  | 37392/48008 [5:22:22<1:24:28,  2.09it/s] 78%|███████▊  | 37393/48008 [5:22:23<1:24:43,  2.09it/s] 78%|███████▊  | 37394/48008 [5:22:23<1:24:44,  2.09it/s] 78%|███████▊  | 37395/48008 [5:22:24<1:26:18,  2.05it/s] 78%|███████▊  | 37396/48008 [5:22:24<1:25:50,  2.06it/s] 78%|███████▊  | 37397/48008 [5:22:25<1:25:54,  2.06it/s] 78%|███████▊  | 37398/48008 [5:22:25<1:22:18,  2.15it/s] 78%|███████▊  | 37399/48008 [5:22:26<1:23:02,  2.13it/s] 78%|███████▊  | 37400/48008 [5:22:26<1:20:16,  2.20it/s]                                                         {'loss': 4.2307, 'grad_norm': 0.09494037926197052, 'learning_rate': 4.419680053324446e-05, 'epoch': 0.78}
 78%|███████▊  | 37400/48008 [5:22:26<1:20:16,  2.20it/s] 78%|███████▊  | 37401/48008 [5:22:26<1:18:18,  2.26it/s] 78%|███████▊  | 37402/48008 [5:22:27<1:21:29,  2.17it/s] 78%|███████▊  | 37403/48008 [5:22:28<2:03:14,  1.43it/s] 78%|███████▊  | 37404/48008 [5:22:29<1:51:52,  1.58it/s] 78%|███████▊  | 37405/48008 [5:22:29<1:43:40,  1.70it/s] 78%|███████▊  | 37406/48008 [5:22:30<1:37:55,  1.80it/s] 78%|███████▊  | 37407/48008 [5:22:30<1:33:54,  1.88it/s] 78%|███████▊  | 37408/48008 [5:22:31<1:32:10,  1.92it/s] 78%|███████▊  | 37409/48008 [5:22:31<1:30:06,  1.96it/s] 78%|███████▊  | 37410/48008 [5:22:32<1:28:29,  2.00it/s] 78%|███████▊  | 37411/48008 [5:22:32<1:29:10,  1.98it/s] 78%|███████▊  | 37412/48008 [5:22:32<1:24:35,  2.09it/s] 78%|███████▊  | 37413/48008 [5:22:33<1:21:04,  2.18it/s] 78%|███████▊  | 37414/48008 [5:22:33<1:22:18,  2.15it/s] 78%|███████▊  | 37415/48008 [5:22:34<1:23:22,  2.12it/s] 78%|███████▊  | 37416/48008 [5:22:35<2:04:36,  1.42it/s] 78%|███████▊  | 37417/48008 [5:22:36<1:54:06,  1.55it/s] 78%|███████▊  | 37418/48008 [5:22:36<1:45:23,  1.67it/s] 78%|███████▊  | 37419/48008 [5:22:37<1:39:09,  1.78it/s] 78%|███████▊  | 37420/48008 [5:22:37<1:36:14,  1.83it/s] 78%|███████▊  | 37421/48008 [5:22:38<1:29:20,  1.97it/s] 78%|███████▊  | 37422/48008 [5:22:38<1:30:20,  1.95it/s] 78%|███████▊  | 37423/48008 [5:22:39<1:28:50,  1.99it/s] 78%|███████▊  | 37424/48008 [5:22:39<1:27:50,  2.01it/s] 78%|███████▊  | 37425/48008 [5:22:39<1:26:37,  2.04it/s] 78%|███████▊  | 37426/48008 [5:22:40<1:26:00,  2.05it/s] 78%|███████▊  | 37427/48008 [5:22:40<1:25:49,  2.05it/s] 78%|███████▊  | 37428/48008 [5:22:41<1:26:46,  2.03it/s] 78%|███████▊  | 37429/48008 [5:22:41<1:27:54,  2.01it/s] 78%|███████▊  | 37430/48008 [5:22:42<1:29:01,  1.98it/s] 78%|███████▊  | 37431/48008 [5:22:42<1:24:26,  2.09it/s] 78%|███████▊  | 37432/48008 [5:22:43<1:21:12,  2.17it/s] 78%|███████▊  | 37433/48008 [5:22:43<1:32:22,  1.91it/s] 78%|███████▊  | 37434/48008 [5:22:44<1:31:54,  1.92it/s] 78%|███████▊  | 37435/48008 [5:22:45<1:30:56,  1.94it/s] 78%|███████▊  | 37436/48008 [5:22:45<1:25:46,  2.05it/s] 78%|███████▊  | 37437/48008 [5:22:45<1:26:51,  2.03it/s] 78%|███████▊  | 37438/48008 [5:22:46<1:26:08,  2.04it/s] 78%|███████▊  | 37439/48008 [5:22:46<1:25:23,  2.06it/s] 78%|███████▊  | 37440/48008 [5:22:47<1:26:13,  2.04it/s] 78%|███████▊  | 37441/48008 [5:22:47<1:25:33,  2.06it/s] 78%|███████▊  | 37442/48008 [5:22:48<1:28:16,  1.99it/s] 78%|███████▊  | 37443/48008 [5:22:49<2:08:18,  1.37it/s] 78%|███████▊  | 37444/48008 [5:22:50<1:57:08,  1.50it/s] 78%|███████▊  | 37445/48008 [5:22:50<1:48:36,  1.62it/s] 78%|███████▊  | 37446/48008 [5:22:51<1:43:38,  1.70it/s] 78%|███████▊  | 37447/48008 [5:22:51<1:39:15,  1.77it/s] 78%|███████▊  | 37448/48008 [5:22:52<1:36:06,  1.83it/s] 78%|███████▊  | 37449/48008 [5:22:52<1:32:42,  1.90it/s] 78%|███████▊  | 37450/48008 [5:22:53<1:26:43,  2.03it/s]                                                         {'loss': 4.2217, 'grad_norm': 0.1011294573545456, 'learning_rate': 4.398850191634728e-05, 'epoch': 0.78} 78%|███████▊  | 37450/48008 [5:22:53<1:26:43,  2.03it/s]
 78%|███████▊  | 37451/48008 [5:22:53<1:36:25,  1.82it/s] 78%|███████▊  | 37452/48008 [5:22:54<1:34:00,  1.87it/s] 78%|███████▊  | 37453/48008 [5:22:54<1:32:59,  1.89it/s] 78%|███████▊  | 37454/48008 [5:22:55<1:30:36,  1.94it/s] 78%|███████▊  | 37455/48008 [5:22:55<1:38:59,  1.78it/s] 78%|███████▊  | 37456/48008 [5:22:56<1:36:26,  1.82it/s] 78%|███████▊  | 37457/48008 [5:22:56<1:32:48,  1.89it/s] 78%|███████▊  | 37458/48008 [5:22:57<1:40:23,  1.75it/s] 78%|███████▊  | 37459/48008 [5:22:58<1:37:07,  1.81it/s] 78%|███████▊  | 37460/48008 [5:22:58<1:29:56,  1.95it/s] 78%|███████▊  | 37461/48008 [5:22:59<1:28:23,  1.99it/s] 78%|███████▊  | 37462/48008 [5:22:59<1:29:07,  1.97it/s] 78%|███████▊  | 37463/48008 [5:22:59<1:24:19,  2.08it/s] 78%|███████▊  | 37464/48008 [5:23:00<1:24:09,  2.09it/s] 78%|███████▊  | 37465/48008 [5:23:00<1:24:14,  2.09it/s] 78%|███████▊  | 37466/48008 [5:23:01<1:23:59,  2.09it/s] 78%|███████▊  | 37467/48008 [5:23:01<1:24:12,  2.09it/s] 78%|███████▊  | 37468/48008 [5:23:02<1:24:11,  2.09it/s] 78%|███████▊  | 37469/48008 [5:23:02<1:18:57,  2.22it/s] 78%|███████▊  | 37470/48008 [5:23:03<1:20:40,  2.18it/s] 78%|███████▊  | 37471/48008 [5:23:03<1:24:03,  2.09it/s] 78%|███████▊  | 37472/48008 [5:23:04<1:27:25,  2.01it/s] 78%|███████▊  | 37473/48008 [5:23:04<1:27:38,  2.00it/s] 78%|███████▊  | 37474/48008 [5:23:05<1:23:09,  2.11it/s] 78%|███████▊  | 37475/48008 [5:23:05<1:24:58,  2.07it/s] 78%|███████▊  | 37476/48008 [5:23:06<1:24:47,  2.07it/s] 78%|███████▊  | 37477/48008 [5:23:06<1:24:42,  2.07it/s] 78%|███████▊  | 37478/48008 [5:23:07<1:24:51,  2.07it/s] 78%|███████▊  | 37479/48008 [5:23:07<1:21:14,  2.16it/s] 78%|███████▊  | 37480/48008 [5:23:08<1:22:23,  2.13it/s] 78%|███████▊  | 37481/48008 [5:23:08<1:23:03,  2.11it/s] 78%|███████▊  | 37482/48008 [5:23:09<1:24:25,  2.08it/s] 78%|███████▊  | 37483/48008 [5:23:09<1:25:33,  2.05it/s] 78%|███████▊  | 37484/48008 [5:23:10<1:26:29,  2.03it/s] 78%|███████▊  | 37485/48008 [5:23:10<1:26:51,  2.02it/s] 78%|███████▊  | 37486/48008 [5:23:11<1:26:06,  2.04it/s] 78%|███████▊  | 37487/48008 [5:23:11<1:46:15,  1.65it/s] 78%|███████▊  | 37488/48008 [5:23:12<1:39:42,  1.76it/s] 78%|███████▊  | 37489/48008 [5:23:12<1:35:13,  1.84it/s] 78%|███████▊  | 37490/48008 [5:23:13<1:28:32,  1.98it/s] 78%|███████▊  | 37491/48008 [5:23:13<1:27:17,  2.01it/s] 78%|███████▊  | 37492/48008 [5:23:14<1:27:39,  2.00it/s] 78%|███████▊  | 37493/48008 [5:23:14<1:26:42,  2.02it/s] 78%|███████▊  | 37494/48008 [5:23:15<1:29:12,  1.96it/s] 78%|███████▊  | 37495/48008 [5:23:15<1:27:30,  2.00it/s] 78%|███████▊  | 37496/48008 [5:23:16<1:26:32,  2.02it/s] 78%|███████▊  | 37497/48008 [5:23:16<1:22:07,  2.13it/s] 78%|███████▊  | 37498/48008 [5:23:17<1:22:41,  2.12it/s] 78%|███████▊  | 37499/48008 [5:23:17<1:23:22,  2.10it/s] 78%|███████▊  | 37500/48008 [5:23:18<1:58:02,  1.48it/s]                                                         {'loss': 4.263, 'grad_norm': 0.09973572939634323, 'learning_rate': 4.3780203299450094e-05, 'epoch': 0.78}
 78%|███████▊  | 37500/48008 [5:23:18<1:58:02,  1.48it/s] 78%|███████▊  | 37501/48008 [5:23:19<1:48:01,  1.62it/s] 78%|███████▊  | 37502/48008 [5:23:19<1:40:53,  1.74it/s] 78%|███████▊  | 37503/48008 [5:23:20<1:37:15,  1.80it/s] 78%|███████▊  | 37504/48008 [5:23:20<1:33:15,  1.88it/s] 78%|███████▊  | 37505/48008 [5:23:21<1:30:24,  1.94it/s] 78%|███████▊  | 37506/48008 [5:23:21<1:25:12,  2.05it/s] 78%|███████▊  | 37507/48008 [5:23:22<1:24:56,  2.06it/s] 78%|███████▊  | 37508/48008 [5:23:22<1:24:47,  2.06it/s] 78%|███████▊  | 37509/48008 [5:23:23<1:25:48,  2.04it/s] 78%|███████▊  | 37510/48008 [5:23:24<2:05:45,  1.39it/s] 78%|███████▊  | 37511/48008 [5:23:24<1:54:22,  1.53it/s] 78%|███████▊  | 37512/48008 [5:23:26<2:25:25,  1.20it/s] 78%|███████▊  | 37513/48008 [5:23:26<2:03:34,  1.42it/s] 78%|███████▊  | 37514/48008 [5:23:27<1:53:01,  1.55it/s] 78%|███████▊  | 37515/48008 [5:23:27<1:44:16,  1.68it/s] 78%|███████▊  | 37516/48008 [5:23:27<1:39:35,  1.76it/s] 78%|███████▊  | 37517/48008 [5:23:28<1:35:59,  1.82it/s] 78%|███████▊  | 37518/48008 [5:23:28<1:33:25,  1.87it/s] 78%|███████▊  | 37519/48008 [5:23:29<1:30:38,  1.93it/s] 78%|███████▊  | 37520/48008 [5:23:29<1:29:32,  1.95it/s] 78%|███████▊  | 37521/48008 [5:23:30<1:24:31,  2.07it/s] 78%|███████▊  | 37522/48008 [5:23:30<1:25:51,  2.04it/s] 78%|███████▊  | 37523/48008 [5:23:31<1:35:32,  1.83it/s] 78%|███████▊  | 37524/48008 [5:23:32<2:12:53,  1.31it/s] 78%|███████▊  | 37525/48008 [5:23:33<1:59:18,  1.46it/s] 78%|███████▊  | 37526/48008 [5:23:33<1:45:16,  1.66it/s] 78%|███████▊  | 37527/48008 [5:23:34<1:38:51,  1.77it/s] 78%|███████▊  | 37528/48008 [5:23:34<1:37:08,  1.80it/s] 78%|███████▊  | 37529/48008 [5:23:36<2:13:33,  1.31it/s] 78%|███████▊  | 37530/48008 [5:23:36<1:55:16,  1.51it/s] 78%|███████▊  | 37531/48008 [5:23:36<1:46:00,  1.65it/s] 78%|███████▊  | 37532/48008 [5:23:37<1:40:49,  1.73it/s] 78%|███████▊  | 37533/48008 [5:23:37<1:37:29,  1.79it/s] 78%|███████▊  | 37534/48008 [5:23:38<1:35:13,  1.83it/s] 78%|███████▊  | 37535/48008 [5:23:38<1:31:44,  1.90it/s] 78%|███████▊  | 37536/48008 [5:23:39<1:30:27,  1.93it/s] 78%|███████▊  | 37537/48008 [5:23:39<1:31:43,  1.90it/s] 78%|███████▊  | 37538/48008 [5:23:40<1:29:04,  1.96it/s] 78%|███████▊  | 37539/48008 [5:23:40<1:27:35,  1.99it/s] 78%|███████▊  | 37540/48008 [5:23:41<1:27:32,  1.99it/s] 78%|███████▊  | 37541/48008 [5:23:41<1:27:35,  1.99it/s] 78%|███████▊  | 37542/48008 [5:23:42<1:26:29,  2.02it/s] 78%|███████▊  | 37543/48008 [5:23:42<1:26:50,  2.01it/s] 78%|███████▊  | 37544/48008 [5:23:43<1:27:54,  1.98it/s] 78%|███████▊  | 37545/48008 [5:23:43<1:29:43,  1.94it/s] 78%|███████▊  | 37546/48008 [5:23:44<1:29:09,  1.96it/s] 78%|███████▊  | 37547/48008 [5:23:45<1:29:28,  1.95it/s] 78%|███████▊  | 37548/48008 [5:23:45<1:29:40,  1.94it/s] 78%|███████▊  | 37549/48008 [5:23:46<1:29:06,  1.96it/s] 78%|███████▊  | 37550/48008 [5:23:46<1:24:07,  2.07it/s]                                                         {'loss': 4.3138, 'grad_norm': 0.0963842049241066, 'learning_rate': 4.357190468255291e-05, 'epoch': 0.78}
 78%|███████▊  | 37550/48008 [5:23:46<1:24:07,  2.07it/s] 78%|███████▊  | 37551/48008 [5:23:46<1:23:55,  2.08it/s] 78%|███████▊  | 37552/48008 [5:23:47<1:26:44,  2.01it/s] 78%|███████▊  | 37553/48008 [5:23:47<1:22:31,  2.11it/s] 78%|███████▊  | 37554/48008 [5:23:48<1:22:49,  2.10it/s] 78%|███████▊  | 37555/48008 [5:23:48<1:23:13,  2.09it/s] 78%|███████▊  | 37556/48008 [5:23:49<1:23:19,  2.09it/s] 78%|███████▊  | 37557/48008 [5:23:49<1:24:44,  2.06it/s] 78%|███████▊  | 37558/48008 [5:23:50<1:24:27,  2.06it/s] 78%|███████▊  | 37559/48008 [5:23:50<1:24:31,  2.06it/s] 78%|███████▊  | 37560/48008 [5:23:51<1:20:55,  2.15it/s] 78%|███████▊  | 37561/48008 [5:23:51<1:18:23,  2.22it/s] 78%|███████▊  | 37562/48008 [5:23:52<1:16:42,  2.27it/s] 78%|███████▊  | 37563/48008 [5:23:52<1:15:26,  2.31it/s] 78%|███████▊  | 37564/48008 [5:23:52<1:18:06,  2.23it/s] 78%|███████▊  | 37565/48008 [5:23:53<1:19:45,  2.18it/s] 78%|███████▊  | 37566/48008 [5:23:53<1:20:54,  2.15it/s] 78%|███████▊  | 37567/48008 [5:23:54<1:22:04,  2.12it/s] 78%|███████▊  | 37568/48008 [5:23:54<1:22:30,  2.11it/s] 78%|███████▊  | 37569/48008 [5:23:55<1:22:59,  2.10it/s] 78%|███████▊  | 37570/48008 [5:23:55<1:26:13,  2.02it/s] 78%|███████▊  | 37571/48008 [5:23:56<1:28:31,  1.96it/s] 78%|███████▊  | 37572/48008 [5:23:56<1:23:35,  2.08it/s] 78%|███████▊  | 37573/48008 [5:23:57<1:24:54,  2.05it/s] 78%|███████▊  | 37574/48008 [5:23:57<1:19:16,  2.19it/s] 78%|███████▊  | 37575/48008 [5:23:58<1:22:35,  2.11it/s] 78%|███████▊  | 37576/48008 [5:23:58<1:23:07,  2.09it/s] 78%|███████▊  | 37577/48008 [5:23:59<1:23:10,  2.09it/s] 78%|███████▊  | 37578/48008 [5:23:59<1:24:47,  2.05it/s] 78%|███████▊  | 37579/48008 [5:24:00<1:26:14,  2.02it/s] 78%|███████▊  | 37580/48008 [5:24:00<1:25:31,  2.03it/s] 78%|███████▊  | 37581/48008 [5:24:01<1:24:52,  2.05it/s] 78%|███████▊  | 37582/48008 [5:24:01<1:34:27,  1.84it/s] 78%|███████▊  | 37583/48008 [5:24:02<1:27:52,  1.98it/s] 78%|███████▊  | 37584/48008 [5:24:02<1:26:36,  2.01it/s] 78%|███████▊  | 37585/48008 [5:24:03<1:27:08,  1.99it/s] 78%|███████▊  | 37586/48008 [5:24:04<2:05:56,  1.38it/s] 78%|███████▊  | 37587/48008 [5:24:05<1:53:07,  1.54it/s] 78%|███████▊  | 37588/48008 [5:24:05<1:44:15,  1.67it/s] 78%|███████▊  | 37589/48008 [5:24:05<1:38:07,  1.77it/s] 78%|███████▊  | 37590/48008 [5:24:06<1:33:37,  1.85it/s] 78%|███████▊  | 37591/48008 [5:24:06<1:27:15,  1.99it/s] 78%|███████▊  | 37592/48008 [5:24:07<1:26:12,  2.01it/s] 78%|███████▊  | 37593/48008 [5:24:07<1:27:17,  1.99it/s] 78%|███████▊  | 37594/48008 [5:24:08<1:22:30,  2.10it/s] 78%|███████▊  | 37595/48008 [5:24:08<1:19:25,  2.19it/s] 78%|███████▊  | 37596/48008 [5:24:09<1:20:48,  2.15it/s] 78%|███████▊  | 37597/48008 [5:24:09<1:21:43,  2.12it/s] 78%|███████▊  | 37598/48008 [5:24:10<1:18:50,  2.20it/s] 78%|███████▊  | 37599/48008 [5:24:10<1:21:12,  2.14it/s] 78%|███████▊  | 37600/48008 [5:24:11<1:21:44,  2.12it/s]                                                         {'loss': 4.2266, 'grad_norm': 0.10082188993692398, 'learning_rate': 4.336360606565573e-05, 'epoch': 0.78}
 78%|███████▊  | 37600/48008 [5:24:11<1:21:44,  2.12it/s] 78%|███████▊  | 37601/48008 [5:24:11<1:22:09,  2.11it/s] 78%|███████▊  | 37602/48008 [5:24:12<1:23:43,  2.07it/s] 78%|███████▊  | 37603/48008 [5:24:12<1:20:17,  2.16it/s] 78%|███████▊  | 37604/48008 [5:24:13<2:01:00,  1.43it/s] 78%|███████▊  | 37605/48008 [5:24:14<1:51:01,  1.56it/s] 78%|███████▊  | 37606/48008 [5:24:14<1:52:36,  1.54it/s] 78%|███████▊  | 37607/48008 [5:24:15<1:46:39,  1.63it/s] 78%|███████▊  | 37608/48008 [5:24:15<1:40:58,  1.72it/s] 78%|███████▊  | 37609/48008 [5:24:16<1:36:54,  1.79it/s] 78%|███████▊  | 37610/48008 [5:24:17<1:53:25,  1.53it/s] 78%|███████▊  | 37611/48008 [5:24:17<1:44:27,  1.66it/s] 78%|███████▊  | 37612/48008 [5:24:18<1:38:14,  1.76it/s] 78%|███████▊  | 37613/48008 [5:24:18<1:36:55,  1.79it/s] 78%|███████▊  | 37614/48008 [5:24:19<1:32:57,  1.86it/s] 78%|███████▊  | 37615/48008 [5:24:19<1:26:38,  2.00it/s] 78%|███████▊  | 37616/48008 [5:24:20<1:28:37,  1.95it/s] 78%|███████▊  | 37617/48008 [5:24:20<1:21:45,  2.12it/s] 78%|███████▊  | 37618/48008 [5:24:21<1:18:46,  2.20it/s] 78%|███████▊  | 37619/48008 [5:24:21<1:16:45,  2.26it/s] 78%|███████▊  | 37620/48008 [5:24:21<1:20:33,  2.15it/s] 78%|███████▊  | 37621/48008 [5:24:22<1:24:23,  2.05it/s] 78%|███████▊  | 37622/48008 [5:24:22<1:23:43,  2.07it/s] 78%|███████▊  | 37623/48008 [5:24:23<1:24:42,  2.04it/s] 78%|███████▊  | 37624/48008 [5:24:23<1:25:15,  2.03it/s] 78%|███████▊  | 37625/48008 [5:24:24<1:45:29,  1.64it/s] 78%|███████▊  | 37626/48008 [5:24:25<1:35:23,  1.81it/s] 78%|███████▊  | 37627/48008 [5:24:25<1:31:38,  1.89it/s] 78%|███████▊  | 37628/48008 [5:24:26<1:25:41,  2.02it/s] 78%|███████▊  | 37629/48008 [5:24:26<1:24:37,  2.04it/s] 78%|███████▊  | 37630/48008 [5:24:27<1:24:08,  2.06it/s] 78%|███████▊  | 37631/48008 [5:24:27<1:24:01,  2.06it/s] 78%|███████▊  | 37632/48008 [5:24:28<1:23:48,  2.06it/s] 78%|███████▊  | 37633/48008 [5:24:28<1:23:31,  2.07it/s] 78%|███████▊  | 37634/48008 [5:24:29<1:24:51,  2.04it/s] 78%|███████▊  | 37635/48008 [5:24:29<1:24:24,  2.05it/s] 78%|███████▊  | 37636/48008 [5:24:30<1:23:56,  2.06it/s] 78%|███████▊  | 37637/48008 [5:24:30<1:20:12,  2.15it/s] 78%|███████▊  | 37638/48008 [5:24:30<1:21:16,  2.13it/s] 78%|███████▊  | 37639/48008 [5:24:31<1:18:19,  2.21it/s] 78%|███████▊  | 37640/48008 [5:24:31<1:19:40,  2.17it/s] 78%|███████▊  | 37641/48008 [5:24:32<1:22:49,  2.09it/s] 78%|███████▊  | 37642/48008 [5:24:32<1:19:31,  2.17it/s] 78%|███████▊  | 37643/48008 [5:24:33<1:20:16,  2.15it/s] 78%|███████▊  | 37644/48008 [5:24:33<1:20:48,  2.14it/s] 78%|███████▊  | 37645/48008 [5:24:34<1:21:33,  2.12it/s] 78%|███████▊  | 37646/48008 [5:24:34<1:23:14,  2.07it/s] 78%|███████▊  | 37647/48008 [5:24:35<1:24:11,  2.05it/s] 78%|███████▊  | 37648/48008 [5:24:35<1:20:30,  2.14it/s] 78%|███████▊  | 37649/48008 [5:24:36<1:21:09,  2.13it/s] 78%|███████▊  | 37650/48008 [5:24:36<1:22:49,  2.08it/s]                                                         {'loss': 4.2395, 'grad_norm': 0.09818357229232788, 'learning_rate': 4.315530744875854e-05, 'epoch': 0.78}
 78%|███████▊  | 37650/48008 [5:24:36<1:22:49,  2.08it/s] 78%|███████▊  | 37651/48008 [5:24:37<1:25:04,  2.03it/s] 78%|███████▊  | 37652/48008 [5:24:38<2:08:49,  1.34it/s] 78%|███████▊  | 37653/48008 [5:24:38<1:54:47,  1.50it/s] 78%|███████▊  | 37654/48008 [5:24:39<1:45:22,  1.64it/s] 78%|███████▊  | 37655/48008 [5:24:39<1:38:33,  1.75it/s] 78%|███████▊  | 37656/48008 [5:24:40<1:30:34,  1.90it/s] 78%|███████▊  | 37657/48008 [5:24:40<1:30:08,  1.91it/s] 78%|███████▊  | 37658/48008 [5:24:42<2:19:34,  1.24it/s] 78%|███████▊  | 37659/48008 [5:24:42<2:02:36,  1.41it/s] 78%|███████▊  | 37660/48008 [5:24:43<1:51:40,  1.54it/s] 78%|███████▊  | 37661/48008 [5:24:43<1:44:10,  1.66it/s] 78%|███████▊  | 37662/48008 [5:24:44<1:38:53,  1.74it/s] 78%|███████▊  | 37663/48008 [5:24:45<2:13:42,  1.29it/s] 78%|███████▊  | 37664/48008 [5:24:46<2:26:06,  1.18it/s] 78%|███████▊  | 37665/48008 [5:24:47<2:08:34,  1.34it/s] 78%|███████▊  | 37666/48008 [5:24:47<1:54:56,  1.50it/s] 78%|███████▊  | 37667/48008 [5:24:48<1:47:03,  1.61it/s] 78%|███████▊  | 37668/48008 [5:24:48<1:39:36,  1.73it/s] 78%|███████▊  | 37669/48008 [5:24:48<1:31:14,  1.89it/s] 78%|███████▊  | 37670/48008 [5:24:49<1:29:59,  1.91it/s] 78%|███████▊  | 37671/48008 [5:24:50<1:29:30,  1.92it/s] 78%|███████▊  | 37672/48008 [5:24:50<1:28:41,  1.94it/s] 78%|███████▊  | 37673/48008 [5:24:51<1:30:14,  1.91it/s] 78%|███████▊  | 37674/48008 [5:24:51<1:29:12,  1.93it/s] 78%|███████▊  | 37675/48008 [5:24:52<1:27:14,  1.97it/s] 78%|███████▊  | 37676/48008 [5:24:53<2:01:13,  1.42it/s] 78%|███████▊  | 37677/48008 [5:24:53<1:49:38,  1.57it/s] 78%|███████▊  | 37678/48008 [5:24:54<1:51:38,  1.54it/s] 78%|███████▊  | 37679/48008 [5:24:54<1:44:08,  1.65it/s] 78%|███████▊  | 37680/48008 [5:24:55<1:37:49,  1.76it/s] 78%|███████▊  | 37681/48008 [5:24:56<1:43:36,  1.66it/s] 78%|███████▊  | 37682/48008 [5:24:56<1:37:17,  1.77it/s] 78%|███████▊  | 37683/48008 [5:24:56<1:29:50,  1.92it/s] 78%|███████▊  | 37684/48008 [5:24:57<1:30:59,  1.89it/s] 78%|███████▊  | 37685/48008 [5:24:57<1:25:17,  2.02it/s] 78%|███████▊  | 37686/48008 [5:24:58<1:25:28,  2.01it/s] 79%|███████▊  | 37687/48008 [5:24:58<1:24:39,  2.03it/s] 79%|███████▊  | 37688/48008 [5:24:59<1:24:12,  2.04it/s] 79%|███████▊  | 37689/48008 [5:24:59<1:23:47,  2.05it/s] 79%|███████▊  | 37690/48008 [5:25:00<1:23:30,  2.06it/s] 79%|███████▊  | 37691/48008 [5:25:00<1:24:43,  2.03it/s] 79%|███████▊  | 37692/48008 [5:25:01<1:24:07,  2.04it/s] 79%|███████▊  | 37693/48008 [5:25:01<1:20:24,  2.14it/s] 79%|███████▊  | 37694/48008 [5:25:02<1:17:47,  2.21it/s] 79%|███████▊  | 37695/48008 [5:25:02<1:16:08,  2.26it/s] 79%|███████▊  | 37696/48008 [5:25:03<1:19:22,  2.17it/s] 79%|███████▊  | 37697/48008 [5:25:03<1:20:12,  2.14it/s] 79%|███████▊  | 37698/48008 [5:25:03<1:17:47,  2.21it/s] 79%|███████▊  | 37699/48008 [5:25:04<1:15:49,  2.27it/s] 79%|███████▊  | 37700/48008 [5:25:04<1:17:51,  2.21it/s]                                                         {'loss': 4.2538, 'grad_norm': 0.1239091157913208, 'learning_rate': 4.2947008831861356e-05, 'epoch': 0.79}
 79%|███████▊  | 37700/48008 [5:25:04<1:17:51,  2.21it/s] 79%|███████▊  | 37701/48008 [5:25:05<1:19:23,  2.16it/s] 79%|███████▊  | 37702/48008 [5:25:05<1:23:39,  2.05it/s] 79%|███████▊  | 37703/48008 [5:25:06<1:26:05,  1.99it/s] 79%|███████▊  | 37704/48008 [5:25:06<1:27:01,  1.97it/s] 79%|███████▊  | 37705/48008 [5:25:07<1:27:24,  1.96it/s] 79%|███████▊  | 37706/48008 [5:25:07<1:22:22,  2.08it/s] 79%|███████▊  | 37707/48008 [5:25:08<1:23:29,  2.06it/s] 79%|███████▊  | 37708/48008 [5:25:08<1:23:20,  2.06it/s] 79%|███████▊  | 37709/48008 [5:25:09<1:24:14,  2.04it/s] 79%|███████▊  | 37710/48008 [5:25:09<1:25:52,  2.00it/s] 79%|███████▊  | 37711/48008 [5:25:10<1:24:53,  2.02it/s] 79%|███████▊  | 37712/48008 [5:25:10<1:21:02,  2.12it/s] 79%|███████▊  | 37713/48008 [5:25:11<1:21:31,  2.10it/s] 79%|███████▊  | 37714/48008 [5:25:11<1:18:27,  2.19it/s] 79%|███████▊  | 37715/48008 [5:25:12<1:19:51,  2.15it/s] 79%|███████▊  | 37716/48008 [5:25:12<1:20:47,  2.12it/s] 79%|███████▊  | 37717/48008 [5:25:13<1:21:14,  2.11it/s] 79%|███████▊  | 37718/48008 [5:25:13<1:22:36,  2.08it/s] 79%|███████▊  | 37719/48008 [5:25:14<1:22:32,  2.08it/s] 79%|███████▊  | 37720/48008 [5:25:14<1:19:08,  2.17it/s] 79%|███████▊  | 37721/48008 [5:25:15<1:40:28,  1.71it/s] 79%|███████▊  | 37722/48008 [5:25:15<1:31:53,  1.87it/s] 79%|███████▊  | 37723/48008 [5:25:16<1:31:54,  1.86it/s] 79%|███████▊  | 37724/48008 [5:25:16<1:29:14,  1.92it/s] 79%|███████▊  | 37725/48008 [5:25:17<1:28:20,  1.94it/s] 79%|███████▊  | 37726/48008 [5:25:17<1:26:41,  1.98it/s] 79%|███████▊  | 37727/48008 [5:25:18<1:21:59,  2.09it/s] 79%|███████▊  | 37728/48008 [5:25:18<1:22:10,  2.08it/s] 79%|███████▊  | 37729/48008 [5:25:19<1:32:25,  1.85it/s] 79%|███████▊  | 37730/48008 [5:25:19<1:29:38,  1.91it/s] 79%|███████▊  | 37731/48008 [5:25:20<1:28:48,  1.93it/s] 79%|███████▊  | 37732/48008 [5:25:20<1:26:54,  1.97it/s] 79%|███████▊  | 37733/48008 [5:25:21<1:25:13,  2.01it/s] 79%|███████▊  | 37734/48008 [5:25:21<1:20:59,  2.11it/s] 79%|███████▊  | 37735/48008 [5:25:22<1:23:28,  2.05it/s] 79%|███████▊  | 37736/48008 [5:25:22<1:26:23,  1.98it/s] 79%|███████▊  | 37737/48008 [5:25:24<2:05:05,  1.37it/s] 79%|███████▊  | 37738/48008 [5:25:24<1:53:27,  1.51it/s] 79%|███████▊  | 37739/48008 [5:25:25<1:45:52,  1.62it/s] 79%|███████▊  | 37740/48008 [5:25:25<1:38:55,  1.73it/s] 79%|███████▊  | 37741/48008 [5:25:26<1:33:50,  1.82it/s] 79%|███████▊  | 37742/48008 [5:25:26<1:27:03,  1.97it/s] 79%|███████▊  | 37743/48008 [5:25:26<1:25:28,  2.00it/s] 79%|███████▊  | 37744/48008 [5:25:27<1:24:46,  2.02it/s] 79%|███████▊  | 37745/48008 [5:25:27<1:24:07,  2.03it/s] 79%|███████▊  | 37746/48008 [5:25:28<1:25:00,  2.01it/s] 79%|███████▊  | 37747/48008 [5:25:29<1:34:23,  1.81it/s] 79%|███████▊  | 37748/48008 [5:25:29<1:31:01,  1.88it/s] 79%|███████▊  | 37749/48008 [5:25:30<1:29:39,  1.91it/s] 79%|███████▊  | 37750/48008 [5:25:30<1:27:32,  1.95it/s]                                                         {'loss': 4.2215, 'grad_norm': 0.20565395057201385, 'learning_rate': 4.2738710214964174e-05, 'epoch': 0.79}
 79%|███████▊  | 37750/48008 [5:25:30<1:27:32,  1.95it/s] 79%|███████▊  | 37751/48008 [5:25:30<1:20:55,  2.11it/s] 79%|███████▊  | 37752/48008 [5:25:31<1:41:50,  1.68it/s] 79%|███████▊  | 37753/48008 [5:25:32<1:37:03,  1.76it/s] 79%|███████▊  | 37754/48008 [5:25:32<1:33:37,  1.83it/s] 79%|███████▊  | 37755/48008 [5:25:33<1:30:21,  1.89it/s] 79%|███████▊  | 37756/48008 [5:25:33<1:28:54,  1.92it/s] 79%|███████▊  | 37757/48008 [5:25:34<1:23:42,  2.04it/s] 79%|███████▊  | 37758/48008 [5:25:34<1:23:28,  2.05it/s] 79%|███████▊  | 37759/48008 [5:25:35<1:43:51,  1.64it/s] 79%|███████▊  | 37760/48008 [5:25:36<1:34:15,  1.81it/s] 79%|███████▊  | 37761/48008 [5:25:36<1:32:51,  1.84it/s] 79%|███████▊  | 37762/48008 [5:25:37<1:31:06,  1.87it/s] 79%|███████▊  | 37763/48008 [5:25:37<1:28:31,  1.93it/s] 79%|███████▊  | 37764/48008 [5:25:38<1:28:50,  1.92it/s] 79%|███████▊  | 37765/48008 [5:25:38<1:27:59,  1.94it/s] 79%|███████▊  | 37766/48008 [5:25:39<1:25:57,  1.99it/s] 79%|███████▊  | 37767/48008 [5:25:39<1:26:09,  1.98it/s] 79%|███████▊  | 37768/48008 [5:25:40<1:25:16,  2.00it/s] 79%|███████▊  | 37769/48008 [5:25:41<2:03:35,  1.38it/s] 79%|███████▊  | 37770/48008 [5:25:41<1:47:52,  1.58it/s] 79%|███████▊  | 37771/48008 [5:25:42<1:41:27,  1.68it/s] 79%|███████▊  | 37772/48008 [5:25:42<1:38:29,  1.73it/s] 79%|███████▊  | 37773/48008 [5:25:43<1:33:30,  1.82it/s] 79%|███████▊  | 37774/48008 [5:25:43<1:31:36,  1.86it/s] 79%|███████▊  | 37775/48008 [5:25:44<1:31:39,  1.86it/s] 79%|███████▊  | 37776/48008 [5:25:44<1:29:11,  1.91it/s] 79%|███████▊  | 37777/48008 [5:25:45<1:28:50,  1.92it/s] 79%|███████▊  | 37778/48008 [5:25:45<1:28:06,  1.94it/s] 79%|███████▊  | 37779/48008 [5:25:46<1:26:04,  1.98it/s] 79%|███████▊  | 37780/48008 [5:25:46<1:26:10,  1.98it/s] 79%|███████▊  | 37781/48008 [5:25:47<1:26:11,  1.98it/s] 79%|███████▊  | 37782/48008 [5:25:47<1:24:42,  2.01it/s] 79%|███████▊  | 37783/48008 [5:25:48<1:23:56,  2.03it/s] 79%|███████▊  | 37784/48008 [5:25:48<1:23:27,  2.04it/s] 79%|███████▊  | 37785/48008 [5:25:49<1:23:14,  2.05it/s] 79%|███████▊  | 37786/48008 [5:25:49<1:24:08,  2.02it/s] 79%|███████▊  | 37787/48008 [5:25:50<1:24:55,  2.01it/s] 79%|███████▊  | 37788/48008 [5:25:50<1:25:52,  1.98it/s] 79%|███████▊  | 37789/48008 [5:25:51<1:25:57,  1.98it/s] 79%|███████▊  | 37790/48008 [5:25:51<1:24:41,  2.01it/s] 79%|███████▊  | 37791/48008 [5:25:52<1:25:07,  2.00it/s] 79%|███████▊  | 37792/48008 [5:25:53<1:44:13,  1.63it/s] 79%|███████▊  | 37793/48008 [5:25:53<1:39:27,  1.71it/s] 79%|███████▊  | 37794/48008 [5:25:54<1:34:13,  1.81it/s] 79%|███████▊  | 37795/48008 [5:25:54<1:31:50,  1.85it/s] 79%|███████▊  | 37796/48008 [5:25:55<1:28:40,  1.92it/s] 79%|███████▊  | 37797/48008 [5:25:55<1:23:19,  2.04it/s] 79%|███████▊  | 37798/48008 [5:25:56<1:22:58,  2.05it/s] 79%|███████▊  | 37799/48008 [5:25:56<1:32:30,  1.84it/s] 79%|███████▊  | 37800/48008 [5:25:57<1:26:16,  1.97it/s]                                                         {'loss': 4.2729, 'grad_norm': 0.09573255479335785, 'learning_rate': 4.253041159806699e-05, 'epoch': 0.79} 79%|███████▊  | 37800/48008 [5:25:57<1:26:16,  1.97it/s]
 79%|███████▊  | 37801/48008 [5:25:57<1:25:10,  2.00it/s] 79%|███████▊  | 37802/48008 [5:25:58<1:25:22,  1.99it/s] 79%|███████▊  | 37803/48008 [5:25:58<1:24:25,  2.01it/s] 79%|███████▊  | 37804/48008 [5:25:59<1:25:28,  1.99it/s] 79%|███████▊  | 37805/48008 [5:25:59<1:26:30,  1.97it/s] 79%|███████▊  | 37806/48008 [5:26:00<1:25:57,  1.98it/s] 79%|███████▉  | 37807/48008 [5:26:00<1:25:48,  1.98it/s] 79%|███████▉  | 37808/48008 [5:26:01<1:24:46,  2.01it/s] 79%|███████▉  | 37809/48008 [5:26:01<1:20:48,  2.10it/s] 79%|███████▉  | 37810/48008 [5:26:02<1:22:26,  2.06it/s] 79%|███████▉  | 37811/48008 [5:26:02<1:22:25,  2.06it/s] 79%|███████▉  | 37812/48008 [5:26:03<1:23:24,  2.04it/s] 79%|███████▉  | 37813/48008 [5:26:03<1:19:36,  2.13it/s] 79%|███████▉  | 37814/48008 [5:26:03<1:17:10,  2.20it/s] 79%|███████▉  | 37815/48008 [5:26:04<1:15:15,  2.26it/s] 79%|███████▉  | 37816/48008 [5:26:04<1:20:14,  2.12it/s] 79%|███████▉  | 37817/48008 [5:26:05<1:20:58,  2.10it/s] 79%|███████▉  | 37818/48008 [5:26:05<1:24:19,  2.01it/s] 79%|███████▉  | 37819/48008 [5:26:06<1:23:30,  2.03it/s] 79%|███████▉  | 37820/48008 [5:26:06<1:24:16,  2.01it/s] 79%|███████▉  | 37821/48008 [5:26:07<1:25:04,  2.00it/s] 79%|███████▉  | 37822/48008 [5:26:08<2:03:12,  1.38it/s] 79%|███████▉  | 37823/48008 [5:26:09<1:52:35,  1.51it/s] 79%|███████▉  | 37824/48008 [5:26:09<1:45:14,  1.61it/s] 79%|███████▉  | 37825/48008 [5:26:10<1:39:20,  1.71it/s] 79%|███████▉  | 37826/48008 [5:26:10<1:43:50,  1.63it/s] 79%|███████▉  | 37827/48008 [5:26:12<2:16:48,  1.24it/s] 79%|███████▉  | 37828/48008 [5:26:12<2:10:04,  1.30it/s] 79%|███████▉  | 37829/48008 [5:26:13<1:55:52,  1.46it/s] 79%|███████▉  | 37830/48008 [5:26:13<1:42:29,  1.66it/s] 79%|███████▉  | 37831/48008 [5:26:14<1:35:58,  1.77it/s] 79%|███████▉  | 37832/48008 [5:26:14<1:41:24,  1.67it/s] 79%|███████▉  | 37833/48008 [5:26:15<1:36:44,  1.75it/s] 79%|███████▉  | 37834/48008 [5:26:15<1:32:10,  1.84it/s] 79%|███████▉  | 37835/48008 [5:26:16<1:25:53,  1.97it/s] 79%|███████▉  | 37836/48008 [5:26:16<1:24:29,  2.01it/s] 79%|███████▉  | 37837/48008 [5:26:17<1:23:18,  2.03it/s] 79%|███████▉  | 37838/48008 [5:26:17<1:22:41,  2.05it/s] 79%|███████▉  | 37839/48008 [5:26:18<1:24:30,  2.01it/s] 79%|███████▉  | 37840/48008 [5:26:18<1:20:28,  2.11it/s] 79%|███████▉  | 37841/48008 [5:26:19<1:20:52,  2.10it/s] 79%|███████▉  | 37842/48008 [5:26:19<1:23:09,  2.04it/s] 79%|███████▉  | 37843/48008 [5:26:20<1:22:42,  2.05it/s] 79%|███████▉  | 37844/48008 [5:26:20<1:32:11,  1.84it/s] 79%|███████▉  | 37845/48008 [5:26:21<1:31:25,  1.85it/s] 79%|███████▉  | 37846/48008 [5:26:21<1:30:35,  1.87it/s] 79%|███████▉  | 37847/48008 [5:26:22<1:24:31,  2.00it/s] 79%|███████▉  | 37848/48008 [5:26:22<1:25:06,  1.99it/s] 79%|███████▉  | 37849/48008 [5:26:23<1:20:43,  2.10it/s] 79%|███████▉  | 37850/48008 [5:26:23<1:17:20,  2.19it/s]                                                         {'loss': 4.25, 'grad_norm': 0.11572302132844925, 'learning_rate': 4.232211298116981e-05, 'epoch': 0.79} 79%|███████▉  | 37850/48008 [5:26:23<1:17:20,  2.19it/s]
 79%|███████▉  | 37851/48008 [5:26:24<1:15:24,  2.25it/s] 79%|███████▉  | 37852/48008 [5:26:24<1:19:22,  2.13it/s] 79%|███████▉  | 37853/48008 [5:26:25<1:21:19,  2.08it/s] 79%|███████▉  | 37854/48008 [5:26:25<1:21:13,  2.08it/s] 79%|███████▉  | 37855/48008 [5:26:26<1:22:23,  2.05it/s] 79%|███████▉  | 37856/48008 [5:26:26<1:22:03,  2.06it/s] 79%|███████▉  | 37857/48008 [5:26:27<1:23:56,  2.02it/s] 79%|███████▉  | 37858/48008 [5:26:27<1:25:16,  1.98it/s] 79%|███████▉  | 37859/48008 [5:26:28<1:25:19,  1.98it/s] 79%|███████▉  | 37860/48008 [5:26:28<1:27:18,  1.94it/s] 79%|███████▉  | 37861/48008 [5:26:29<1:22:08,  2.06it/s] 79%|███████▉  | 37862/48008 [5:26:29<1:23:00,  2.04it/s] 79%|███████▉  | 37863/48008 [5:26:29<1:19:17,  2.13it/s] 79%|███████▉  | 37864/48008 [5:26:30<1:19:53,  2.12it/s] 79%|███████▉  | 37865/48008 [5:26:30<1:20:06,  2.11it/s] 79%|███████▉  | 37866/48008 [5:26:31<1:21:53,  2.06it/s] 79%|███████▉  | 37867/48008 [5:26:31<1:21:50,  2.07it/s] 79%|███████▉  | 37868/48008 [5:26:32<1:21:38,  2.07it/s] 79%|███████▉  | 37869/48008 [5:26:32<1:21:40,  2.07it/s] 79%|███████▉  | 37870/48008 [5:26:34<2:00:29,  1.40it/s] 79%|███████▉  | 37871/48008 [5:26:34<1:48:41,  1.55it/s] 79%|███████▉  | 37872/48008 [5:26:35<1:41:58,  1.66it/s] 79%|███████▉  | 37873/48008 [5:26:35<1:35:50,  1.76it/s] 79%|███████▉  | 37874/48008 [5:26:36<1:41:08,  1.67it/s] 79%|███████▉  | 37875/48008 [5:26:36<1:34:55,  1.78it/s] 79%|███████▉  | 37876/48008 [5:26:37<2:10:14,  1.30it/s] 79%|███████▉  | 37877/48008 [5:26:38<1:52:15,  1.50it/s] 79%|███████▉  | 37878/48008 [5:26:39<1:52:42,  1.50it/s] 79%|███████▉  | 37879/48008 [5:26:39<1:40:01,  1.69it/s] 79%|███████▉  | 37880/48008 [5:26:39<1:30:53,  1.86it/s] 79%|███████▉  | 37881/48008 [5:26:40<1:24:44,  1.99it/s] 79%|███████▉  | 37882/48008 [5:26:40<1:20:30,  2.10it/s] 79%|███████▉  | 37883/48008 [5:26:41<1:20:28,  2.10it/s] 79%|███████▉  | 37884/48008 [5:26:42<2:00:07,  1.40it/s] 79%|███████▉  | 37885/48008 [5:26:42<1:48:23,  1.56it/s] 79%|███████▉  | 37886/48008 [5:26:43<1:41:07,  1.67it/s] 79%|███████▉  | 37887/48008 [5:26:43<1:35:10,  1.77it/s] 79%|███████▉  | 37888/48008 [5:26:44<1:25:58,  1.96it/s] 79%|███████▉  | 37889/48008 [5:26:44<1:25:50,  1.96it/s] 79%|███████▉  | 37890/48008 [5:26:45<1:24:27,  2.00it/s] 79%|███████▉  | 37891/48008 [5:26:45<1:23:27,  2.02it/s] 79%|███████▉  | 37892/48008 [5:26:46<1:32:30,  1.82it/s] 79%|███████▉  | 37893/48008 [5:26:46<1:29:06,  1.89it/s] 79%|███████▉  | 37894/48008 [5:26:47<1:26:43,  1.94it/s] 79%|███████▉  | 37895/48008 [5:26:47<1:26:50,  1.94it/s] 79%|███████▉  | 37896/48008 [5:26:48<1:26:24,  1.95it/s] 79%|███████▉  | 37897/48008 [5:26:48<1:24:51,  1.99it/s] 79%|███████▉  | 37898/48008 [5:26:49<1:23:34,  2.02it/s] 79%|███████▉  | 37899/48008 [5:26:49<1:19:30,  2.12it/s] 79%|███████▉  | 37900/48008 [5:26:50<1:16:46,  2.19it/s]                                                         {'loss': 4.2763, 'grad_norm': 0.10071208328008652, 'learning_rate': 4.2113814364272626e-05, 'epoch': 0.79} 79%|███████▉  | 37900/48008 [5:26:50<1:16:46,  2.19it/s]
 79%|███████▉  | 37901/48008 [5:26:50<1:18:10,  2.15it/s] 79%|███████▉  | 37902/48008 [5:26:51<1:20:21,  2.10it/s] 79%|███████▉  | 37903/48008 [5:26:51<1:17:23,  2.18it/s] 79%|███████▉  | 37904/48008 [5:26:52<1:18:20,  2.15it/s] 79%|███████▉  | 37905/48008 [5:26:52<1:15:52,  2.22it/s] 79%|███████▉  | 37906/48008 [5:26:53<1:18:48,  2.14it/s] 79%|███████▉  | 37907/48008 [5:26:53<1:19:30,  2.12it/s] 79%|███████▉  | 37908/48008 [5:26:53<1:16:50,  2.19it/s] 79%|███████▉  | 37909/48008 [5:26:54<1:20:21,  2.09it/s] 79%|███████▉  | 37910/48008 [5:26:54<1:20:29,  2.09it/s] 79%|███████▉  | 37911/48008 [5:26:55<1:17:16,  2.18it/s] 79%|███████▉  | 37912/48008 [5:26:55<1:19:37,  2.11it/s] 79%|███████▉  | 37913/48008 [5:26:56<1:20:15,  2.10it/s] 79%|███████▉  | 37914/48008 [5:26:56<1:23:15,  2.02it/s] 79%|███████▉  | 37915/48008 [5:26:57<1:24:16,  2.00it/s] 79%|███████▉  | 37916/48008 [5:26:57<1:23:18,  2.02it/s] 79%|███████▉  | 37917/48008 [5:26:58<1:22:39,  2.03it/s] 79%|███████▉  | 37918/48008 [5:26:58<1:23:01,  2.03it/s] 79%|███████▉  | 37919/48008 [5:26:59<1:22:07,  2.05it/s] 79%|███████▉  | 37920/48008 [5:27:00<1:31:16,  1.84it/s] 79%|███████▉  | 37921/48008 [5:27:00<1:28:02,  1.91it/s] 79%|███████▉  | 37922/48008 [5:27:00<1:26:00,  1.95it/s] 79%|███████▉  | 37923/48008 [5:27:01<1:24:32,  1.99it/s] 79%|███████▉  | 37924/48008 [5:27:02<1:43:07,  1.63it/s] 79%|███████▉  | 37925/48008 [5:27:02<1:37:30,  1.72it/s] 79%|███████▉  | 37926/48008 [5:27:03<1:29:25,  1.88it/s] 79%|███████▉  | 37927/48008 [5:27:03<1:23:41,  2.01it/s] 79%|███████▉  | 37928/48008 [5:27:04<1:25:46,  1.96it/s] 79%|███████▉  | 37929/48008 [5:27:04<1:24:05,  2.00it/s] 79%|███████▉  | 37930/48008 [5:27:05<1:22:51,  2.03it/s] 79%|███████▉  | 37931/48008 [5:27:05<1:22:30,  2.04it/s] 79%|███████▉  | 37932/48008 [5:27:06<1:25:10,  1.97it/s] 79%|███████▉  | 37933/48008 [5:27:06<1:23:53,  2.00it/s] 79%|███████▉  | 37934/48008 [5:27:07<1:25:36,  1.96it/s] 79%|███████▉  | 37935/48008 [5:27:07<1:24:03,  2.00it/s] 79%|███████▉  | 37936/48008 [5:27:08<1:26:18,  1.95it/s] 79%|███████▉  | 37937/48008 [5:27:08<1:24:39,  1.98it/s] 79%|███████▉  | 37938/48008 [5:27:09<1:23:44,  2.00it/s] 79%|███████▉  | 37939/48008 [5:27:09<1:19:43,  2.11it/s] 79%|███████▉  | 37940/48008 [5:27:10<1:21:20,  2.06it/s] 79%|███████▉  | 37941/48008 [5:27:10<1:21:05,  2.07it/s] 79%|███████▉  | 37942/48008 [5:27:11<1:17:58,  2.15it/s] 79%|███████▉  | 37943/48008 [5:27:11<1:18:51,  2.13it/s] 79%|███████▉  | 37944/48008 [5:27:12<1:22:29,  2.03it/s] 79%|███████▉  | 37945/48008 [5:27:12<1:24:55,  1.97it/s] 79%|███████▉  | 37946/48008 [5:27:13<1:24:51,  1.98it/s] 79%|███████▉  | 37947/48008 [5:27:13<1:33:40,  1.79it/s] 79%|███████▉  | 37948/48008 [5:27:14<1:29:56,  1.86it/s] 79%|███████▉  | 37949/48008 [5:27:14<1:28:59,  1.88it/s] 79%|███████▉  | 37950/48008 [5:27:15<1:26:37,  1.94it/s]                                                         {'loss': 4.2439, 'grad_norm': 0.09791998565196991, 'learning_rate': 4.190551574737544e-05, 'epoch': 0.79}
 79%|███████▉  | 37950/48008 [5:27:15<1:26:37,  1.94it/s] 79%|███████▉  | 37951/48008 [5:27:15<1:27:58,  1.91it/s] 79%|███████▉  | 37952/48008 [5:27:16<1:28:57,  1.88it/s] 79%|███████▉  | 37953/48008 [5:27:16<1:23:13,  2.01it/s] 79%|███████▉  | 37954/48008 [5:27:17<1:42:37,  1.63it/s] 79%|███████▉  | 37955/48008 [5:27:18<1:38:49,  1.70it/s] 79%|███████▉  | 37956/48008 [5:27:18<1:30:14,  1.86it/s] 79%|███████▉  | 37957/48008 [5:27:19<1:29:45,  1.87it/s] 79%|███████▉  | 37958/48008 [5:27:19<1:23:48,  2.00it/s] 79%|███████▉  | 37959/48008 [5:27:20<2:01:23,  1.38it/s] 79%|███████▉  | 37960/48008 [5:27:21<1:48:58,  1.54it/s] 79%|███████▉  | 37961/48008 [5:27:21<1:41:32,  1.65it/s] 79%|███████▉  | 37962/48008 [5:27:22<1:37:16,  1.72it/s] 79%|███████▉  | 37963/48008 [5:27:23<1:41:57,  1.64it/s] 79%|███████▉  | 37964/48008 [5:27:23<1:36:32,  1.73it/s] 79%|███████▉  | 37965/48008 [5:27:23<1:31:36,  1.83it/s] 79%|███████▉  | 37966/48008 [5:27:24<1:29:30,  1.87it/s] 79%|███████▉  | 37967/48008 [5:27:25<1:47:28,  1.56it/s] 79%|███████▉  | 37968/48008 [5:27:25<1:36:35,  1.73it/s] 79%|███████▉  | 37969/48008 [5:27:26<1:31:56,  1.82it/s] 79%|███████▉  | 37970/48008 [5:27:26<1:30:12,  1.85it/s] 79%|███████▉  | 37971/48008 [5:27:27<1:29:08,  1.88it/s] 79%|███████▉  | 37972/48008 [5:27:28<1:46:30,  1.57it/s] 79%|███████▉  | 37973/48008 [5:27:28<1:40:56,  1.66it/s] 79%|███████▉  | 37974/48008 [5:27:29<1:37:01,  1.72it/s] 79%|███████▉  | 37975/48008 [5:27:29<1:34:47,  1.76it/s] 79%|███████▉  | 37976/48008 [5:27:30<1:30:34,  1.85it/s] 79%|███████▉  | 37977/48008 [5:27:30<1:27:34,  1.91it/s] 79%|███████▉  | 37978/48008 [5:27:31<1:35:42,  1.75it/s] 79%|███████▉  | 37979/48008 [5:27:31<1:32:56,  1.80it/s] 79%|███████▉  | 37980/48008 [5:27:32<1:29:06,  1.88it/s] 79%|███████▉  | 37981/48008 [5:27:32<1:27:46,  1.90it/s] 79%|███████▉  | 37982/48008 [5:27:33<1:22:40,  2.02it/s] 79%|███████▉  | 37983/48008 [5:27:33<1:18:50,  2.12it/s] 79%|███████▉  | 37984/48008 [5:27:34<1:19:23,  2.10it/s] 79%|███████▉  | 37985/48008 [5:27:34<1:20:44,  2.07it/s] 79%|███████▉  | 37986/48008 [5:27:35<1:21:51,  2.04it/s] 79%|███████▉  | 37987/48008 [5:27:35<1:18:07,  2.14it/s] 79%|███████▉  | 37988/48008 [5:27:36<1:19:55,  2.09it/s] 79%|███████▉  | 37989/48008 [5:27:36<1:20:10,  2.08it/s] 79%|███████▉  | 37990/48008 [5:27:37<1:20:25,  2.08it/s] 79%|███████▉  | 37991/48008 [5:27:37<1:23:28,  2.00it/s] 79%|███████▉  | 37992/48008 [5:27:38<1:19:31,  2.10it/s] 79%|███████▉  | 37993/48008 [5:27:38<1:19:44,  2.09it/s] 79%|███████▉  | 37994/48008 [5:27:39<1:22:43,  2.02it/s] 79%|███████▉  | 37995/48008 [5:27:39<1:18:46,  2.12it/s] 79%|███████▉  | 37996/48008 [5:27:40<1:20:14,  2.08it/s] 79%|███████▉  | 37997/48008 [5:27:40<1:20:12,  2.08it/s] 79%|███████▉  | 37998/48008 [5:27:41<1:21:58,  2.04it/s] 79%|███████▉  | 37999/48008 [5:27:41<1:21:19,  2.05it/s] 79%|███████▉  | 38000/48008 [5:27:41<1:17:32,  2.15it/s]                                                         {'loss': 4.2458, 'grad_norm': 0.11044914275407791, 'learning_rate': 4.1697217130478254e-05, 'epoch': 0.79}
 79%|███████▉  | 38000/48008 [5:27:41<1:17:32,  2.15it/s] 79%|███████▉  | 38001/48008 [5:27:42<1:20:32,  2.07it/s] 79%|███████▉  | 38002/48008 [5:27:42<1:20:06,  2.08it/s] 79%|███████▉  | 38003/48008 [5:27:43<1:20:18,  2.08it/s] 79%|███████▉  | 38004/48008 [5:27:43<1:21:37,  2.04it/s] 79%|███████▉  | 38005/48008 [5:27:44<1:21:14,  2.05it/s] 79%|███████▉  | 38006/48008 [5:27:44<1:18:00,  2.14it/s] 79%|███████▉  | 38007/48008 [5:27:46<1:57:32,  1.42it/s] 79%|███████▉  | 38008/48008 [5:27:47<2:06:47,  1.31it/s] 79%|███████▉  | 38009/48008 [5:27:47<1:53:00,  1.47it/s] 79%|███████▉  | 38010/48008 [5:27:47<1:39:56,  1.67it/s] 79%|███████▉  | 38011/48008 [5:27:48<1:33:52,  1.77it/s] 79%|███████▉  | 38012/48008 [5:27:48<1:32:25,  1.80it/s] 79%|███████▉  | 38013/48008 [5:27:49<1:25:38,  1.95it/s] 79%|███████▉  | 38014/48008 [5:27:49<1:26:07,  1.93it/s] 79%|███████▉  | 38015/48008 [5:27:50<1:21:18,  2.05it/s] 79%|███████▉  | 38016/48008 [5:27:50<1:30:24,  1.84it/s] 79%|███████▉  | 38017/48008 [5:27:51<1:29:27,  1.86it/s] 79%|███████▉  | 38018/48008 [5:27:51<1:26:52,  1.92it/s] 79%|███████▉  | 38019/48008 [5:27:52<1:24:53,  1.96it/s] 79%|███████▉  | 38020/48008 [5:27:52<1:25:29,  1.95it/s] 79%|███████▉  | 38021/48008 [5:27:53<1:20:38,  2.06it/s] 79%|███████▉  | 38022/48008 [5:27:53<1:20:32,  2.07it/s] 79%|███████▉  | 38023/48008 [5:27:54<1:20:34,  2.07it/s] 79%|███████▉  | 38024/48008 [5:27:54<1:17:25,  2.15it/s] 79%|███████▉  | 38025/48008 [5:27:55<1:18:40,  2.11it/s] 79%|███████▉  | 38026/48008 [5:27:55<1:21:19,  2.05it/s] 79%|███████▉  | 38027/48008 [5:27:56<1:23:14,  2.00it/s] 79%|███████▉  | 38028/48008 [5:27:56<1:19:16,  2.10it/s] 79%|███████▉  | 38029/48008 [5:27:57<1:21:24,  2.04it/s] 79%|███████▉  | 38030/48008 [5:27:57<1:21:03,  2.05it/s] 79%|███████▉  | 38031/48008 [5:27:58<1:17:48,  2.14it/s] 79%|███████▉  | 38032/48008 [5:27:58<1:20:39,  2.06it/s] 79%|███████▉  | 38033/48008 [5:27:59<1:20:36,  2.06it/s] 79%|███████▉  | 38034/48008 [5:27:59<1:17:18,  2.15it/s] 79%|███████▉  | 38035/48008 [5:28:00<1:20:20,  2.07it/s] 79%|███████▉  | 38036/48008 [5:28:00<1:17:06,  2.16it/s] 79%|███████▉  | 38037/48008 [5:28:01<1:18:22,  2.12it/s] 79%|███████▉  | 38038/48008 [5:28:01<1:15:24,  2.20it/s] 79%|███████▉  | 38039/48008 [5:28:01<1:13:30,  2.26it/s] 79%|███████▉  | 38040/48008 [5:28:02<1:12:11,  2.30it/s] 79%|███████▉  | 38041/48008 [5:28:02<1:14:37,  2.23it/s] 79%|███████▉  | 38042/48008 [5:28:03<1:16:33,  2.17it/s] 79%|███████▉  | 38043/48008 [5:28:03<1:18:56,  2.10it/s] 79%|███████▉  | 38044/48008 [5:28:04<1:19:02,  2.10it/s] 79%|███████▉  | 38045/48008 [5:28:04<1:19:12,  2.10it/s] 79%|███████▉  | 38046/48008 [5:28:05<1:19:49,  2.08it/s] 79%|███████▉  | 38047/48008 [5:28:05<1:19:47,  2.08it/s] 79%|███████▉  | 38048/48008 [5:28:06<1:29:27,  1.86it/s] 79%|███████▉  | 38049/48008 [5:28:06<1:27:41,  1.89it/s] 79%|███████▉  | 38050/48008 [5:28:07<1:27:02,  1.91it/s]                                                         {'loss': 4.2677, 'grad_norm': 0.09228882193565369, 'learning_rate': 4.148891851358107e-05, 'epoch': 0.79} 79%|███████▉  | 38050/48008 [5:28:07<1:27:02,  1.91it/s]
 79%|███████▉  | 38051/48008 [5:28:07<1:26:16,  1.92it/s] 79%|███████▉  | 38052/48008 [5:28:08<1:24:35,  1.96it/s] 79%|███████▉  | 38053/48008 [5:28:09<2:01:28,  1.37it/s] 79%|███████▉  | 38054/48008 [5:28:10<1:51:08,  1.49it/s] 79%|███████▉  | 38055/48008 [5:28:10<1:41:26,  1.64it/s] 79%|███████▉  | 38056/48008 [5:28:11<1:36:31,  1.72it/s] 79%|███████▉  | 38057/48008 [5:28:11<1:33:39,  1.77it/s] 79%|███████▉  | 38058/48008 [5:28:12<1:29:36,  1.85it/s] 79%|███████▉  | 38059/48008 [5:28:12<1:23:28,  1.99it/s] 79%|███████▉  | 38060/48008 [5:28:13<1:23:39,  1.98it/s] 79%|███████▉  | 38061/48008 [5:28:13<1:22:33,  2.01it/s] 79%|███████▉  | 38062/48008 [5:28:13<1:18:18,  2.12it/s] 79%|███████▉  | 38063/48008 [5:28:14<1:15:39,  2.19it/s] 79%|███████▉  | 38064/48008 [5:28:14<1:18:59,  2.10it/s] 79%|███████▉  | 38065/48008 [5:28:15<1:16:03,  2.18it/s] 79%|███████▉  | 38066/48008 [5:28:15<1:17:16,  2.14it/s] 79%|███████▉  | 38067/48008 [5:28:16<1:17:49,  2.13it/s] 79%|███████▉  | 38068/48008 [5:28:16<1:18:32,  2.11it/s] 79%|███████▉  | 38069/48008 [5:28:17<1:20:06,  2.07it/s] 79%|███████▉  | 38070/48008 [5:28:17<1:16:53,  2.15it/s] 79%|███████▉  | 38071/48008 [5:28:18<1:18:10,  2.12it/s] 79%|███████▉  | 38072/48008 [5:28:18<1:18:37,  2.11it/s] 79%|███████▉  | 38073/48008 [5:28:19<1:15:44,  2.19it/s] 79%|███████▉  | 38074/48008 [5:28:19<1:13:38,  2.25it/s] 79%|███████▉  | 38075/48008 [5:28:19<1:16:51,  2.15it/s] 79%|███████▉  | 38076/48008 [5:28:20<1:17:58,  2.12it/s] 79%|███████▉  | 38077/48008 [5:28:21<1:20:21,  2.06it/s] 79%|███████▉  | 38078/48008 [5:28:21<1:23:10,  1.99it/s] 79%|███████▉  | 38079/48008 [5:28:22<1:23:13,  1.99it/s] 79%|███████▉  | 38080/48008 [5:28:22<1:22:13,  2.01it/s] 79%|███████▉  | 38081/48008 [5:28:23<1:21:34,  2.03it/s] 79%|███████▉  | 38082/48008 [5:28:23<1:22:03,  2.02it/s] 79%|███████▉  | 38083/48008 [5:28:23<1:21:08,  2.04it/s] 79%|███████▉  | 38084/48008 [5:28:24<1:22:35,  2.00it/s] 79%|███████▉  | 38085/48008 [5:28:25<1:23:24,  1.98it/s] 79%|███████▉  | 38086/48008 [5:28:25<1:24:30,  1.96it/s] 79%|███████▉  | 38087/48008 [5:28:26<1:24:17,  1.96it/s] 79%|███████▉  | 38088/48008 [5:28:26<1:22:51,  2.00it/s] 79%|███████▉  | 38089/48008 [5:28:27<1:23:50,  1.97it/s] 79%|███████▉  | 38090/48008 [5:28:27<1:22:57,  1.99it/s] 79%|███████▉  | 38091/48008 [5:28:28<1:23:39,  1.98it/s] 79%|███████▉  | 38092/48008 [5:28:28<1:22:29,  2.00it/s] 79%|███████▉  | 38093/48008 [5:28:29<1:24:31,  1.95it/s] 79%|███████▉  | 38094/48008 [5:28:29<1:19:53,  2.07it/s] 79%|███████▉  | 38095/48008 [5:28:30<1:21:55,  2.02it/s] 79%|███████▉  | 38096/48008 [5:28:30<1:22:07,  2.01it/s] 79%|███████▉  | 38097/48008 [5:28:30<1:18:02,  2.12it/s] 79%|███████▉  | 38098/48008 [5:28:31<1:19:50,  2.07it/s] 79%|███████▉  | 38099/48008 [5:28:31<1:19:57,  2.07it/s] 79%|███████▉  | 38100/48008 [5:28:32<1:21:10,  2.03it/s]                                                         {'loss': 4.263, 'grad_norm': 0.18021251261234283, 'learning_rate': 4.128061989668389e-05, 'epoch': 0.79}
 79%|███████▉  | 38100/48008 [5:28:32<1:21:10,  2.03it/s] 79%|███████▉  | 38101/48008 [5:28:32<1:20:34,  2.05it/s] 79%|███████▉  | 38102/48008 [5:28:33<1:20:17,  2.06it/s] 79%|███████▉  | 38103/48008 [5:28:33<1:21:15,  2.03it/s] 79%|███████▉  | 38104/48008 [5:28:34<1:21:41,  2.02it/s] 79%|███████▉  | 38105/48008 [5:28:34<1:21:12,  2.03it/s] 79%|███████▉  | 38106/48008 [5:28:35<1:20:47,  2.04it/s] 79%|███████▉  | 38107/48008 [5:28:35<1:20:15,  2.06it/s] 79%|███████▉  | 38108/48008 [5:28:36<1:20:55,  2.04it/s] 79%|███████▉  | 38109/48008 [5:28:36<1:20:34,  2.05it/s] 79%|███████▉  | 38110/48008 [5:28:37<1:20:21,  2.05it/s] 79%|███████▉  | 38111/48008 [5:28:37<1:20:17,  2.05it/s] 79%|███████▉  | 38112/48008 [5:28:38<1:22:24,  2.00it/s] 79%|███████▉  | 38113/48008 [5:28:38<1:22:42,  1.99it/s] 79%|███████▉  | 38114/48008 [5:28:39<1:23:34,  1.97it/s] 79%|███████▉  | 38115/48008 [5:28:39<1:22:21,  2.00it/s] 79%|███████▉  | 38116/48008 [5:28:40<1:21:31,  2.02it/s] 79%|███████▉  | 38117/48008 [5:28:40<1:16:14,  2.16it/s] 79%|███████▉  | 38118/48008 [5:28:41<1:17:28,  2.13it/s] 79%|███████▉  | 38119/48008 [5:28:41<1:17:50,  2.12it/s] 79%|███████▉  | 38120/48008 [5:28:42<1:18:17,  2.10it/s] 79%|███████▉  | 38121/48008 [5:28:42<1:18:32,  2.10it/s] 79%|███████▉  | 38122/48008 [5:28:43<1:19:07,  2.08it/s] 79%|███████▉  | 38123/48008 [5:28:43<1:19:06,  2.08it/s] 79%|███████▉  | 38124/48008 [5:28:44<1:28:33,  1.86it/s] 79%|███████▉  | 38125/48008 [5:28:44<1:26:01,  1.91it/s] 79%|███████▉  | 38126/48008 [5:28:45<1:24:05,  1.96it/s] 79%|███████▉  | 38127/48008 [5:28:45<1:23:33,  1.97it/s] 79%|███████▉  | 38128/48008 [5:28:46<1:19:12,  2.08it/s] 79%|███████▉  | 38129/48008 [5:28:46<1:19:26,  2.07it/s] 79%|███████▉  | 38130/48008 [5:28:47<1:20:48,  2.04it/s] 79%|███████▉  | 38131/48008 [5:28:47<1:20:20,  2.05it/s] 79%|███████▉  | 38132/48008 [5:28:48<1:19:47,  2.06it/s] 79%|███████▉  | 38133/48008 [5:28:48<1:21:25,  2.02it/s] 79%|███████▉  | 38134/48008 [5:28:49<1:17:40,  2.12it/s] 79%|███████▉  | 38135/48008 [5:28:49<1:18:21,  2.10it/s] 79%|███████▉  | 38136/48008 [5:28:50<1:18:31,  2.10it/s] 79%|███████▉  | 38137/48008 [5:28:50<1:18:36,  2.09it/s] 79%|███████▉  | 38138/48008 [5:28:51<1:19:50,  2.06it/s] 79%|███████▉  | 38139/48008 [5:28:51<1:19:58,  2.06it/s] 79%|███████▉  | 38140/48008 [5:28:52<1:21:07,  2.03it/s] 79%|███████▉  | 38141/48008 [5:28:52<1:22:45,  1.99it/s] 79%|███████▉  | 38142/48008 [5:28:53<1:23:27,  1.97it/s] 79%|███████▉  | 38143/48008 [5:28:53<1:18:54,  2.08it/s] 79%|███████▉  | 38144/48008 [5:28:53<1:19:04,  2.08it/s] 79%|███████▉  | 38145/48008 [5:28:54<1:19:54,  2.06it/s] 79%|███████▉  | 38146/48008 [5:28:54<1:20:51,  2.03it/s] 79%|███████▉  | 38147/48008 [5:28:55<1:20:20,  2.05it/s] 79%|███████▉  | 38148/48008 [5:28:55<1:16:34,  2.15it/s] 79%|███████▉  | 38149/48008 [5:28:56<1:18:32,  2.09it/s] 79%|███████▉  | 38150/48008 [5:28:56<1:20:43,  2.04it/s]                                                         {'loss': 4.2109, 'grad_norm': 0.10297264903783798, 'learning_rate': 4.10723212797867e-05, 'epoch': 0.79}
 79%|███████▉  | 38150/48008 [5:28:56<1:20:43,  2.04it/s] 79%|███████▉  | 38151/48008 [5:28:57<1:20:29,  2.04it/s] 79%|███████▉  | 38152/48008 [5:28:57<1:22:45,  1.98it/s] 79%|███████▉  | 38153/48008 [5:28:58<1:22:53,  1.98it/s] 79%|███████▉  | 38154/48008 [5:28:58<1:22:59,  1.98it/s] 79%|███████▉  | 38155/48008 [5:28:59<1:21:35,  2.01it/s] 79%|███████▉  | 38156/48008 [5:28:59<1:21:02,  2.03it/s] 79%|███████▉  | 38157/48008 [5:29:00<1:17:24,  2.12it/s] 79%|███████▉  | 38158/48008 [5:29:00<1:14:50,  2.19it/s] 79%|███████▉  | 38159/48008 [5:29:01<1:17:24,  2.12it/s] 79%|███████▉  | 38160/48008 [5:29:01<1:14:40,  2.20it/s] 79%|███████▉  | 38161/48008 [5:29:02<1:53:57,  1.44it/s] 79%|███████▉  | 38162/48008 [5:29:03<1:46:24,  1.54it/s] 79%|███████▉  | 38163/48008 [5:29:04<1:41:12,  1.62it/s] 79%|███████▉  | 38164/48008 [5:29:04<1:31:01,  1.80it/s] 79%|███████▉  | 38165/48008 [5:29:04<1:27:11,  1.88it/s] 79%|███████▉  | 38166/48008 [5:29:05<1:26:14,  1.90it/s] 80%|███████▉  | 38167/48008 [5:29:06<1:33:17,  1.76it/s] 80%|███████▉  | 38168/48008 [5:29:06<1:30:22,  1.81it/s] 80%|███████▉  | 38169/48008 [5:29:07<1:28:03,  1.86it/s] 80%|███████▉  | 38170/48008 [5:29:07<1:26:09,  1.90it/s] 80%|███████▉  | 38171/48008 [5:29:08<1:24:03,  1.95it/s] 80%|███████▉  | 38172/48008 [5:29:08<1:22:34,  1.99it/s] 80%|███████▉  | 38173/48008 [5:29:09<1:31:23,  1.79it/s] 80%|███████▉  | 38174/48008 [5:29:09<1:27:39,  1.87it/s] 80%|███████▉  | 38175/48008 [5:29:10<1:27:34,  1.87it/s] 80%|███████▉  | 38176/48008 [5:29:10<1:26:04,  1.90it/s] 80%|███████▉  | 38177/48008 [5:29:11<1:25:12,  1.92it/s] 80%|███████▉  | 38178/48008 [5:29:11<1:24:16,  1.94it/s] 80%|███████▉  | 38179/48008 [5:29:12<1:22:28,  1.99it/s] 80%|███████▉  | 38180/48008 [5:29:12<1:22:16,  1.99it/s] 80%|███████▉  | 38181/48008 [5:29:13<1:21:14,  2.02it/s] 80%|███████▉  | 38182/48008 [5:29:13<1:17:16,  2.12it/s] 80%|███████▉  | 38183/48008 [5:29:14<1:17:35,  2.11it/s] 80%|███████▉  | 38184/48008 [5:29:14<1:19:09,  2.07it/s] 80%|███████▉  | 38185/48008 [5:29:15<1:15:42,  2.16it/s] 80%|███████▉  | 38186/48008 [5:29:15<1:16:25,  2.14it/s] 80%|███████▉  | 38187/48008 [5:29:15<1:17:05,  2.12it/s] 80%|███████▉  | 38188/48008 [5:29:16<1:17:28,  2.11it/s] 80%|███████▉  | 38189/48008 [5:29:16<1:19:12,  2.07it/s] 80%|███████▉  | 38190/48008 [5:29:17<1:19:05,  2.07it/s] 80%|███████▉  | 38191/48008 [5:29:17<1:19:51,  2.05it/s] 80%|███████▉  | 38192/48008 [5:29:18<1:16:22,  2.14it/s] 80%|███████▉  | 38193/48008 [5:29:18<1:17:03,  2.12it/s] 80%|███████▉  | 38194/48008 [5:29:19<1:14:28,  2.20it/s] 80%|███████▉  | 38195/48008 [5:29:19<1:12:44,  2.25it/s] 80%|███████▉  | 38196/48008 [5:29:20<1:15:36,  2.16it/s] 80%|███████▉  | 38197/48008 [5:29:20<1:13:24,  2.23it/s] 80%|███████▉  | 38198/48008 [5:29:21<1:24:32,  1.93it/s] 80%|███████▉  | 38199/48008 [5:29:21<1:23:04,  1.97it/s] 80%|███████▉  | 38200/48008 [5:29:22<1:23:43,  1.95it/s]                                                         {'loss': 4.225, 'grad_norm': 0.25948140025138855, 'learning_rate': 4.086402266288952e-05, 'epoch': 0.8}
 80%|███████▉  | 38200/48008 [5:29:22<1:23:43,  1.95it/s] 80%|███████▉  | 38201/48008 [5:29:22<1:22:32,  1.98it/s] 80%|███████▉  | 38202/48008 [5:29:23<1:22:52,  1.97it/s] 80%|███████▉  | 38203/48008 [5:29:23<1:21:37,  2.00it/s] 80%|███████▉  | 38204/48008 [5:29:24<1:17:47,  2.10it/s] 80%|███████▉  | 38205/48008 [5:29:24<1:19:41,  2.05it/s] 80%|███████▉  | 38206/48008 [5:29:25<1:19:15,  2.06it/s] 80%|███████▉  | 38207/48008 [5:29:26<1:38:55,  1.65it/s] 80%|███████▉  | 38208/48008 [5:29:26<1:34:44,  1.72it/s] 80%|███████▉  | 38209/48008 [5:29:27<1:31:09,  1.79it/s] 80%|███████▉  | 38210/48008 [5:29:27<1:24:21,  1.94it/s] 80%|███████▉  | 38211/48008 [5:29:28<1:23:09,  1.96it/s] 80%|███████▉  | 38212/48008 [5:29:28<1:21:47,  2.00it/s] 80%|███████▉  | 38213/48008 [5:29:29<1:22:16,  1.98it/s] 80%|███████▉  | 38214/48008 [5:29:29<1:21:05,  2.01it/s] 80%|███████▉  | 38215/48008 [5:29:29<1:20:20,  2.03it/s] 80%|███████▉  | 38216/48008 [5:29:30<1:20:42,  2.02it/s] 80%|███████▉  | 38217/48008 [5:29:30<1:20:57,  2.02it/s] 80%|███████▉  | 38218/48008 [5:29:31<1:21:20,  2.01it/s] 80%|███████▉  | 38219/48008 [5:29:31<1:20:31,  2.03it/s] 80%|███████▉  | 38220/48008 [5:29:32<1:20:09,  2.03it/s] 80%|███████▉  | 38221/48008 [5:29:32<1:20:45,  2.02it/s] 80%|███████▉  | 38222/48008 [5:29:33<1:21:07,  2.01it/s] 80%|███████▉  | 38223/48008 [5:29:33<1:21:41,  2.00it/s] 80%|███████▉  | 38224/48008 [5:29:34<1:22:00,  1.99it/s] 80%|███████▉  | 38225/48008 [5:29:34<1:22:20,  1.98it/s] 80%|███████▉  | 38226/48008 [5:29:35<1:22:32,  1.98it/s] 80%|███████▉  | 38227/48008 [5:29:36<1:22:41,  1.97it/s] 80%|███████▉  | 38228/48008 [5:29:36<1:18:13,  2.08it/s] 80%|███████▉  | 38229/48008 [5:29:36<1:20:19,  2.03it/s] 80%|███████▉  | 38230/48008 [5:29:37<1:39:08,  1.64it/s] 80%|███████▉  | 38231/48008 [5:29:39<2:10:58,  1.24it/s] 80%|███████▉  | 38232/48008 [5:29:39<1:55:15,  1.41it/s] 80%|███████▉  | 38233/48008 [5:29:40<1:43:57,  1.57it/s] 80%|███████▉  | 38234/48008 [5:29:40<1:36:27,  1.69it/s] 80%|███████▉  | 38235/48008 [5:29:41<1:31:04,  1.79it/s] 80%|███████▉  | 38236/48008 [5:29:41<1:28:27,  1.84it/s] 80%|███████▉  | 38237/48008 [5:29:41<1:25:10,  1.91it/s] 80%|███████▉  | 38238/48008 [5:29:42<1:26:00,  1.89it/s] 80%|███████▉  | 38239/48008 [5:29:43<1:26:49,  1.88it/s] 80%|███████▉  | 38240/48008 [5:29:43<1:19:19,  2.05it/s] 80%|███████▉  | 38241/48008 [5:29:43<1:19:00,  2.06it/s] 80%|███████▉  | 38242/48008 [5:29:44<1:20:52,  2.01it/s] 80%|███████▉  | 38243/48008 [5:29:45<1:29:55,  1.81it/s] 80%|███████▉  | 38244/48008 [5:29:45<1:36:27,  1.69it/s] 80%|███████▉  | 38245/48008 [5:29:46<1:27:49,  1.85it/s] 80%|███████▉  | 38246/48008 [5:29:46<1:24:56,  1.92it/s] 80%|███████▉  | 38247/48008 [5:29:47<1:24:47,  1.92it/s] 80%|███████▉  | 38248/48008 [5:29:47<1:19:52,  2.04it/s] 80%|███████▉  | 38249/48008 [5:29:48<1:19:09,  2.05it/s] 80%|███████▉  | 38250/48008 [5:29:48<1:19:52,  2.04it/s]                                                         {'loss': 4.3014, 'grad_norm': 0.09437515586614609, 'learning_rate': 4.065572404599234e-05, 'epoch': 0.8}
 80%|███████▉  | 38250/48008 [5:29:48<1:19:52,  2.04it/s] 80%|███████▉  | 38251/48008 [5:29:49<1:19:42,  2.04it/s] 80%|███████▉  | 38252/48008 [5:29:49<1:19:13,  2.05it/s] 80%|███████▉  | 38253/48008 [5:29:50<1:20:54,  2.01it/s] 80%|███████▉  | 38254/48008 [5:29:51<1:39:24,  1.64it/s] 80%|███████▉  | 38255/48008 [5:29:51<1:30:05,  1.80it/s] 80%|███████▉  | 38256/48008 [5:29:51<1:26:29,  1.88it/s] 80%|███████▉  | 38257/48008 [5:29:52<1:26:44,  1.87it/s] 80%|███████▉  | 38258/48008 [5:29:52<1:20:53,  2.01it/s] 80%|███████▉  | 38259/48008 [5:29:53<1:21:13,  2.00it/s] 80%|███████▉  | 38260/48008 [5:29:54<1:29:58,  1.81it/s] 80%|███████▉  | 38261/48008 [5:29:54<1:23:28,  1.95it/s] 80%|███████▉  | 38262/48008 [5:29:54<1:22:04,  1.98it/s] 80%|███████▉  | 38263/48008 [5:29:55<1:22:41,  1.96it/s] 80%|███████▉  | 38264/48008 [5:29:55<1:21:28,  1.99it/s] 80%|███████▉  | 38265/48008 [5:29:56<1:21:25,  1.99it/s] 80%|███████▉  | 38266/48008 [5:29:56<1:20:31,  2.02it/s] 80%|███████▉  | 38267/48008 [5:29:57<1:21:21,  2.00it/s] 80%|███████▉  | 38268/48008 [5:29:57<1:20:32,  2.02it/s] 80%|███████▉  | 38269/48008 [5:29:58<1:19:52,  2.03it/s] 80%|███████▉  | 38270/48008 [5:29:58<1:20:27,  2.02it/s] 80%|███████▉  | 38271/48008 [5:30:00<1:57:45,  1.38it/s] 80%|███████▉  | 38272/48008 [5:30:00<1:45:55,  1.53it/s] 80%|███████▉  | 38273/48008 [5:30:01<1:40:24,  1.62it/s] 80%|███████▉  | 38274/48008 [5:30:01<1:36:54,  1.67it/s] 80%|███████▉  | 38275/48008 [5:30:02<1:28:11,  1.84it/s] 80%|███████▉  | 38276/48008 [5:30:02<1:26:09,  1.88it/s] 80%|███████▉  | 38277/48008 [5:30:03<1:24:49,  1.91it/s] 80%|███████▉  | 38278/48008 [5:30:03<1:19:26,  2.04it/s] 80%|███████▉  | 38279/48008 [5:30:04<1:19:11,  2.05it/s] 80%|███████▉  | 38280/48008 [5:30:04<1:19:07,  2.05it/s] 80%|███████▉  | 38281/48008 [5:30:05<1:20:03,  2.02it/s] 80%|███████▉  | 38282/48008 [5:30:05<1:20:56,  2.00it/s] 80%|███████▉  | 38283/48008 [5:30:06<1:22:01,  1.98it/s] 80%|███████▉  | 38284/48008 [5:30:06<1:22:37,  1.96it/s] 80%|███████▉  | 38285/48008 [5:30:07<1:23:16,  1.95it/s] 80%|███████▉  | 38286/48008 [5:30:07<1:23:38,  1.94it/s] 80%|███████▉  | 38287/48008 [5:30:08<1:22:48,  1.96it/s] 80%|███████▉  | 38288/48008 [5:30:08<1:21:03,  2.00it/s] 80%|███████▉  | 38289/48008 [5:30:09<1:16:51,  2.11it/s] 80%|███████▉  | 38290/48008 [5:30:09<1:19:24,  2.04it/s] 80%|███████▉  | 38291/48008 [5:30:09<1:15:36,  2.14it/s] 80%|███████▉  | 38292/48008 [5:30:10<1:16:29,  2.12it/s] 80%|███████▉  | 38293/48008 [5:30:10<1:16:56,  2.10it/s] 80%|███████▉  | 38294/48008 [5:30:11<1:36:10,  1.68it/s] 80%|███████▉  | 38295/48008 [5:30:12<1:27:40,  1.85it/s] 80%|███████▉  | 38296/48008 [5:30:12<1:24:59,  1.90it/s] 80%|███████▉  | 38297/48008 [5:30:13<1:19:35,  2.03it/s] 80%|███████▉  | 38298/48008 [5:30:14<1:38:03,  1.65it/s] 80%|███████▉  | 38299/48008 [5:30:14<1:33:58,  1.72it/s] 80%|███████▉  | 38300/48008 [5:30:15<1:29:10,  1.81it/s]                                                         {'loss': 4.2842, 'grad_norm': 0.09401275962591171, 'learning_rate': 4.044742542909515e-05, 'epoch': 0.8}
 80%|███████▉  | 38300/48008 [5:30:15<1:29:10,  1.81it/s] 80%|███████▉  | 38301/48008 [5:30:16<2:07:47,  1.27it/s] 80%|███████▉  | 38302/48008 [5:30:16<1:55:59,  1.39it/s] 80%|███████▉  | 38303/48008 [5:30:17<1:44:13,  1.55it/s] 80%|███████▉  | 38304/48008 [5:30:17<1:36:18,  1.68it/s] 80%|███████▉  | 38305/48008 [5:30:18<1:30:58,  1.78it/s] 80%|███████▉  | 38306/48008 [5:30:19<2:04:04,  1.30it/s] 80%|███████▉  | 38307/48008 [5:30:21<2:34:02,  1.05it/s] 80%|███████▉  | 38308/48008 [5:30:21<2:13:00,  1.22it/s] 80%|███████▉  | 38309/48008 [5:30:22<1:59:12,  1.36it/s] 80%|███████▉  | 38310/48008 [5:30:22<1:46:40,  1.52it/s] 80%|███████▉  | 38311/48008 [5:30:23<2:15:46,  1.19it/s] 80%|███████▉  | 38312/48008 [5:30:24<1:55:20,  1.40it/s] 80%|███████▉  | 38313/48008 [5:30:25<2:12:56,  1.22it/s] 80%|███████▉  | 38314/48008 [5:30:25<1:53:06,  1.43it/s] 80%|███████▉  | 38315/48008 [5:30:26<1:51:44,  1.45it/s] 80%|███████▉  | 38316/48008 [5:30:26<1:41:23,  1.59it/s] 80%|███████▉  | 38317/48008 [5:30:27<1:31:07,  1.77it/s] 80%|███████▉  | 38318/48008 [5:30:27<1:27:09,  1.85it/s] 80%|███████▉  | 38319/48008 [5:30:28<1:25:54,  1.88it/s] 80%|███████▉  | 38320/48008 [5:30:28<1:23:17,  1.94it/s] 80%|███████▉  | 38321/48008 [5:30:29<1:22:24,  1.96it/s] 80%|███████▉  | 38322/48008 [5:30:29<1:22:11,  1.96it/s] 80%|███████▉  | 38323/48008 [5:30:30<1:21:49,  1.97it/s] 80%|███████▉  | 38324/48008 [5:30:30<1:20:37,  2.00it/s] 80%|███████▉  | 38325/48008 [5:30:31<1:52:19,  1.44it/s] 80%|███████▉  | 38326/48008 [5:30:32<1:42:15,  1.58it/s] 80%|███████▉  | 38327/48008 [5:30:32<1:31:35,  1.76it/s] 80%|███████▉  | 38328/48008 [5:30:33<1:29:22,  1.81it/s] 80%|███████▉  | 38329/48008 [5:30:33<1:27:11,  1.85it/s] 80%|███████▉  | 38330/48008 [5:30:34<1:24:11,  1.92it/s] 80%|███████▉  | 38331/48008 [5:30:34<1:19:04,  2.04it/s] 80%|███████▉  | 38332/48008 [5:30:35<1:15:29,  2.14it/s] 80%|███████▉  | 38333/48008 [5:30:35<1:17:12,  2.09it/s] 80%|███████▉  | 38334/48008 [5:30:36<1:17:26,  2.08it/s] 80%|███████▉  | 38335/48008 [5:30:37<1:36:37,  1.67it/s] 80%|███████▉  | 38336/48008 [5:30:37<1:32:44,  1.74it/s] 80%|███████▉  | 38337/48008 [5:30:38<1:29:38,  1.80it/s] 80%|███████▉  | 38338/48008 [5:30:38<1:27:03,  1.85it/s] 80%|███████▉  | 38339/48008 [5:30:39<1:24:19,  1.91it/s] 80%|███████▉  | 38340/48008 [5:30:40<1:59:37,  1.35it/s] 80%|███████▉  | 38341/48008 [5:30:40<1:43:51,  1.55it/s] 80%|███████▉  | 38342/48008 [5:30:41<1:45:17,  1.53it/s] 80%|███████▉  | 38343/48008 [5:30:41<1:36:50,  1.66it/s] 80%|███████▉  | 38344/48008 [5:30:42<1:31:13,  1.77it/s] 80%|███████▉  | 38345/48008 [5:30:42<1:28:50,  1.81it/s] 80%|███████▉  | 38346/48008 [5:30:43<1:25:39,  1.88it/s] 80%|███████▉  | 38347/48008 [5:30:43<1:25:00,  1.89it/s] 80%|███████▉  | 38348/48008 [5:30:44<1:24:45,  1.90it/s] 80%|███████▉  | 38349/48008 [5:30:44<1:22:51,  1.94it/s] 80%|███████▉  | 38350/48008 [5:30:45<1:22:03,  1.96it/s]                                                         {'loss': 4.2533, 'grad_norm': 0.10071171820163727, 'learning_rate': 4.023912681219797e-05, 'epoch': 0.8} 80%|███████▉  | 38350/48008 [5:30:45<1:22:03,  1.96it/s]
 80%|███████▉  | 38351/48008 [5:30:45<1:20:45,  1.99it/s] 80%|███████▉  | 38352/48008 [5:30:46<1:19:34,  2.02it/s] 80%|███████▉  | 38353/48008 [5:30:46<1:18:53,  2.04it/s] 80%|███████▉  | 38354/48008 [5:30:47<1:18:14,  2.06it/s] 80%|███████▉  | 38355/48008 [5:30:47<1:18:10,  2.06it/s] 80%|███████▉  | 38356/48008 [5:30:48<1:18:56,  2.04it/s] 80%|███████▉  | 38357/48008 [5:30:48<1:15:23,  2.13it/s] 80%|███████▉  | 38358/48008 [5:30:49<1:53:15,  1.42it/s] 80%|███████▉  | 38359/48008 [5:30:51<2:20:30,  1.14it/s] 80%|███████▉  | 38360/48008 [5:30:51<2:02:46,  1.31it/s] 80%|███████▉  | 38361/48008 [5:30:52<1:48:54,  1.48it/s] 80%|███████▉  | 38362/48008 [5:30:52<1:40:30,  1.60it/s] 80%|███████▉  | 38363/48008 [5:30:53<1:30:28,  1.78it/s] 80%|███████▉  | 38364/48008 [5:30:53<1:27:51,  1.83it/s] 80%|███████▉  | 38365/48008 [5:30:54<1:24:37,  1.90it/s] 80%|███████▉  | 38366/48008 [5:30:54<1:22:25,  1.95it/s] 80%|███████▉  | 38367/48008 [5:30:55<1:22:05,  1.96it/s] 80%|███████▉  | 38368/48008 [5:30:55<1:21:37,  1.97it/s] 80%|███████▉  | 38369/48008 [5:30:56<1:57:45,  1.36it/s] 80%|███████▉  | 38370/48008 [5:30:57<2:04:44,  1.29it/s] 80%|███████▉  | 38371/48008 [5:30:58<1:51:23,  1.44it/s] 80%|███████▉  | 38372/48008 [5:30:58<1:38:00,  1.64it/s] 80%|███████▉  | 38373/48008 [5:30:59<1:31:46,  1.75it/s] 80%|███████▉  | 38374/48008 [5:30:59<1:27:13,  1.84it/s] 80%|███████▉  | 38375/48008 [5:31:00<1:24:03,  1.91it/s] 80%|███████▉  | 38376/48008 [5:31:00<1:22:02,  1.96it/s] 80%|███████▉  | 38377/48008 [5:31:01<1:23:21,  1.93it/s] 80%|███████▉  | 38378/48008 [5:31:01<1:21:16,  1.97it/s] 80%|███████▉  | 38379/48008 [5:31:02<1:21:03,  1.98it/s] 80%|███████▉  | 38380/48008 [5:31:02<1:19:38,  2.01it/s] 80%|███████▉  | 38381/48008 [5:31:03<1:18:36,  2.04it/s] 80%|███████▉  | 38382/48008 [5:31:03<1:21:06,  1.98it/s] 80%|███████▉  | 38383/48008 [5:31:04<1:19:45,  2.01it/s] 80%|███████▉  | 38384/48008 [5:31:04<1:15:51,  2.11it/s] 80%|███████▉  | 38385/48008 [5:31:04<1:13:09,  2.19it/s] 80%|███████▉  | 38386/48008 [5:31:05<1:15:42,  2.12it/s] 80%|███████▉  | 38387/48008 [5:31:06<1:53:20,  1.41it/s] 80%|███████▉  | 38388/48008 [5:31:07<1:39:24,  1.61it/s] 80%|███████▉  | 38389/48008 [5:31:07<1:33:54,  1.71it/s] 80%|███████▉  | 38390/48008 [5:31:08<1:31:22,  1.75it/s] 80%|███████▉  | 38391/48008 [5:31:08<1:28:26,  1.81it/s] 80%|███████▉  | 38392/48008 [5:31:09<1:26:13,  1.86it/s] 80%|███████▉  | 38393/48008 [5:31:09<1:20:20,  1.99it/s] 80%|███████▉  | 38394/48008 [5:31:10<1:19:19,  2.02it/s] 80%|███████▉  | 38395/48008 [5:31:10<1:19:53,  2.01it/s] 80%|███████▉  | 38396/48008 [5:31:10<1:19:13,  2.02it/s] 80%|███████▉  | 38397/48008 [5:31:11<1:20:07,  2.00it/s] 80%|███████▉  | 38398/48008 [5:31:12<1:20:22,  1.99it/s] 80%|███████▉  | 38399/48008 [5:31:12<1:19:30,  2.01it/s] 80%|███████▉  | 38400/48008 [5:31:13<1:19:57,  2.00it/s]                                                         {'loss': 4.2783, 'grad_norm': 0.10308316349983215, 'learning_rate': 4.0030828195300786e-05, 'epoch': 0.8}
 80%|███████▉  | 38400/48008 [5:31:13<1:19:57,  2.00it/s] 80%|███████▉  | 38401/48008 [5:31:13<1:38:08,  1.63it/s] 80%|███████▉  | 38402/48008 [5:31:14<1:31:57,  1.74it/s] 80%|███████▉  | 38403/48008 [5:31:14<1:27:13,  1.84it/s] 80%|███████▉  | 38404/48008 [5:31:15<1:25:58,  1.86it/s] 80%|███████▉  | 38405/48008 [5:31:15<1:24:29,  1.89it/s] 80%|███████▉  | 38406/48008 [5:31:16<1:19:09,  2.02it/s] 80%|████████  | 38407/48008 [5:31:16<1:27:56,  1.82it/s] 80%|████████  | 38408/48008 [5:31:17<1:24:42,  1.89it/s] 80%|████████  | 38409/48008 [5:31:17<1:22:16,  1.94it/s] 80%|████████  | 38410/48008 [5:31:18<1:17:36,  2.06it/s] 80%|████████  | 38411/48008 [5:31:18<1:19:09,  2.02it/s] 80%|████████  | 38412/48008 [5:31:19<1:19:24,  2.01it/s] 80%|████████  | 38413/48008 [5:31:19<1:18:33,  2.04it/s] 80%|████████  | 38414/48008 [5:31:20<1:18:07,  2.05it/s] 80%|████████  | 38415/48008 [5:31:20<1:17:46,  2.06it/s] 80%|████████  | 38416/48008 [5:31:21<1:20:08,  1.99it/s] 80%|████████  | 38417/48008 [5:31:22<1:56:07,  1.38it/s] 80%|████████  | 38418/48008 [5:31:23<1:41:14,  1.58it/s] 80%|████████  | 38419/48008 [5:31:23<1:43:13,  1.55it/s] 80%|████████  | 38420/48008 [5:31:24<1:35:21,  1.68it/s] 80%|████████  | 38421/48008 [5:31:24<1:29:41,  1.78it/s] 80%|████████  | 38422/48008 [5:31:25<1:27:02,  1.84it/s] 80%|████████  | 38423/48008 [5:31:25<1:20:44,  1.98it/s] 80%|████████  | 38424/48008 [5:31:26<1:19:27,  2.01it/s] 80%|████████  | 38425/48008 [5:31:26<1:19:30,  2.01it/s] 80%|████████  | 38426/48008 [5:31:27<1:18:44,  2.03it/s] 80%|████████  | 38427/48008 [5:31:27<1:18:00,  2.05it/s] 80%|████████  | 38428/48008 [5:31:27<1:14:32,  2.14it/s] 80%|████████  | 38429/48008 [5:31:28<1:17:50,  2.05it/s] 80%|████████  | 38430/48008 [5:31:28<1:12:42,  2.20it/s] 80%|████████  | 38431/48008 [5:31:29<1:16:42,  2.08it/s] 80%|████████  | 38432/48008 [5:31:29<1:17:35,  2.06it/s] 80%|████████  | 38433/48008 [5:31:30<1:17:22,  2.06it/s] 80%|████████  | 38434/48008 [5:31:30<1:17:11,  2.07it/s] 80%|████████  | 38435/48008 [5:31:31<1:16:59,  2.07it/s] 80%|████████  | 38436/48008 [5:31:31<1:13:51,  2.16it/s] 80%|████████  | 38437/48008 [5:31:32<1:17:23,  2.06it/s] 80%|████████  | 38438/48008 [5:31:32<1:17:21,  2.06it/s] 80%|████████  | 38439/48008 [5:31:33<1:19:13,  2.01it/s] 80%|████████  | 38440/48008 [5:31:33<1:19:29,  2.01it/s] 80%|████████  | 38441/48008 [5:31:34<1:19:58,  1.99it/s] 80%|████████  | 38442/48008 [5:31:34<1:21:57,  1.95it/s] 80%|████████  | 38443/48008 [5:31:35<1:20:09,  1.99it/s] 80%|████████  | 38444/48008 [5:31:35<1:19:16,  2.01it/s] 80%|████████  | 38445/48008 [5:31:36<1:18:19,  2.04it/s] 80%|████████  | 38446/48008 [5:31:36<1:17:56,  2.04it/s] 80%|████████  | 38447/48008 [5:31:37<1:17:30,  2.06it/s] 80%|████████  | 38448/48008 [5:31:37<1:14:09,  2.15it/s] 80%|████████  | 38449/48008 [5:31:38<1:14:51,  2.13it/s] 80%|████████  | 38450/48008 [5:31:38<1:15:07,  2.12it/s]                                                         {'loss': 4.2519, 'grad_norm': 0.10225789248943329, 'learning_rate': 3.9822529578403603e-05, 'epoch': 0.8}
 80%|████████  | 38450/48008 [5:31:38<1:15:07,  2.12it/s] 80%|████████  | 38451/48008 [5:31:39<1:12:27,  2.20it/s] 80%|████████  | 38452/48008 [5:31:39<1:10:38,  2.25it/s] 80%|████████  | 38453/48008 [5:31:39<1:14:19,  2.14it/s] 80%|████████  | 38454/48008 [5:31:40<1:15:01,  2.12it/s] 80%|████████  | 38455/48008 [5:31:40<1:15:32,  2.11it/s] 80%|████████  | 38456/48008 [5:31:41<1:15:58,  2.10it/s] 80%|████████  | 38457/48008 [5:31:41<1:15:58,  2.10it/s] 80%|████████  | 38458/48008 [5:31:42<1:25:26,  1.86it/s] 80%|████████  | 38459/48008 [5:31:43<1:22:40,  1.92it/s] 80%|████████  | 38460/48008 [5:31:43<1:17:35,  2.05it/s] 80%|████████  | 38461/48008 [5:31:43<1:17:06,  2.06it/s] 80%|████████  | 38462/48008 [5:31:44<1:13:48,  2.16it/s] 80%|████████  | 38463/48008 [5:31:44<1:11:20,  2.23it/s] 80%|████████  | 38464/48008 [5:31:45<1:12:55,  2.18it/s] 80%|████████  | 38465/48008 [5:31:45<1:13:58,  2.15it/s] 80%|████████  | 38466/48008 [5:31:46<1:17:29,  2.05it/s] 80%|████████  | 38467/48008 [5:31:46<1:17:06,  2.06it/s] 80%|████████  | 38468/48008 [5:31:47<1:17:54,  2.04it/s] 80%|████████  | 38469/48008 [5:31:47<1:17:24,  2.05it/s] 80%|████████  | 38470/48008 [5:31:48<1:17:56,  2.04it/s] 80%|████████  | 38471/48008 [5:31:48<1:14:18,  2.14it/s] 80%|████████  | 38472/48008 [5:31:49<1:11:45,  2.21it/s] 80%|████████  | 38473/48008 [5:31:49<1:22:25,  1.93it/s] 80%|████████  | 38474/48008 [5:31:50<1:22:33,  1.92it/s] 80%|████████  | 38475/48008 [5:31:50<1:20:49,  1.97it/s] 80%|████████  | 38476/48008 [5:31:51<1:20:27,  1.97it/s] 80%|████████  | 38477/48008 [5:31:51<1:16:03,  2.09it/s] 80%|████████  | 38478/48008 [5:31:52<1:16:12,  2.08it/s] 80%|████████  | 38479/48008 [5:31:52<1:25:41,  1.85it/s] 80%|████████  | 38480/48008 [5:31:53<1:23:46,  1.90it/s] 80%|████████  | 38481/48008 [5:31:53<1:21:29,  1.95it/s] 80%|████████  | 38482/48008 [5:31:54<1:20:02,  1.98it/s] 80%|████████  | 38483/48008 [5:31:54<1:27:58,  1.80it/s] 80%|████████  | 38484/48008 [5:31:55<1:24:35,  1.88it/s] 80%|████████  | 38485/48008 [5:31:55<1:23:20,  1.90it/s] 80%|████████  | 38486/48008 [5:31:56<1:18:08,  2.03it/s] 80%|████████  | 38487/48008 [5:31:56<1:14:33,  2.13it/s] 80%|████████  | 38488/48008 [5:31:57<1:17:43,  2.04it/s] 80%|████████  | 38489/48008 [5:31:57<1:20:04,  1.98it/s] 80%|████████  | 38490/48008 [5:31:58<1:27:58,  1.80it/s] 80%|████████  | 38491/48008 [5:31:58<1:21:21,  1.95it/s] 80%|████████  | 38492/48008 [5:31:59<1:16:44,  2.07it/s] 80%|████████  | 38493/48008 [5:31:59<1:19:21,  2.00it/s] 80%|████████  | 38494/48008 [5:32:00<1:18:30,  2.02it/s] 80%|████████  | 38495/48008 [5:32:00<1:19:32,  1.99it/s] 80%|████████  | 38496/48008 [5:32:01<1:19:34,  1.99it/s] 80%|████████  | 38497/48008 [5:32:01<1:13:50,  2.15it/s] 80%|████████  | 38498/48008 [5:32:02<1:15:53,  2.09it/s] 80%|████████  | 38499/48008 [5:32:02<1:16:11,  2.08it/s] 80%|████████  | 38500/48008 [5:32:03<1:17:09,  2.05it/s]                                                          80%|████████  | 38500/48008 [5:32:03<1:17:09,  2.05it/s]{'loss': 4.2047, 'grad_norm': 0.11268223077058792, 'learning_rate': 3.9614230961506414e-05, 'epoch': 0.8}
 80%|████████  | 38501/48008 [5:32:03<1:16:42,  2.07it/s] 80%|████████  | 38502/48008 [5:32:04<1:17:28,  2.05it/s] 80%|████████  | 38503/48008 [5:32:04<1:19:46,  1.99it/s] 80%|████████  | 38504/48008 [5:32:05<1:19:43,  1.99it/s] 80%|████████  | 38505/48008 [5:32:05<1:18:33,  2.02it/s] 80%|████████  | 38506/48008 [5:32:06<1:17:49,  2.04it/s] 80%|████████  | 38507/48008 [5:32:06<1:18:16,  2.02it/s] 80%|████████  | 38508/48008 [5:32:07<1:17:35,  2.04it/s] 80%|████████  | 38509/48008 [5:32:07<1:17:12,  2.05it/s] 80%|████████  | 38510/48008 [5:32:08<1:19:48,  1.98it/s] 80%|████████  | 38511/48008 [5:32:08<1:20:20,  1.97it/s] 80%|████████  | 38512/48008 [5:32:09<1:20:59,  1.95it/s] 80%|████████  | 38513/48008 [5:32:09<1:21:41,  1.94it/s] 80%|████████  | 38514/48008 [5:32:10<1:21:04,  1.95it/s] 80%|████████  | 38515/48008 [5:32:10<1:20:24,  1.97it/s] 80%|████████  | 38516/48008 [5:32:11<1:21:48,  1.93it/s] 80%|████████  | 38517/48008 [5:32:11<1:21:56,  1.93it/s] 80%|████████  | 38518/48008 [5:32:12<1:17:12,  2.05it/s] 80%|████████  | 38519/48008 [5:32:12<1:16:39,  2.06it/s] 80%|████████  | 38520/48008 [5:32:13<1:13:20,  2.16it/s] 80%|████████  | 38521/48008 [5:32:13<1:13:52,  2.14it/s] 80%|████████  | 38522/48008 [5:32:14<1:14:40,  2.12it/s] 80%|████████  | 38523/48008 [5:32:14<1:16:58,  2.05it/s] 80%|████████  | 38524/48008 [5:32:15<1:17:48,  2.03it/s] 80%|████████  | 38525/48008 [5:32:15<1:17:02,  2.05it/s] 80%|████████  | 38526/48008 [5:32:16<1:16:39,  2.06it/s] 80%|████████  | 38527/48008 [5:32:16<1:17:41,  2.03it/s] 80%|████████  | 38528/48008 [5:32:17<1:17:02,  2.05it/s] 80%|████████  | 38529/48008 [5:32:17<1:16:39,  2.06it/s] 80%|████████  | 38530/48008 [5:32:18<1:25:47,  1.84it/s] 80%|████████  | 38531/48008 [5:32:18<1:23:48,  1.88it/s] 80%|████████  | 38532/48008 [5:32:19<1:24:16,  1.87it/s] 80%|████████  | 38533/48008 [5:32:19<1:22:51,  1.91it/s] 80%|████████  | 38534/48008 [5:32:20<1:17:45,  2.03it/s] 80%|████████  | 38535/48008 [5:32:20<1:17:13,  2.04it/s] 80%|████████  | 38536/48008 [5:32:21<1:17:44,  2.03it/s] 80%|████████  | 38537/48008 [5:32:21<1:18:16,  2.02it/s] 80%|████████  | 38538/48008 [5:32:22<1:17:42,  2.03it/s] 80%|████████  | 38539/48008 [5:32:22<1:14:11,  2.13it/s] 80%|████████  | 38540/48008 [5:32:23<1:11:36,  2.20it/s] 80%|████████  | 38541/48008 [5:32:23<1:13:45,  2.14it/s] 80%|████████  | 38542/48008 [5:32:24<1:14:25,  2.12it/s] 80%|████████  | 38543/48008 [5:32:24<1:15:41,  2.08it/s] 80%|████████  | 38544/48008 [5:32:25<1:16:53,  2.05it/s] 80%|████████  | 38545/48008 [5:32:25<1:17:28,  2.04it/s] 80%|████████  | 38546/48008 [5:32:26<1:18:54,  2.00it/s] 80%|████████  | 38547/48008 [5:32:26<1:18:06,  2.02it/s] 80%|████████  | 38548/48008 [5:32:27<1:18:26,  2.01it/s] 80%|████████  | 38549/48008 [5:32:27<1:26:45,  1.82it/s] 80%|████████  | 38550/48008 [5:32:28<1:24:42,  1.86it/s]                                                         {'loss': 4.2116, 'grad_norm': 0.11696919053792953, 'learning_rate': 3.940593234460923e-05, 'epoch': 0.8}
 80%|████████  | 38550/48008 [5:32:28<1:24:42,  1.86it/s] 80%|████████  | 38551/48008 [5:32:28<1:21:51,  1.93it/s] 80%|████████  | 38552/48008 [5:32:29<1:20:07,  1.97it/s] 80%|████████  | 38553/48008 [5:32:29<1:18:34,  2.01it/s] 80%|████████  | 38554/48008 [5:32:30<1:18:53,  2.00it/s] 80%|████████  | 38555/48008 [5:32:30<1:18:02,  2.02it/s] 80%|████████  | 38556/48008 [5:32:31<1:17:21,  2.04it/s] 80%|████████  | 38557/48008 [5:32:31<1:17:57,  2.02it/s] 80%|████████  | 38558/48008 [5:32:32<1:17:19,  2.04it/s] 80%|████████  | 38559/48008 [5:32:32<1:18:01,  2.02it/s] 80%|████████  | 38560/48008 [5:32:33<1:26:41,  1.82it/s] 80%|████████  | 38561/48008 [5:32:33<1:23:34,  1.88it/s] 80%|████████  | 38562/48008 [5:32:34<1:21:16,  1.94it/s] 80%|████████  | 38563/48008 [5:32:34<1:19:39,  1.98it/s] 80%|████████  | 38564/48008 [5:32:35<1:20:28,  1.96it/s] 80%|████████  | 38565/48008 [5:32:35<1:18:59,  1.99it/s] 80%|████████  | 38566/48008 [5:32:36<1:18:58,  1.99it/s] 80%|████████  | 38567/48008 [5:32:36<1:18:58,  1.99it/s] 80%|████████  | 38568/48008 [5:32:37<1:14:58,  2.10it/s] 80%|████████  | 38569/48008 [5:32:37<1:16:20,  2.06it/s] 80%|████████  | 38570/48008 [5:32:38<1:16:12,  2.06it/s] 80%|████████  | 38571/48008 [5:32:38<1:16:09,  2.07it/s] 80%|████████  | 38572/48008 [5:32:39<1:11:12,  2.21it/s] 80%|████████  | 38573/48008 [5:32:39<1:13:32,  2.14it/s] 80%|████████  | 38574/48008 [5:32:40<1:15:28,  2.08it/s] 80%|████████  | 38575/48008 [5:32:40<1:16:26,  2.06it/s] 80%|████████  | 38576/48008 [5:32:41<1:34:43,  1.66it/s] 80%|████████  | 38577/48008 [5:32:41<1:29:03,  1.77it/s] 80%|████████  | 38578/48008 [5:32:42<1:21:56,  1.92it/s] 80%|████████  | 38579/48008 [5:32:42<1:21:06,  1.94it/s] 80%|████████  | 38580/48008 [5:32:43<1:20:38,  1.95it/s] 80%|████████  | 38581/48008 [5:32:43<1:22:02,  1.92it/s] 80%|████████  | 38582/48008 [5:32:44<1:20:54,  1.94it/s] 80%|████████  | 38583/48008 [5:32:44<1:20:58,  1.94it/s] 80%|████████  | 38584/48008 [5:32:45<1:16:08,  2.06it/s] 80%|████████  | 38585/48008 [5:32:45<1:17:40,  2.02it/s] 80%|████████  | 38586/48008 [5:32:46<1:18:13,  2.01it/s] 80%|████████  | 38587/48008 [5:32:46<1:20:15,  1.96it/s] 80%|████████  | 38588/48008 [5:32:47<1:20:40,  1.95it/s] 80%|████████  | 38589/48008 [5:32:47<1:20:01,  1.96it/s] 80%|████████  | 38590/48008 [5:32:48<1:27:47,  1.79it/s] 80%|████████  | 38591/48008 [5:32:49<1:25:59,  1.83it/s] 80%|████████  | 38592/48008 [5:32:49<1:19:47,  1.97it/s] 80%|████████  | 38593/48008 [5:32:49<1:20:06,  1.96it/s] 80%|████████  | 38594/48008 [5:32:50<1:18:48,  1.99it/s] 80%|████████  | 38595/48008 [5:32:51<1:53:51,  1.38it/s] 80%|████████  | 38596/48008 [5:32:52<1:42:19,  1.53it/s] 80%|████████  | 38597/48008 [5:32:52<1:34:14,  1.66it/s] 80%|████████  | 38598/48008 [5:32:53<1:25:29,  1.83it/s] 80%|████████  | 38599/48008 [5:32:53<1:24:23,  1.86it/s] 80%|████████  | 38600/48008 [5:32:54<1:24:34,  1.85it/s]                                                         {'loss': 4.2615, 'grad_norm': 0.09947524964809418, 'learning_rate': 3.919763372771205e-05, 'epoch': 0.8} 80%|████████  | 38600/48008 [5:32:54<1:24:34,  1.85it/s]
 80%|████████  | 38601/48008 [5:32:54<1:21:45,  1.92it/s] 80%|████████  | 38602/48008 [5:32:55<1:19:36,  1.97it/s] 80%|████████  | 38603/48008 [5:32:55<1:18:13,  2.00it/s] 80%|████████  | 38604/48008 [5:32:56<1:14:21,  2.11it/s] 80%|████████  | 38605/48008 [5:32:56<1:15:51,  2.07it/s] 80%|████████  | 38606/48008 [5:32:57<1:16:50,  2.04it/s] 80%|████████  | 38607/48008 [5:32:57<1:17:27,  2.02it/s] 80%|████████  | 38608/48008 [5:32:57<1:16:38,  2.04it/s] 80%|████████  | 38609/48008 [5:32:58<1:18:59,  1.98it/s] 80%|████████  | 38610/48008 [5:32:59<1:19:03,  1.98it/s] 80%|████████  | 38611/48008 [5:32:59<1:19:31,  1.97it/s] 80%|████████  | 38612/48008 [5:32:59<1:14:57,  2.09it/s] 80%|████████  | 38613/48008 [5:33:00<1:15:56,  2.06it/s] 80%|████████  | 38614/48008 [5:33:00<1:12:37,  2.16it/s] 80%|████████  | 38615/48008 [5:33:01<1:13:20,  2.13it/s] 80%|████████  | 38616/48008 [5:33:01<1:13:52,  2.12it/s] 80%|████████  | 38617/48008 [5:33:02<1:11:15,  2.20it/s] 80%|████████  | 38618/48008 [5:33:02<1:15:13,  2.08it/s] 80%|████████  | 38619/48008 [5:33:03<1:15:15,  2.08it/s] 80%|████████  | 38620/48008 [5:33:03<1:12:12,  2.17it/s] 80%|████████  | 38621/48008 [5:33:04<1:16:00,  2.06it/s] 80%|████████  | 38622/48008 [5:33:04<1:18:42,  1.99it/s] 80%|████████  | 38623/48008 [5:33:05<1:26:44,  1.80it/s] 80%|████████  | 38624/48008 [5:33:05<1:23:07,  1.88it/s] 80%|████████  | 38625/48008 [5:33:06<1:20:54,  1.93it/s] 80%|████████  | 38626/48008 [5:33:06<1:19:03,  1.98it/s] 80%|████████  | 38627/48008 [5:33:07<1:18:04,  2.00it/s] 80%|████████  | 38628/48008 [5:33:08<1:53:16,  1.38it/s] 80%|████████  | 38629/48008 [5:33:09<1:39:02,  1.58it/s] 80%|████████  | 38630/48008 [5:33:09<1:34:46,  1.65it/s] 80%|████████  | 38631/48008 [5:33:10<1:28:47,  1.76it/s] 80%|████████  | 38632/48008 [5:33:10<1:24:46,  1.84it/s] 80%|████████  | 38633/48008 [5:33:11<1:23:06,  1.88it/s] 80%|████████  | 38634/48008 [5:33:11<1:20:45,  1.93it/s] 80%|████████  | 38635/48008 [5:33:11<1:16:02,  2.05it/s] 80%|████████  | 38636/48008 [5:33:12<1:15:50,  2.06it/s] 80%|████████  | 38637/48008 [5:33:12<1:16:28,  2.04it/s] 80%|████████  | 38638/48008 [5:33:13<1:25:07,  1.83it/s] 80%|████████  | 38639/48008 [5:33:14<1:22:18,  1.90it/s] 80%|████████  | 38640/48008 [5:33:15<1:51:25,  1.40it/s] 80%|████████  | 38641/48008 [5:33:15<1:40:38,  1.55it/s] 80%|████████  | 38642/48008 [5:33:16<1:33:59,  1.66it/s] 80%|████████  | 38643/48008 [5:33:16<1:29:07,  1.75it/s] 80%|████████  | 38644/48008 [5:33:17<1:27:35,  1.78it/s] 80%|████████  | 38645/48008 [5:33:17<1:23:46,  1.86it/s] 80%|████████  | 38646/48008 [5:33:18<1:23:43,  1.86it/s] 81%|████████  | 38647/48008 [5:33:18<1:23:52,  1.86it/s] 81%|████████  | 38648/48008 [5:33:19<1:18:05,  2.00it/s] 81%|████████  | 38649/48008 [5:33:19<1:14:08,  2.10it/s] 81%|████████  | 38650/48008 [5:33:20<1:14:19,  2.10it/s]                                                         {'loss': 4.2495, 'grad_norm': 0.09730090945959091, 'learning_rate': 3.8989335110814866e-05, 'epoch': 0.81}
 81%|████████  | 38650/48008 [5:33:20<1:14:19,  2.10it/s] 81%|████████  | 38651/48008 [5:33:20<1:17:09,  2.02it/s] 81%|████████  | 38652/48008 [5:33:21<1:17:27,  2.01it/s] 81%|████████  | 38653/48008 [5:33:21<1:16:37,  2.03it/s] 81%|████████  | 38654/48008 [5:33:22<1:13:10,  2.13it/s] 81%|████████  | 38655/48008 [5:33:22<1:10:31,  2.21it/s] 81%|████████  | 38656/48008 [5:33:22<1:08:49,  2.26it/s] 81%|████████  | 38657/48008 [5:33:23<1:13:22,  2.12it/s] 81%|████████  | 38658/48008 [5:33:23<1:14:58,  2.08it/s] 81%|████████  | 38659/48008 [5:33:24<1:16:08,  2.05it/s] 81%|████████  | 38660/48008 [5:33:24<1:18:38,  1.98it/s] 81%|████████  | 38661/48008 [5:33:25<1:18:39,  1.98it/s] 81%|████████  | 38662/48008 [5:33:26<1:18:32,  1.98it/s] 81%|████████  | 38663/48008 [5:33:26<1:14:12,  2.10it/s] 81%|████████  | 38664/48008 [5:33:26<1:14:12,  2.10it/s] 81%|████████  | 38665/48008 [5:33:27<1:15:17,  2.07it/s] 81%|████████  | 38666/48008 [5:33:27<1:17:05,  2.02it/s] 81%|████████  | 38667/48008 [5:33:28<1:17:35,  2.01it/s] 81%|████████  | 38668/48008 [5:33:28<1:18:39,  1.98it/s] 81%|████████  | 38669/48008 [5:33:29<1:18:38,  1.98it/s] 81%|████████  | 38670/48008 [5:33:29<1:19:13,  1.96it/s] 81%|████████  | 38671/48008 [5:33:30<1:17:48,  2.00it/s] 81%|████████  | 38672/48008 [5:33:30<1:16:38,  2.03it/s] 81%|████████  | 38673/48008 [5:33:31<1:12:57,  2.13it/s] 81%|████████  | 38674/48008 [5:33:31<1:13:22,  2.12it/s] 81%|████████  | 38675/48008 [5:33:32<1:13:42,  2.11it/s] 81%|████████  | 38676/48008 [5:33:32<1:10:59,  2.19it/s] 81%|████████  | 38677/48008 [5:33:33<1:13:18,  2.12it/s] 81%|████████  | 38678/48008 [5:33:33<1:14:58,  2.07it/s] 81%|████████  | 38679/48008 [5:33:34<1:14:59,  2.07it/s] 81%|████████  | 38680/48008 [5:33:34<1:14:57,  2.07it/s] 81%|████████  | 38681/48008 [5:33:35<1:50:57,  1.40it/s] 81%|████████  | 38682/48008 [5:33:36<1:40:16,  1.55it/s] 81%|████████  | 38683/48008 [5:33:36<1:32:37,  1.68it/s] 81%|████████  | 38684/48008 [5:33:38<2:03:11,  1.26it/s] 81%|████████  | 38685/48008 [5:33:38<1:50:14,  1.41it/s] 81%|████████  | 38686/48008 [5:33:39<1:40:53,  1.54it/s] 81%|████████  | 38687/48008 [5:33:39<1:32:58,  1.67it/s] 81%|████████  | 38688/48008 [5:33:40<1:27:32,  1.77it/s] 81%|████████  | 38689/48008 [5:33:40<1:23:42,  1.86it/s] 81%|████████  | 38690/48008 [5:33:41<1:22:11,  1.89it/s] 81%|████████  | 38691/48008 [5:33:41<1:19:44,  1.95it/s] 81%|████████  | 38692/48008 [5:33:42<1:18:13,  1.98it/s] 81%|████████  | 38693/48008 [5:33:42<1:18:27,  1.98it/s] 81%|████████  | 38694/48008 [5:33:43<1:17:16,  2.01it/s] 81%|████████  | 38695/48008 [5:33:43<1:16:35,  2.03it/s] 81%|████████  | 38696/48008 [5:33:44<1:34:22,  1.64it/s] 81%|████████  | 38697/48008 [5:33:44<1:28:34,  1.75it/s] 81%|████████  | 38698/48008 [5:33:45<1:24:17,  1.84it/s] 81%|████████  | 38699/48008 [5:33:45<1:23:57,  1.85it/s] 81%|████████  | 38700/48008 [5:33:46<1:21:04,  1.91it/s]                                                         {'loss': 4.2823, 'grad_norm': 0.14466561377048492, 'learning_rate': 3.8781036493917683e-05, 'epoch': 0.81} 81%|████████  | 38700/48008 [5:33:46<1:21:04,  1.91it/s]
 81%|████████  | 38701/48008 [5:33:46<1:21:00,  1.91it/s] 81%|████████  | 38702/48008 [5:33:47<1:21:56,  1.89it/s] 81%|████████  | 38703/48008 [5:33:48<1:21:37,  1.90it/s] 81%|████████  | 38704/48008 [5:33:48<1:19:35,  1.95it/s] 81%|████████  | 38705/48008 [5:33:49<1:20:59,  1.91it/s] 81%|████████  | 38706/48008 [5:33:49<1:21:00,  1.91it/s] 81%|████████  | 38707/48008 [5:33:50<1:28:10,  1.76it/s] 81%|████████  | 38708/48008 [5:33:50<1:23:49,  1.85it/s] 81%|████████  | 38709/48008 [5:33:51<1:18:00,  1.99it/s] 81%|████████  | 38710/48008 [5:33:51<1:16:59,  2.01it/s] 81%|████████  | 38711/48008 [5:33:52<1:16:14,  2.03it/s] 81%|████████  | 38712/48008 [5:33:52<1:15:48,  2.04it/s] 81%|████████  | 38713/48008 [5:33:53<1:15:33,  2.05it/s] 81%|████████  | 38714/48008 [5:33:53<1:12:20,  2.14it/s] 81%|████████  | 38715/48008 [5:33:53<1:14:08,  2.09it/s] 81%|████████  | 38716/48008 [5:33:54<1:15:56,  2.04it/s] 81%|████████  | 38717/48008 [5:33:54<1:16:25,  2.03it/s] 81%|████████  | 38718/48008 [5:33:55<1:15:50,  2.04it/s] 81%|████████  | 38719/48008 [5:33:55<1:16:32,  2.02it/s] 81%|████████  | 38720/48008 [5:33:56<1:15:52,  2.04it/s] 81%|████████  | 38721/48008 [5:33:56<1:12:23,  2.14it/s] 81%|████████  | 38722/48008 [5:33:57<1:13:50,  2.10it/s] 81%|████████  | 38723/48008 [5:33:57<1:15:45,  2.04it/s] 81%|████████  | 38724/48008 [5:33:58<1:15:13,  2.06it/s] 81%|████████  | 38725/48008 [5:33:58<1:15:04,  2.06it/s] 81%|████████  | 38726/48008 [5:33:59<1:14:44,  2.07it/s] 81%|████████  | 38727/48008 [5:34:00<1:50:12,  1.40it/s] 81%|████████  | 38728/48008 [5:34:00<1:36:11,  1.61it/s] 81%|████████  | 38729/48008 [5:34:01<1:29:34,  1.73it/s] 81%|████████  | 38730/48008 [5:34:01<1:26:40,  1.78it/s] 81%|████████  | 38731/48008 [5:34:02<1:19:49,  1.94it/s] 81%|████████  | 38732/48008 [5:34:02<1:19:22,  1.95it/s] 81%|████████  | 38733/48008 [5:34:03<1:19:53,  1.93it/s] 81%|████████  | 38734/48008 [5:34:03<1:18:07,  1.98it/s] 81%|████████  | 38735/48008 [5:34:04<1:18:42,  1.96it/s] 81%|████████  | 38736/48008 [5:34:04<1:14:16,  2.08it/s] 81%|████████  | 38737/48008 [5:34:05<1:16:04,  2.03it/s] 81%|████████  | 38738/48008 [5:34:05<1:16:40,  2.02it/s] 81%|████████  | 38739/48008 [5:34:06<1:15:57,  2.03it/s] 81%|████████  | 38740/48008 [5:34:07<1:51:01,  1.39it/s] 81%|████████  | 38741/48008 [5:34:08<1:42:31,  1.51it/s] 81%|████████  | 38742/48008 [5:34:09<2:10:11,  1.19it/s] 81%|████████  | 38743/48008 [5:34:09<1:54:29,  1.35it/s] 81%|████████  | 38744/48008 [5:34:10<1:44:10,  1.48it/s] 81%|████████  | 38745/48008 [5:34:10<1:35:15,  1.62it/s] 81%|████████  | 38746/48008 [5:34:11<1:38:04,  1.57it/s] 81%|████████  | 38747/48008 [5:34:11<1:27:56,  1.76it/s] 81%|████████  | 38748/48008 [5:34:12<1:20:48,  1.91it/s] 81%|████████  | 38749/48008 [5:34:12<1:18:40,  1.96it/s] 81%|████████  | 38750/48008 [5:34:13<1:17:20,  2.00it/s]                                                         {'loss': 4.2621, 'grad_norm': 0.10218612104654312, 'learning_rate': 3.85727378770205e-05, 'epoch': 0.81}
 81%|████████  | 38750/48008 [5:34:13<1:17:20,  2.00it/s] 81%|████████  | 38751/48008 [5:34:13<1:18:20,  1.97it/s] 81%|████████  | 38752/48008 [5:34:14<1:17:06,  2.00it/s] 81%|████████  | 38753/48008 [5:34:14<1:16:11,  2.02it/s] 81%|████████  | 38754/48008 [5:34:15<1:18:01,  1.98it/s] 81%|████████  | 38755/48008 [5:34:15<1:13:56,  2.09it/s] 81%|████████  | 38756/48008 [5:34:16<1:16:38,  2.01it/s] 81%|████████  | 38757/48008 [5:34:16<1:18:47,  1.96it/s] 81%|████████  | 38758/48008 [5:34:17<1:14:31,  2.07it/s] 81%|████████  | 38759/48008 [5:34:17<1:11:25,  2.16it/s] 81%|████████  | 38760/48008 [5:34:18<1:13:59,  2.08it/s] 81%|████████  | 38761/48008 [5:34:18<1:13:53,  2.09it/s] 81%|████████  | 38762/48008 [5:34:19<1:14:07,  2.08it/s] 81%|████████  | 38763/48008 [5:34:19<1:13:57,  2.08it/s] 81%|████████  | 38764/48008 [5:34:20<1:13:43,  2.09it/s] 81%|████████  | 38765/48008 [5:34:20<1:16:39,  2.01it/s] 81%|████████  | 38766/48008 [5:34:21<1:15:45,  2.03it/s] 81%|████████  | 38767/48008 [5:34:22<1:33:21,  1.65it/s] 81%|████████  | 38768/48008 [5:34:22<1:27:43,  1.76it/s] 81%|████████  | 38769/48008 [5:34:23<1:42:10,  1.51it/s] 81%|████████  | 38770/48008 [5:34:23<1:33:44,  1.64it/s] 81%|████████  | 38771/48008 [5:34:24<1:28:50,  1.73it/s] 81%|████████  | 38772/48008 [5:34:24<1:24:26,  1.82it/s] 81%|████████  | 38773/48008 [5:34:25<1:21:22,  1.89it/s] 81%|████████  | 38774/48008 [5:34:25<1:20:16,  1.92it/s] 81%|████████  | 38775/48008 [5:34:26<1:20:51,  1.90it/s] 81%|████████  | 38776/48008 [5:34:26<1:19:36,  1.93it/s] 81%|████████  | 38777/48008 [5:34:27<1:17:50,  1.98it/s] 81%|████████  | 38778/48008 [5:34:27<1:13:38,  2.09it/s] 81%|████████  | 38779/48008 [5:34:28<1:10:27,  2.18it/s] 81%|████████  | 38780/48008 [5:34:28<1:12:37,  2.12it/s] 81%|████████  | 38781/48008 [5:34:29<1:15:02,  2.05it/s] 81%|████████  | 38782/48008 [5:34:29<1:15:46,  2.03it/s] 81%|████████  | 38783/48008 [5:34:30<1:16:31,  2.01it/s] 81%|████████  | 38784/48008 [5:34:30<1:15:49,  2.03it/s] 81%|████████  | 38785/48008 [5:34:31<1:15:06,  2.05it/s] 81%|████████  | 38786/48008 [5:34:31<1:15:42,  2.03it/s] 81%|████████  | 38787/48008 [5:34:32<1:15:22,  2.04it/s] 81%|████████  | 38788/48008 [5:34:32<1:16:32,  2.01it/s] 81%|████████  | 38789/48008 [5:34:33<1:15:48,  2.03it/s] 81%|████████  | 38790/48008 [5:34:34<1:50:32,  1.39it/s] 81%|████████  | 38791/48008 [5:34:34<1:39:34,  1.54it/s] 81%|████████  | 38792/48008 [5:34:35<1:33:33,  1.64it/s] 81%|████████  | 38793/48008 [5:34:35<1:24:47,  1.81it/s] 81%|████████  | 38794/48008 [5:34:36<1:21:26,  1.89it/s] 81%|████████  | 38795/48008 [5:34:36<1:19:15,  1.94it/s] 81%|████████  | 38796/48008 [5:34:37<1:17:32,  1.98it/s] 81%|████████  | 38797/48008 [5:34:37<1:18:10,  1.96it/s] 81%|████████  | 38798/48008 [5:34:38<1:13:46,  2.08it/s] 81%|████████  | 38799/48008 [5:34:38<1:15:50,  2.02it/s] 81%|████████  | 38800/48008 [5:34:39<1:18:05,  1.97it/s]                                                         {'loss': 4.2749, 'grad_norm': 0.10363982617855072, 'learning_rate': 3.836443926012331e-05, 'epoch': 0.81}
 81%|████████  | 38800/48008 [5:34:39<1:18:05,  1.97it/s] 81%|████████  | 38801/48008 [5:34:39<1:16:59,  1.99it/s] 81%|████████  | 38802/48008 [5:34:40<1:16:56,  1.99it/s] 81%|████████  | 38803/48008 [5:34:40<1:17:01,  1.99it/s] 81%|████████  | 38804/48008 [5:34:41<1:16:07,  2.02it/s] 81%|████████  | 38805/48008 [5:34:41<1:15:30,  2.03it/s] 81%|████████  | 38806/48008 [5:34:42<1:15:02,  2.04it/s] 81%|████████  | 38807/48008 [5:34:42<1:14:29,  2.06it/s] 81%|████████  | 38808/48008 [5:34:43<1:14:11,  2.07it/s] 81%|████████  | 38809/48008 [5:34:43<1:14:56,  2.05it/s] 81%|████████  | 38810/48008 [5:34:44<1:15:49,  2.02it/s] 81%|████████  | 38811/48008 [5:34:44<1:16:17,  2.01it/s] 81%|████████  | 38812/48008 [5:34:45<1:16:48,  2.00it/s] 81%|████████  | 38813/48008 [5:34:45<1:12:51,  2.10it/s] 81%|████████  | 38814/48008 [5:34:46<1:10:06,  2.19it/s] 81%|████████  | 38815/48008 [5:34:46<1:12:02,  2.13it/s] 81%|████████  | 38816/48008 [5:34:47<1:12:25,  2.12it/s] 81%|████████  | 38817/48008 [5:34:47<1:13:48,  2.08it/s] 81%|████████  | 38818/48008 [5:34:48<1:14:39,  2.05it/s] 81%|████████  | 38819/48008 [5:34:48<1:14:14,  2.06it/s] 81%|████████  | 38820/48008 [5:34:49<1:14:10,  2.06it/s] 81%|████████  | 38821/48008 [5:34:49<1:11:00,  2.16it/s] 81%|████████  | 38822/48008 [5:34:49<1:13:43,  2.08it/s] 81%|████████  | 38823/48008 [5:34:50<1:13:43,  2.08it/s] 81%|████████  | 38824/48008 [5:34:50<1:13:29,  2.08it/s] 81%|████████  | 38825/48008 [5:34:51<1:13:22,  2.09it/s] 81%|████████  | 38826/48008 [5:34:51<1:10:28,  2.17it/s] 81%|████████  | 38827/48008 [5:34:52<1:08:07,  2.25it/s] 81%|████████  | 38828/48008 [5:34:52<1:18:50,  1.94it/s] 81%|████████  | 38829/48008 [5:34:53<1:19:47,  1.92it/s] 81%|████████  | 38830/48008 [5:34:53<1:14:49,  2.04it/s] 81%|████████  | 38831/48008 [5:34:54<1:11:28,  2.14it/s] 81%|████████  | 38832/48008 [5:34:54<1:12:15,  2.12it/s] 81%|████████  | 38833/48008 [5:34:55<1:12:42,  2.10it/s] 81%|████████  | 38834/48008 [5:34:55<1:12:59,  2.09it/s] 81%|████████  | 38835/48008 [5:34:56<1:14:06,  2.06it/s] 81%|████████  | 38836/48008 [5:34:56<1:11:00,  2.15it/s] 81%|████████  | 38837/48008 [5:34:57<1:13:26,  2.08it/s] 81%|████████  | 38838/48008 [5:34:57<1:10:34,  2.17it/s] 81%|████████  | 38839/48008 [5:34:58<1:12:30,  2.11it/s] 81%|████████  | 38840/48008 [5:34:58<1:12:50,  2.10it/s] 81%|████████  | 38841/48008 [5:34:59<1:13:13,  2.09it/s] 81%|████████  | 38842/48008 [5:34:59<1:14:23,  2.05it/s] 81%|████████  | 38843/48008 [5:34:59<1:10:52,  2.16it/s] 81%|████████  | 38844/48008 [5:35:00<1:12:28,  2.11it/s] 81%|████████  | 38845/48008 [5:35:00<1:12:40,  2.10it/s] 81%|████████  | 38846/48008 [5:35:01<1:12:59,  2.09it/s] 81%|████████  | 38847/48008 [5:35:01<1:13:07,  2.09it/s] 81%|████████  | 38848/48008 [5:35:02<1:14:14,  2.06it/s] 81%|████████  | 38849/48008 [5:35:02<1:11:06,  2.15it/s] 81%|████████  | 38850/48008 [5:35:03<1:11:35,  2.13it/s]                                                         {'loss': 4.1826, 'grad_norm': 0.0897381603717804, 'learning_rate': 3.815614064322613e-05, 'epoch': 0.81}
 81%|████████  | 38850/48008 [5:35:03<1:11:35,  2.13it/s] 81%|████████  | 38851/48008 [5:35:03<1:13:16,  2.08it/s] 81%|████████  | 38852/48008 [5:35:04<1:10:20,  2.17it/s] 81%|████████  | 38853/48008 [5:35:04<1:11:02,  2.15it/s] 81%|████████  | 38854/48008 [5:35:05<1:11:44,  2.13it/s] 81%|████████  | 38855/48008 [5:35:05<1:12:14,  2.11it/s] 81%|████████  | 38856/48008 [5:35:06<1:09:41,  2.19it/s] 81%|████████  | 38857/48008 [5:35:06<1:07:53,  2.25it/s] 81%|████████  | 38858/48008 [5:35:07<1:18:34,  1.94it/s] 81%|████████  | 38859/48008 [5:35:07<1:13:58,  2.06it/s] 81%|████████  | 38860/48008 [5:35:08<1:16:34,  1.99it/s] 81%|████████  | 38861/48008 [5:35:08<1:16:45,  1.99it/s] 81%|████████  | 38862/48008 [5:35:09<1:12:47,  2.09it/s] 81%|████████  | 38863/48008 [5:35:10<1:48:05,  1.41it/s] 81%|████████  | 38864/48008 [5:35:10<1:34:27,  1.61it/s] 81%|████████  | 38865/48008 [5:35:11<1:29:49,  1.70it/s] 81%|████████  | 38866/48008 [5:35:11<1:25:54,  1.77it/s] 81%|████████  | 38867/48008 [5:35:12<1:21:56,  1.86it/s] 81%|████████  | 38868/48008 [5:35:12<1:16:27,  1.99it/s] 81%|████████  | 38869/48008 [5:35:13<1:12:28,  2.10it/s] 81%|████████  | 38870/48008 [5:35:13<1:12:35,  2.10it/s] 81%|████████  | 38871/48008 [5:35:14<1:14:38,  2.04it/s] 81%|████████  | 38872/48008 [5:35:14<1:14:10,  2.05it/s] 81%|████████  | 38873/48008 [5:35:14<1:13:55,  2.06it/s] 81%|████████  | 38874/48008 [5:35:15<1:15:25,  2.02it/s] 81%|████████  | 38875/48008 [5:35:15<1:14:48,  2.03it/s] 81%|████████  | 38876/48008 [5:35:16<1:14:13,  2.05it/s] 81%|████████  | 38877/48008 [5:35:16<1:14:56,  2.03it/s] 81%|████████  | 38878/48008 [5:35:17<1:16:53,  1.98it/s] 81%|████████  | 38879/48008 [5:35:17<1:15:40,  2.01it/s] 81%|████████  | 38880/48008 [5:35:18<1:14:56,  2.03it/s] 81%|████████  | 38881/48008 [5:35:18<1:14:35,  2.04it/s] 81%|████████  | 38882/48008 [5:35:19<1:14:18,  2.05it/s] 81%|████████  | 38883/48008 [5:35:19<1:10:48,  2.15it/s] 81%|████████  | 38884/48008 [5:35:21<1:46:22,  1.43it/s] 81%|████████  | 38885/48008 [5:35:21<1:33:32,  1.63it/s] 81%|████████  | 38886/48008 [5:35:22<1:28:11,  1.72it/s] 81%|████████  | 38887/48008 [5:35:23<1:58:39,  1.28it/s] 81%|████████  | 38888/48008 [5:35:23<1:44:56,  1.45it/s] 81%|████████  | 38889/48008 [5:35:24<1:35:34,  1.59it/s] 81%|████████  | 38890/48008 [5:35:24<1:31:20,  1.66it/s] 81%|████████  | 38891/48008 [5:35:25<1:22:38,  1.84it/s] 81%|████████  | 38892/48008 [5:35:25<1:21:06,  1.87it/s] 81%|████████  | 38893/48008 [5:35:26<1:18:46,  1.93it/s] 81%|████████  | 38894/48008 [5:35:26<1:17:02,  1.97it/s] 81%|████████  | 38895/48008 [5:35:27<1:15:38,  2.01it/s] 81%|████████  | 38896/48008 [5:35:27<1:12:01,  2.11it/s] 81%|████████  | 38897/48008 [5:35:28<1:15:15,  2.02it/s] 81%|████████  | 38898/48008 [5:35:28<1:15:21,  2.02it/s] 81%|████████  | 38899/48008 [5:35:29<1:14:47,  2.03it/s] 81%|████████  | 38900/48008 [5:35:29<1:14:04,  2.05it/s]                                                         {'loss': 4.2466, 'grad_norm': 0.10162689536809921, 'learning_rate': 3.7947842026328946e-05, 'epoch': 0.81} 81%|████████  | 38900/48008 [5:35:29<1:14:04,  2.05it/s]
 81%|████████  | 38901/48008 [5:35:30<1:14:38,  2.03it/s] 81%|████████  | 38902/48008 [5:35:30<1:15:01,  2.02it/s] 81%|████████  | 38903/48008 [5:35:31<1:15:14,  2.02it/s] 81%|████████  | 38904/48008 [5:35:31<1:11:43,  2.12it/s] 81%|████████  | 38905/48008 [5:35:31<1:12:10,  2.10it/s] 81%|████████  | 38906/48008 [5:35:32<1:12:10,  2.10it/s] 81%|████████  | 38907/48008 [5:35:32<1:13:33,  2.06it/s] 81%|████████  | 38908/48008 [5:35:34<1:48:47,  1.39it/s] 81%|████████  | 38909/48008 [5:35:34<1:39:36,  1.52it/s] 81%|████████  | 38910/48008 [5:35:35<1:31:46,  1.65it/s] 81%|████████  | 38911/48008 [5:35:35<1:26:44,  1.75it/s] 81%|████████  | 38912/48008 [5:35:36<1:22:51,  1.83it/s] 81%|████████  | 38913/48008 [5:35:36<1:20:40,  1.88it/s] 81%|████████  | 38914/48008 [5:35:37<1:19:19,  1.91it/s] 81%|████████  | 38915/48008 [5:35:37<1:19:09,  1.91it/s] 81%|████████  | 38916/48008 [5:35:38<1:18:59,  1.92it/s] 81%|████████  | 38917/48008 [5:35:38<1:18:17,  1.94it/s] 81%|████████  | 38918/48008 [5:35:39<1:16:44,  1.97it/s] 81%|████████  | 38919/48008 [5:35:39<1:16:45,  1.97it/s] 81%|████████  | 38920/48008 [5:35:40<1:12:32,  2.09it/s] 81%|████████  | 38921/48008 [5:35:40<1:13:28,  2.06it/s] 81%|████████  | 38922/48008 [5:35:41<1:13:10,  2.07it/s] 81%|████████  | 38923/48008 [5:35:41<1:09:56,  2.17it/s] 81%|████████  | 38924/48008 [5:35:42<1:12:48,  2.08it/s] 81%|████████  | 38925/48008 [5:35:42<1:13:53,  2.05it/s] 81%|████████  | 38926/48008 [5:35:43<1:22:22,  1.84it/s] 81%|████████  | 38927/48008 [5:35:43<1:20:29,  1.88it/s] 81%|████████  | 38928/48008 [5:35:44<1:15:02,  2.02it/s] 81%|████████  | 38929/48008 [5:35:44<1:16:13,  1.99it/s] 81%|████████  | 38930/48008 [5:35:45<1:15:19,  2.01it/s] 81%|████████  | 38931/48008 [5:35:45<1:11:44,  2.11it/s] 81%|████████  | 38932/48008 [5:35:46<1:11:57,  2.10it/s] 81%|████████  | 38933/48008 [5:35:46<1:09:16,  2.18it/s] 81%|████████  | 38934/48008 [5:35:46<1:10:30,  2.15it/s] 81%|████████  | 38935/48008 [5:35:47<1:08:12,  2.22it/s] 81%|████████  | 38936/48008 [5:35:47<1:10:41,  2.14it/s] 81%|████████  | 38937/48008 [5:35:48<1:11:20,  2.12it/s] 81%|████████  | 38938/48008 [5:35:48<1:11:47,  2.11it/s] 81%|████████  | 38939/48008 [5:35:49<1:12:06,  2.10it/s] 81%|████████  | 38940/48008 [5:35:49<1:12:07,  2.10it/s] 81%|████████  | 38941/48008 [5:35:50<1:12:24,  2.09it/s] 81%|████████  | 38942/48008 [5:35:50<1:12:43,  2.08it/s] 81%|████████  | 38943/48008 [5:35:51<1:14:44,  2.02it/s] 81%|████████  | 38944/48008 [5:35:51<1:14:09,  2.04it/s] 81%|████████  | 38945/48008 [5:35:52<1:14:40,  2.02it/s] 81%|████████  | 38946/48008 [5:35:52<1:13:54,  2.04it/s] 81%|████████  | 38947/48008 [5:35:53<1:13:40,  2.05it/s] 81%|████████  | 38948/48008 [5:35:53<1:14:27,  2.03it/s] 81%|████████  | 38949/48008 [5:35:54<1:15:43,  1.99it/s] 81%|████████  | 38950/48008 [5:35:54<1:11:57,  2.10it/s]                                                         {'loss': 4.2169, 'grad_norm': 0.10460367053747177, 'learning_rate': 3.7739543409431764e-05, 'epoch': 0.81}
 81%|████████  | 38950/48008 [5:35:54<1:11:57,  2.10it/s] 81%|████████  | 38951/48008 [5:35:55<1:21:09,  1.86it/s] 81%|████████  | 38952/48008 [5:35:55<1:18:36,  1.92it/s] 81%|████████  | 38953/48008 [5:35:56<1:16:54,  1.96it/s] 81%|████████  | 38954/48008 [5:35:56<1:16:33,  1.97it/s] 81%|████████  | 38955/48008 [5:35:57<1:15:12,  2.01it/s] 81%|████████  | 38956/48008 [5:35:57<1:16:48,  1.96it/s] 81%|████████  | 38957/48008 [5:35:58<1:15:26,  2.00it/s] 81%|████████  | 38958/48008 [5:35:58<1:11:19,  2.11it/s] 81%|████████  | 38959/48008 [5:35:59<1:07:12,  2.24it/s] 81%|████████  | 38960/48008 [5:35:59<1:05:49,  2.29it/s] 81%|████████  | 38961/48008 [5:35:59<1:07:49,  2.22it/s] 81%|████████  | 38962/48008 [5:36:00<1:10:10,  2.15it/s] 81%|████████  | 38963/48008 [5:36:00<1:11:41,  2.10it/s] 81%|████████  | 38964/48008 [5:36:01<1:13:01,  2.06it/s] 81%|████████  | 38965/48008 [5:36:01<1:12:47,  2.07it/s] 81%|████████  | 38966/48008 [5:36:02<1:12:47,  2.07it/s] 81%|████████  | 38967/48008 [5:36:02<1:13:34,  2.05it/s] 81%|████████  | 38968/48008 [5:36:03<1:10:20,  2.14it/s] 81%|████████  | 38969/48008 [5:36:03<1:08:08,  2.21it/s] 81%|████████  | 38970/48008 [5:36:04<1:10:41,  2.13it/s] 81%|████████  | 38971/48008 [5:36:04<1:08:27,  2.20it/s] 81%|████████  | 38972/48008 [5:36:05<1:09:37,  2.16it/s] 81%|████████  | 38973/48008 [5:36:05<1:12:18,  2.08it/s] 81%|████████  | 38974/48008 [5:36:06<1:12:35,  2.07it/s] 81%|████████  | 38975/48008 [5:36:06<1:13:35,  2.05it/s] 81%|████████  | 38976/48008 [5:36:07<1:13:18,  2.05it/s] 81%|████████  | 38977/48008 [5:36:07<1:13:56,  2.04it/s] 81%|████████  | 38978/48008 [5:36:08<1:13:38,  2.04it/s] 81%|████████  | 38979/48008 [5:36:08<1:13:10,  2.06it/s] 81%|████████  | 38980/48008 [5:36:09<1:14:17,  2.03it/s] 81%|████████  | 38981/48008 [5:36:09<1:14:31,  2.02it/s] 81%|████████  | 38982/48008 [5:36:10<1:14:03,  2.03it/s] 81%|████████  | 38983/48008 [5:36:10<1:13:44,  2.04it/s] 81%|████████  | 38984/48008 [5:36:11<1:14:53,  2.01it/s] 81%|████████  | 38985/48008 [5:36:11<1:14:25,  2.02it/s] 81%|████████  | 38986/48008 [5:36:12<1:15:56,  1.98it/s] 81%|████████  | 38987/48008 [5:36:12<1:12:07,  2.08it/s] 81%|████████  | 38988/48008 [5:36:13<1:13:23,  2.05it/s] 81%|████████  | 38989/48008 [5:36:13<1:31:03,  1.65it/s] 81%|████████  | 38990/48008 [5:36:14<1:27:07,  1.73it/s] 81%|████████  | 38991/48008 [5:36:15<1:23:37,  1.80it/s] 81%|████████  | 38992/48008 [5:36:15<1:22:00,  1.83it/s] 81%|████████  | 38993/48008 [5:36:15<1:16:10,  1.97it/s] 81%|████████  | 38994/48008 [5:36:16<1:15:00,  2.00it/s] 81%|████████  | 38995/48008 [5:36:16<1:14:04,  2.03it/s] 81%|████████  | 38996/48008 [5:36:17<1:10:47,  2.12it/s] 81%|████████  | 38997/48008 [5:36:17<1:12:55,  2.06it/s] 81%|████████  | 38998/48008 [5:36:18<1:13:03,  2.06it/s] 81%|████████  | 38999/48008 [5:36:18<1:09:57,  2.15it/s] 81%|████████  | 39000/48008 [5:36:19<1:19:46,  1.88it/s]                                                         {'loss': 4.2476, 'grad_norm': 0.09426458179950714, 'learning_rate': 3.753124479253458e-05, 'epoch': 0.81} 81%|████████  | 39000/48008 [5:36:19<1:19:46,  1.88it/s]
 81%|████████  | 39001/48008 [5:36:19<1:17:37,  1.93it/s] 81%|████████  | 39002/48008 [5:36:20<1:16:11,  1.97it/s] 81%|████████  | 39003/48008 [5:36:20<1:15:01,  2.00it/s] 81%|████████  | 39004/48008 [5:36:21<1:15:09,  2.00it/s] 81%|████████  | 39005/48008 [5:36:21<1:14:34,  2.01it/s] 81%|████████  | 39006/48008 [5:36:22<1:11:05,  2.11it/s] 81%|████████▏ | 39007/48008 [5:36:22<1:08:34,  2.19it/s] 81%|████████▏ | 39008/48008 [5:36:23<1:10:29,  2.13it/s] 81%|████████▏ | 39009/48008 [5:36:23<1:08:17,  2.20it/s] 81%|████████▏ | 39010/48008 [5:36:24<1:06:40,  2.25it/s] 81%|████████▏ | 39011/48008 [5:36:24<1:08:32,  2.19it/s] 81%|████████▏ | 39012/48008 [5:36:25<1:10:46,  2.12it/s] 81%|████████▏ | 39013/48008 [5:36:25<1:12:34,  2.07it/s] 81%|████████▏ | 39014/48008 [5:36:26<1:12:29,  2.07it/s] 81%|████████▏ | 39015/48008 [5:36:26<1:14:21,  2.02it/s] 81%|████████▏ | 39016/48008 [5:36:27<1:13:58,  2.03it/s] 81%|████████▏ | 39017/48008 [5:36:27<1:13:41,  2.03it/s] 81%|████████▏ | 39018/48008 [5:36:28<1:13:14,  2.05it/s] 81%|████████▏ | 39019/48008 [5:36:28<1:13:04,  2.05it/s] 81%|████████▏ | 39020/48008 [5:36:29<1:14:26,  2.01it/s] 81%|████████▏ | 39021/48008 [5:36:29<1:13:38,  2.03it/s] 81%|████████▏ | 39022/48008 [5:36:29<1:13:03,  2.05it/s] 81%|████████▏ | 39023/48008 [5:36:30<1:12:43,  2.06it/s] 81%|████████▏ | 39024/48008 [5:36:31<1:30:35,  1.65it/s] 81%|████████▏ | 39025/48008 [5:36:31<1:26:10,  1.74it/s] 81%|████████▏ | 39026/48008 [5:36:32<1:21:49,  1.83it/s] 81%|████████▏ | 39027/48008 [5:36:32<1:15:57,  1.97it/s] 81%|████████▏ | 39028/48008 [5:36:33<1:16:54,  1.95it/s] 81%|████████▏ | 39029/48008 [5:36:33<1:15:12,  1.99it/s] 81%|████████▏ | 39030/48008 [5:36:34<1:14:07,  2.02it/s] 81%|████████▏ | 39031/48008 [5:36:34<1:10:47,  2.11it/s] 81%|████████▏ | 39032/48008 [5:36:35<1:12:40,  2.06it/s] 81%|████████▏ | 39033/48008 [5:36:35<1:12:30,  2.06it/s] 81%|████████▏ | 39034/48008 [5:36:36<1:12:26,  2.06it/s] 81%|████████▏ | 39035/48008 [5:36:36<1:12:22,  2.07it/s] 81%|████████▏ | 39036/48008 [5:36:37<1:14:36,  2.00it/s] 81%|████████▏ | 39037/48008 [5:36:37<1:15:37,  1.98it/s] 81%|████████▏ | 39038/48008 [5:36:38<1:14:28,  2.01it/s] 81%|████████▏ | 39039/48008 [5:36:38<1:09:30,  2.15it/s] 81%|████████▏ | 39040/48008 [5:36:39<1:10:17,  2.13it/s] 81%|████████▏ | 39041/48008 [5:36:39<1:12:31,  2.06it/s] 81%|████████▏ | 39042/48008 [5:36:40<1:14:47,  2.00it/s] 81%|████████▏ | 39043/48008 [5:36:40<1:16:47,  1.95it/s] 81%|████████▏ | 39044/48008 [5:36:41<1:17:04,  1.94it/s] 81%|████████▏ | 39045/48008 [5:36:41<1:15:46,  1.97it/s] 81%|████████▏ | 39046/48008 [5:36:42<1:14:27,  2.01it/s] 81%|████████▏ | 39047/48008 [5:36:42<1:16:25,  1.95it/s] 81%|████████▏ | 39048/48008 [5:36:43<1:15:06,  1.99it/s] 81%|████████▏ | 39049/48008 [5:36:43<1:15:07,  1.99it/s] 81%|████████▏ | 39050/48008 [5:36:44<1:14:18,  2.01it/s]                                                         {'loss': 4.2349, 'grad_norm': 0.12101038545370102, 'learning_rate': 3.73229461756374e-05, 'epoch': 0.81} 81%|████████▏ | 39050/48008 [5:36:44<1:14:18,  2.01it/s]
 81%|████████▏ | 39051/48008 [5:36:44<1:10:55,  2.10it/s] 81%|████████▏ | 39052/48008 [5:36:45<1:11:12,  2.10it/s] 81%|████████▏ | 39053/48008 [5:36:45<1:12:56,  2.05it/s] 81%|████████▏ | 39054/48008 [5:36:45<1:09:52,  2.14it/s] 81%|████████▏ | 39055/48008 [5:36:46<1:07:43,  2.20it/s] 81%|████████▏ | 39056/48008 [5:36:46<1:06:18,  2.25it/s] 81%|████████▏ | 39057/48008 [5:36:47<1:07:53,  2.20it/s] 81%|████████▏ | 39058/48008 [5:36:47<1:06:07,  2.26it/s] 81%|████████▏ | 39059/48008 [5:36:48<1:09:29,  2.15it/s] 81%|████████▏ | 39060/48008 [5:36:48<1:10:04,  2.13it/s] 81%|████████▏ | 39061/48008 [5:36:49<1:10:36,  2.11it/s] 81%|████████▏ | 39062/48008 [5:36:49<1:10:53,  2.10it/s] 81%|████████▏ | 39063/48008 [5:36:50<1:12:05,  2.07it/s] 81%|████████▏ | 39064/48008 [5:36:50<1:13:06,  2.04it/s] 81%|████████▏ | 39065/48008 [5:36:51<1:12:38,  2.05it/s] 81%|████████▏ | 39066/48008 [5:36:51<1:13:38,  2.02it/s] 81%|████████▏ | 39067/48008 [5:36:52<1:10:05,  2.13it/s] 81%|████████▏ | 39068/48008 [5:36:52<1:10:30,  2.11it/s] 81%|████████▏ | 39069/48008 [5:36:53<1:11:39,  2.08it/s] 81%|████████▏ | 39070/48008 [5:36:53<1:11:55,  2.07it/s] 81%|████████▏ | 39071/48008 [5:36:54<1:13:58,  2.01it/s] 81%|████████▏ | 39072/48008 [5:36:54<1:13:10,  2.04it/s] 81%|████████▏ | 39073/48008 [5:36:55<1:14:32,  2.00it/s] 81%|████████▏ | 39074/48008 [5:36:55<1:14:35,  2.00it/s] 81%|████████▏ | 39075/48008 [5:36:56<1:13:46,  2.02it/s] 81%|████████▏ | 39076/48008 [5:36:56<1:21:45,  1.82it/s] 81%|████████▏ | 39077/48008 [5:36:57<1:19:39,  1.87it/s] 81%|████████▏ | 39078/48008 [5:36:57<1:17:07,  1.93it/s] 81%|████████▏ | 39079/48008 [5:36:58<1:15:33,  1.97it/s] 81%|████████▏ | 39080/48008 [5:36:58<1:11:37,  2.08it/s] 81%|████████▏ | 39081/48008 [5:36:59<1:20:34,  1.85it/s] 81%|████████▏ | 39082/48008 [5:36:59<1:26:28,  1.72it/s] 81%|████████▏ | 39083/48008 [5:37:00<1:19:18,  1.88it/s] 81%|████████▏ | 39084/48008 [5:37:00<1:17:05,  1.93it/s] 81%|████████▏ | 39085/48008 [5:37:01<1:16:25,  1.95it/s] 81%|████████▏ | 39086/48008 [5:37:01<1:16:28,  1.94it/s] 81%|████████▏ | 39087/48008 [5:37:02<1:17:54,  1.91it/s] 81%|████████▏ | 39088/48008 [5:37:02<1:16:09,  1.95it/s] 81%|████████▏ | 39089/48008 [5:37:03<1:12:11,  2.06it/s] 81%|████████▏ | 39090/48008 [5:37:03<1:11:50,  2.07it/s] 81%|████████▏ | 39091/48008 [5:37:04<1:13:37,  2.02it/s] 81%|████████▏ | 39092/48008 [5:37:04<1:13:11,  2.03it/s] 81%|████████▏ | 39093/48008 [5:37:05<1:30:26,  1.64it/s] 81%|████████▏ | 39094/48008 [5:37:06<1:24:46,  1.75it/s] 81%|████████▏ | 39095/48008 [5:37:06<1:21:47,  1.82it/s] 81%|████████▏ | 39096/48008 [5:37:07<1:18:38,  1.89it/s] 81%|████████▏ | 39097/48008 [5:37:07<1:16:45,  1.93it/s] 81%|████████▏ | 39098/48008 [5:37:08<1:17:50,  1.91it/s] 81%|████████▏ | 39099/48008 [5:37:08<1:17:07,  1.93it/s] 81%|████████▏ | 39100/48008 [5:37:09<1:16:54,  1.93it/s]                                                         {'loss': 4.2726, 'grad_norm': 0.09691543132066727, 'learning_rate': 3.711464755874021e-05, 'epoch': 0.81}
 81%|████████▏ | 39100/48008 [5:37:09<1:16:54,  1.93it/s] 81%|████████▏ | 39101/48008 [5:37:09<1:12:49,  2.04it/s] 81%|████████▏ | 39102/48008 [5:37:10<1:12:20,  2.05it/s] 81%|████████▏ | 39103/48008 [5:37:11<1:46:58,  1.39it/s] 81%|████████▏ | 39104/48008 [5:37:11<1:36:38,  1.54it/s] 81%|████████▏ | 39105/48008 [5:37:12<1:30:10,  1.65it/s] 81%|████████▏ | 39106/48008 [5:37:12<1:24:39,  1.75it/s] 81%|████████▏ | 39107/48008 [5:37:13<1:17:46,  1.91it/s] 81%|████████▏ | 39108/48008 [5:37:13<1:15:46,  1.96it/s] 81%|████████▏ | 39109/48008 [5:37:14<1:16:06,  1.95it/s] 81%|████████▏ | 39110/48008 [5:37:14<1:16:00,  1.95it/s] 81%|████████▏ | 39111/48008 [5:37:15<1:16:17,  1.94it/s] 81%|████████▏ | 39112/48008 [5:37:15<1:14:45,  1.98it/s] 81%|████████▏ | 39113/48008 [5:37:16<1:13:57,  2.00it/s] 81%|████████▏ | 39114/48008 [5:37:17<1:47:35,  1.38it/s] 81%|████████▏ | 39115/48008 [5:37:18<1:36:34,  1.53it/s] 81%|████████▏ | 39116/48008 [5:37:18<1:26:13,  1.72it/s] 81%|████████▏ | 39117/48008 [5:37:18<1:23:28,  1.78it/s] 81%|████████▏ | 39118/48008 [5:37:19<1:20:45,  1.83it/s] 81%|████████▏ | 39119/48008 [5:37:20<1:19:40,  1.86it/s] 81%|████████▏ | 39120/48008 [5:37:20<1:18:07,  1.90it/s] 81%|████████▏ | 39121/48008 [5:37:21<1:17:02,  1.92it/s] 81%|████████▏ | 39122/48008 [5:37:21<1:32:52,  1.59it/s] 81%|████████▏ | 39123/48008 [5:37:22<1:26:21,  1.71it/s] 81%|████████▏ | 39124/48008 [5:37:22<1:22:49,  1.79it/s] 81%|████████▏ | 39125/48008 [5:37:23<1:22:02,  1.80it/s] 81%|████████▏ | 39126/48008 [5:37:23<1:18:44,  1.88it/s] 82%|████████▏ | 39127/48008 [5:37:24<1:16:33,  1.93it/s] 82%|████████▏ | 39128/48008 [5:37:24<1:16:04,  1.95it/s] 82%|████████▏ | 39129/48008 [5:37:25<1:15:40,  1.96it/s] 82%|████████▏ | 39130/48008 [5:37:25<1:14:21,  1.99it/s] 82%|████████▏ | 39131/48008 [5:37:26<1:14:12,  1.99it/s] 82%|████████▏ | 39132/48008 [5:37:26<1:13:17,  2.02it/s] 82%|████████▏ | 39133/48008 [5:37:27<1:14:37,  1.98it/s] 82%|████████▏ | 39134/48008 [5:37:27<1:16:01,  1.95it/s] 82%|████████▏ | 39135/48008 [5:37:28<1:14:48,  1.98it/s] 82%|████████▏ | 39136/48008 [5:37:28<1:13:36,  2.01it/s] 82%|████████▏ | 39137/48008 [5:37:29<1:14:57,  1.97it/s] 82%|████████▏ | 39138/48008 [5:37:29<1:15:06,  1.97it/s] 82%|████████▏ | 39139/48008 [5:37:30<1:15:04,  1.97it/s] 82%|████████▏ | 39140/48008 [5:37:30<1:15:41,  1.95it/s] 82%|████████▏ | 39141/48008 [5:37:31<1:11:29,  2.07it/s] 82%|████████▏ | 39142/48008 [5:37:31<1:12:36,  2.03it/s] 82%|████████▏ | 39143/48008 [5:37:32<1:13:41,  2.01it/s] 82%|████████▏ | 39144/48008 [5:37:32<1:14:22,  1.99it/s] 82%|████████▏ | 39145/48008 [5:37:33<1:13:24,  2.01it/s] 82%|████████▏ | 39146/48008 [5:37:33<1:13:38,  2.01it/s] 82%|████████▏ | 39147/48008 [5:37:34<1:14:32,  1.98it/s] 82%|████████▏ | 39148/48008 [5:37:34<1:14:24,  1.98it/s] 82%|████████▏ | 39149/48008 [5:37:35<1:14:19,  1.99it/s] 82%|████████▏ | 39150/48008 [5:37:35<1:13:42,  2.00it/s]                                                         {'loss': 4.3266, 'grad_norm': 0.10632805526256561, 'learning_rate': 3.6906348941843026e-05, 'epoch': 0.82} 82%|████████▏ | 39150/48008 [5:37:35<1:13:42,  2.00it/s]
 82%|████████▏ | 39151/48008 [5:37:36<1:14:45,  1.97it/s] 82%|████████▏ | 39152/48008 [5:37:36<1:15:19,  1.96it/s] 82%|████████▏ | 39153/48008 [5:37:37<1:14:21,  1.98it/s] 82%|████████▏ | 39154/48008 [5:37:37<1:15:56,  1.94it/s] 82%|████████▏ | 39155/48008 [5:37:38<1:11:40,  2.06it/s] 82%|████████▏ | 39156/48008 [5:37:39<1:20:02,  1.84it/s] 82%|████████▏ | 39157/48008 [5:37:39<1:19:52,  1.85it/s] 82%|████████▏ | 39158/48008 [5:37:40<1:17:25,  1.91it/s] 82%|████████▏ | 39159/48008 [5:37:40<1:15:11,  1.96it/s] 82%|████████▏ | 39160/48008 [5:37:41<1:15:03,  1.96it/s] 82%|████████▏ | 39161/48008 [5:37:41<1:16:07,  1.94it/s] 82%|████████▏ | 39162/48008 [5:37:42<1:23:24,  1.77it/s] 82%|████████▏ | 39163/48008 [5:37:42<1:19:33,  1.85it/s] 82%|████████▏ | 39164/48008 [5:37:43<1:14:18,  1.98it/s] 82%|████████▏ | 39165/48008 [5:37:43<1:10:34,  2.09it/s] 82%|████████▏ | 39166/48008 [5:37:44<1:07:58,  2.17it/s] 82%|████████▏ | 39167/48008 [5:37:44<1:08:34,  2.15it/s] 82%|████████▏ | 39168/48008 [5:37:44<1:09:24,  2.12it/s] 82%|████████▏ | 39169/48008 [5:37:45<1:10:02,  2.10it/s] 82%|████████▏ | 39170/48008 [5:37:45<1:10:34,  2.09it/s] 82%|████████▏ | 39171/48008 [5:37:46<1:11:47,  2.05it/s] 82%|████████▏ | 39172/48008 [5:37:46<1:08:42,  2.14it/s] 82%|████████▏ | 39173/48008 [5:37:47<1:09:30,  2.12it/s] 82%|████████▏ | 39174/48008 [5:37:47<1:10:52,  2.08it/s] 82%|████████▏ | 39175/48008 [5:37:48<1:10:46,  2.08it/s] 82%|████████▏ | 39176/48008 [5:37:48<1:07:57,  2.17it/s] 82%|████████▏ | 39177/48008 [5:37:49<1:09:45,  2.11it/s] 82%|████████▏ | 39178/48008 [5:37:49<1:07:04,  2.19it/s] 82%|████████▏ | 39179/48008 [5:37:50<1:05:18,  2.25it/s] 82%|████████▏ | 39180/48008 [5:37:50<1:08:19,  2.15it/s] 82%|████████▏ | 39181/48008 [5:37:51<1:09:49,  2.11it/s] 82%|████████▏ | 39182/48008 [5:37:51<1:12:58,  2.02it/s] 82%|████████▏ | 39183/48008 [5:37:52<1:12:07,  2.04it/s] 82%|████████▏ | 39184/48008 [5:37:52<1:11:40,  2.05it/s] 82%|████████▏ | 39185/48008 [5:37:53<1:13:21,  2.00it/s] 82%|████████▏ | 39186/48008 [5:37:53<1:12:52,  2.02it/s] 82%|████████▏ | 39187/48008 [5:37:54<1:14:58,  1.96it/s] 82%|████████▏ | 39188/48008 [5:37:54<1:15:38,  1.94it/s] 82%|████████▏ | 39189/48008 [5:37:55<1:15:14,  1.95it/s] 82%|████████▏ | 39190/48008 [5:37:55<1:11:18,  2.06it/s] 82%|████████▏ | 39191/48008 [5:37:56<1:11:01,  2.07it/s] 82%|████████▏ | 39192/48008 [5:37:56<1:11:12,  2.06it/s] 82%|████████▏ | 39193/48008 [5:37:57<1:11:51,  2.04it/s] 82%|████████▏ | 39194/48008 [5:37:57<1:11:20,  2.06it/s] 82%|████████▏ | 39195/48008 [5:37:58<1:12:08,  2.04it/s] 82%|████████▏ | 39196/48008 [5:37:58<1:12:41,  2.02it/s] 82%|████████▏ | 39197/48008 [5:37:59<1:12:07,  2.04it/s] 82%|████████▏ | 39198/48008 [5:37:59<1:11:41,  2.05it/s] 82%|████████▏ | 39199/48008 [5:38:00<1:11:22,  2.06it/s] 82%|████████▏ | 39200/48008 [5:38:00<1:19:34,  1.84it/s]                                                         {'loss': 4.2587, 'grad_norm': 0.12074805051088333, 'learning_rate': 3.6698050324945844e-05, 'epoch': 0.82} 82%|████████▏ | 39200/48008 [5:38:00<1:19:34,  1.84it/s]
 82%|████████▏ | 39201/48008 [5:38:01<1:18:59,  1.86it/s] 82%|████████▏ | 39202/48008 [5:38:02<1:33:44,  1.57it/s] 82%|████████▏ | 39203/48008 [5:38:02<1:26:43,  1.69it/s] 82%|████████▏ | 39204/48008 [5:38:03<1:22:32,  1.78it/s] 82%|████████▏ | 39205/48008 [5:38:03<1:19:53,  1.84it/s] 82%|████████▏ | 39206/48008 [5:38:04<1:18:45,  1.86it/s] 82%|████████▏ | 39207/48008 [5:38:04<1:17:15,  1.90it/s] 82%|████████▏ | 39208/48008 [5:38:05<1:15:16,  1.95it/s] 82%|████████▏ | 39209/48008 [5:38:05<1:31:18,  1.61it/s] 82%|████████▏ | 39210/48008 [5:38:06<1:25:55,  1.71it/s] 82%|████████▏ | 39211/48008 [5:38:07<1:38:42,  1.49it/s] 82%|████████▏ | 39212/48008 [5:38:07<1:31:11,  1.61it/s] 82%|████████▏ | 39213/48008 [5:38:08<1:25:00,  1.72it/s] 82%|████████▏ | 39214/48008 [5:38:08<1:20:37,  1.82it/s] 82%|████████▏ | 39215/48008 [5:38:09<1:17:30,  1.89it/s] 82%|████████▏ | 39216/48008 [5:38:09<1:17:49,  1.88it/s] 82%|████████▏ | 39217/48008 [5:38:10<1:17:12,  1.90it/s] 82%|████████▏ | 39218/48008 [5:38:10<1:15:14,  1.95it/s] 82%|████████▏ | 39219/48008 [5:38:11<1:09:21,  2.11it/s] 82%|████████▏ | 39220/48008 [5:38:11<1:09:29,  2.11it/s] 82%|████████▏ | 39221/48008 [5:38:12<1:11:23,  2.05it/s] 82%|████████▏ | 39222/48008 [5:38:12<1:13:32,  1.99it/s] 82%|████████▏ | 39223/48008 [5:38:13<1:10:00,  2.09it/s] 82%|████████▏ | 39224/48008 [5:38:13<1:12:55,  2.01it/s] 82%|████████▏ | 39225/48008 [5:38:14<1:13:09,  2.00it/s] 82%|████████▏ | 39226/48008 [5:38:14<1:14:08,  1.97it/s] 82%|████████▏ | 39227/48008 [5:38:15<1:13:03,  2.00it/s] 82%|████████▏ | 39228/48008 [5:38:15<1:09:20,  2.11it/s] 82%|████████▏ | 39229/48008 [5:38:16<1:09:39,  2.10it/s] 82%|████████▏ | 39230/48008 [5:38:16<1:09:46,  2.10it/s] 82%|████████▏ | 39231/48008 [5:38:17<1:11:13,  2.05it/s] 82%|████████▏ | 39232/48008 [5:38:17<1:12:27,  2.02it/s] 82%|████████▏ | 39233/48008 [5:38:18<1:12:34,  2.02it/s] 82%|████████▏ | 39234/48008 [5:38:18<1:12:05,  2.03it/s] 82%|████████▏ | 39235/48008 [5:38:19<1:08:53,  2.12it/s] 82%|████████▏ | 39236/48008 [5:38:19<1:09:11,  2.11it/s] 82%|████████▏ | 39237/48008 [5:38:19<1:09:20,  2.11it/s] 82%|████████▏ | 39238/48008 [5:38:20<1:11:07,  2.06it/s] 82%|████████▏ | 39239/48008 [5:38:20<1:12:03,  2.03it/s] 82%|████████▏ | 39240/48008 [5:38:21<1:11:37,  2.04it/s] 82%|████████▏ | 39241/48008 [5:38:21<1:11:28,  2.04it/s] 82%|████████▏ | 39242/48008 [5:38:22<1:12:02,  2.03it/s] 82%|████████▏ | 39243/48008 [5:38:22<1:13:12,  2.00it/s] 82%|████████▏ | 39244/48008 [5:38:23<1:09:31,  2.10it/s] 82%|████████▏ | 39245/48008 [5:38:23<1:06:56,  2.18it/s] 82%|████████▏ | 39246/48008 [5:38:24<1:16:23,  1.91it/s] 82%|████████▏ | 39247/48008 [5:38:24<1:11:37,  2.04it/s] 82%|████████▏ | 39248/48008 [5:38:25<1:12:56,  2.00it/s] 82%|████████▏ | 39249/48008 [5:38:25<1:12:22,  2.02it/s] 82%|████████▏ | 39250/48008 [5:38:26<1:12:48,  2.00it/s]                                                         {'loss': 4.2515, 'grad_norm': 0.09547261148691177, 'learning_rate': 3.648975170804866e-05, 'epoch': 0.82}
 82%|████████▏ | 39250/48008 [5:38:26<1:12:48,  2.00it/s] 82%|████████▏ | 39251/48008 [5:38:26<1:12:15,  2.02it/s] 82%|████████▏ | 39252/48008 [5:38:27<1:11:31,  2.04it/s] 82%|████████▏ | 39253/48008 [5:38:27<1:10:59,  2.06it/s] 82%|████████▏ | 39254/48008 [5:38:28<1:08:13,  2.14it/s] 82%|████████▏ | 39255/48008 [5:38:28<1:09:53,  2.09it/s] 82%|████████▏ | 39256/48008 [5:38:29<1:10:06,  2.08it/s] 82%|████████▏ | 39257/48008 [5:38:29<1:07:32,  2.16it/s] 82%|████████▏ | 39258/48008 [5:38:30<1:05:26,  2.23it/s] 82%|████████▏ | 39259/48008 [5:38:30<1:15:34,  1.93it/s] 82%|████████▏ | 39260/48008 [5:38:31<1:13:53,  1.97it/s] 82%|████████▏ | 39261/48008 [5:38:31<1:09:53,  2.09it/s] 82%|████████▏ | 39262/48008 [5:38:32<1:10:54,  2.06it/s] 82%|████████▏ | 39263/48008 [5:38:32<1:10:31,  2.07it/s] 82%|████████▏ | 39264/48008 [5:38:33<1:12:10,  2.02it/s] 82%|████████▏ | 39265/48008 [5:38:33<1:11:33,  2.04it/s] 82%|████████▏ | 39266/48008 [5:38:34<1:12:05,  2.02it/s] 82%|████████▏ | 39267/48008 [5:38:34<1:08:33,  2.12it/s] 82%|████████▏ | 39268/48008 [5:38:35<1:09:19,  2.10it/s] 82%|████████▏ | 39269/48008 [5:38:35<1:26:38,  1.68it/s] 82%|████████▏ | 39270/48008 [5:38:36<1:22:27,  1.77it/s] 82%|████████▏ | 39271/48008 [5:38:36<1:15:53,  1.92it/s] 82%|████████▏ | 39272/48008 [5:38:37<1:13:59,  1.97it/s] 82%|████████▏ | 39273/48008 [5:38:37<1:15:19,  1.93it/s] 82%|████████▏ | 39274/48008 [5:38:38<1:14:39,  1.95it/s] 82%|████████▏ | 39275/48008 [5:38:38<1:14:37,  1.95it/s] 82%|████████▏ | 39276/48008 [5:38:39<1:14:14,  1.96it/s] 82%|████████▏ | 39277/48008 [5:38:39<1:10:20,  2.07it/s] 82%|████████▏ | 39278/48008 [5:38:40<1:07:18,  2.16it/s] 82%|████████▏ | 39279/48008 [5:38:40<1:08:25,  2.13it/s] 82%|████████▏ | 39280/48008 [5:38:41<1:08:49,  2.11it/s] 82%|████████▏ | 39281/48008 [5:38:41<1:09:22,  2.10it/s] 82%|████████▏ | 39282/48008 [5:38:42<1:11:20,  2.04it/s] 82%|████████▏ | 39283/48008 [5:38:42<1:13:42,  1.97it/s] 82%|████████▏ | 39284/48008 [5:38:43<1:13:31,  1.98it/s] 82%|████████▏ | 39285/48008 [5:38:43<1:14:57,  1.94it/s] 82%|████████▏ | 39286/48008 [5:38:44<1:15:02,  1.94it/s] 82%|████████▏ | 39287/48008 [5:38:44<1:14:15,  1.96it/s] 82%|████████▏ | 39288/48008 [5:38:45<1:13:16,  1.98it/s] 82%|████████▏ | 39289/48008 [5:38:46<1:48:00,  1.35it/s] 82%|████████▏ | 39290/48008 [5:38:47<1:37:38,  1.49it/s] 82%|████████▏ | 39291/48008 [5:38:47<1:30:03,  1.61it/s] 82%|████████▏ | 39292/48008 [5:38:48<1:25:41,  1.70it/s] 82%|████████▏ | 39293/48008 [5:38:48<1:22:01,  1.77it/s] 82%|████████▏ | 39294/48008 [5:38:49<1:18:37,  1.85it/s] 82%|████████▏ | 39295/48008 [5:38:49<1:15:58,  1.91it/s] 82%|████████▏ | 39296/48008 [5:38:50<1:31:11,  1.59it/s] 82%|████████▏ | 39297/48008 [5:38:50<1:25:32,  1.70it/s] 82%|████████▏ | 39298/48008 [5:38:51<1:21:45,  1.78it/s] 82%|████████▏ | 39299/48008 [5:38:51<1:18:58,  1.84it/s] 82%|████████▏ | 39300/48008 [5:38:52<1:16:16,  1.90it/s]                                                         {'loss': 4.2271, 'grad_norm': 0.11425100266933441, 'learning_rate': 3.628145309115147e-05, 'epoch': 0.82} 82%|████████▏ | 39300/48008 [5:38:52<1:16:16,  1.90it/s]
 82%|████████▏ | 39301/48008 [5:38:52<1:15:28,  1.92it/s] 82%|████████▏ | 39302/48008 [5:38:53<1:14:53,  1.94it/s] 82%|████████▏ | 39303/48008 [5:38:53<1:10:33,  2.06it/s] 82%|████████▏ | 39304/48008 [5:38:54<1:10:18,  2.06it/s] 82%|████████▏ | 39305/48008 [5:38:54<1:07:14,  2.16it/s] 82%|████████▏ | 39306/48008 [5:38:55<1:05:03,  2.23it/s] 82%|████████▏ | 39307/48008 [5:38:55<1:07:26,  2.15it/s] 82%|████████▏ | 39308/48008 [5:38:56<1:09:54,  2.07it/s] 82%|████████▏ | 39309/48008 [5:38:56<1:09:58,  2.07it/s] 82%|████████▏ | 39310/48008 [5:38:57<1:43:17,  1.40it/s] 82%|████████▏ | 39311/48008 [5:38:58<1:35:37,  1.52it/s] 82%|████████▏ | 39312/48008 [5:38:59<1:44:57,  1.38it/s] 82%|████████▏ | 39313/48008 [5:38:59<1:34:33,  1.53it/s] 82%|████████▏ | 39314/48008 [5:39:00<1:27:17,  1.66it/s] 82%|████████▏ | 39315/48008 [5:39:00<1:22:56,  1.75it/s] 82%|████████▏ | 39316/48008 [5:39:01<1:19:02,  1.83it/s] 82%|████████▏ | 39317/48008 [5:39:02<1:49:25,  1.32it/s] 82%|████████▏ | 39318/48008 [5:39:03<1:38:36,  1.47it/s] 82%|████████▏ | 39319/48008 [5:39:03<1:32:27,  1.57it/s] 82%|████████▏ | 39320/48008 [5:39:04<1:26:37,  1.67it/s] 82%|████████▏ | 39321/48008 [5:39:04<1:23:52,  1.73it/s] 82%|████████▏ | 39322/48008 [5:39:05<1:20:40,  1.79it/s] 82%|████████▏ | 39323/48008 [5:39:05<1:14:32,  1.94it/s] 82%|████████▏ | 39324/48008 [5:39:06<1:14:35,  1.94it/s] 82%|████████▏ | 39325/48008 [5:39:06<1:13:17,  1.97it/s] 82%|████████▏ | 39326/48008 [5:39:07<1:12:23,  2.00it/s] 82%|████████▏ | 39327/48008 [5:39:07<1:11:33,  2.02it/s] 82%|████████▏ | 39328/48008 [5:39:07<1:08:09,  2.12it/s] 82%|████████▏ | 39329/48008 [5:39:08<1:08:45,  2.10it/s] 82%|████████▏ | 39330/48008 [5:39:08<1:09:14,  2.09it/s] 82%|████████▏ | 39331/48008 [5:39:09<1:09:16,  2.09it/s] 82%|████████▏ | 39332/48008 [5:39:09<1:09:15,  2.09it/s] 82%|████████▏ | 39333/48008 [5:39:10<1:09:18,  2.09it/s] 82%|████████▏ | 39334/48008 [5:39:10<1:09:17,  2.09it/s] 82%|████████▏ | 39335/48008 [5:39:11<1:12:05,  2.01it/s] 82%|████████▏ | 39336/48008 [5:39:11<1:12:53,  1.98it/s] 82%|████████▏ | 39337/48008 [5:39:12<1:13:27,  1.97it/s] 82%|████████▏ | 39338/48008 [5:39:12<1:09:36,  2.08it/s] 82%|████████▏ | 39339/48008 [5:39:13<1:09:37,  2.07it/s] 82%|████████▏ | 39340/48008 [5:39:13<1:09:31,  2.08it/s] 82%|████████▏ | 39341/48008 [5:39:14<1:09:24,  2.08it/s] 82%|████████▏ | 39342/48008 [5:39:14<1:10:16,  2.06it/s] 82%|████████▏ | 39343/48008 [5:39:15<1:09:59,  2.06it/s] 82%|████████▏ | 39344/48008 [5:39:16<1:27:01,  1.66it/s] 82%|████████▏ | 39345/48008 [5:39:16<1:21:48,  1.76it/s] 82%|████████▏ | 39346/48008 [5:39:17<1:19:32,  1.81it/s] 82%|████████▏ | 39347/48008 [5:39:17<1:17:43,  1.86it/s] 82%|████████▏ | 39348/48008 [5:39:18<1:15:15,  1.92it/s] 82%|████████▏ | 39349/48008 [5:39:18<1:14:14,  1.94it/s] 82%|████████▏ | 39350/48008 [5:39:19<1:12:49,  1.98it/s]                                                         {'loss': 4.2809, 'grad_norm': 0.10117481648921967, 'learning_rate': 3.6073154474254296e-05, 'epoch': 0.82}
 82%|████████▏ | 39350/48008 [5:39:19<1:12:49,  1.98it/s] 82%|████████▏ | 39351/48008 [5:39:19<1:09:07,  2.09it/s] 82%|████████▏ | 39352/48008 [5:39:20<1:08:59,  2.09it/s] 82%|████████▏ | 39353/48008 [5:39:20<1:09:17,  2.08it/s] 82%|████████▏ | 39354/48008 [5:39:21<1:10:59,  2.03it/s] 82%|████████▏ | 39355/48008 [5:39:21<1:12:51,  1.98it/s] 82%|████████▏ | 39356/48008 [5:39:22<1:11:56,  2.00it/s] 82%|████████▏ | 39357/48008 [5:39:22<1:12:13,  2.00it/s] 82%|████████▏ | 39358/48008 [5:39:22<1:08:35,  2.10it/s] 82%|████████▏ | 39359/48008 [5:39:23<1:08:43,  2.10it/s] 82%|████████▏ | 39360/48008 [5:39:23<1:09:41,  2.07it/s] 82%|████████▏ | 39361/48008 [5:39:24<1:06:46,  2.16it/s] 82%|████████▏ | 39362/48008 [5:39:24<1:07:25,  2.14it/s] 82%|████████▏ | 39363/48008 [5:39:25<1:09:43,  2.07it/s] 82%|████████▏ | 39364/48008 [5:39:25<1:10:24,  2.05it/s] 82%|████████▏ | 39365/48008 [5:39:26<1:10:57,  2.03it/s] 82%|████████▏ | 39366/48008 [5:39:27<1:18:58,  1.82it/s] 82%|████████▏ | 39367/48008 [5:39:27<1:16:10,  1.89it/s] 82%|████████▏ | 39368/48008 [5:39:28<1:15:05,  1.92it/s] 82%|████████▏ | 39369/48008 [5:39:28<1:14:09,  1.94it/s] 82%|████████▏ | 39370/48008 [5:39:29<1:12:44,  1.98it/s] 82%|████████▏ | 39371/48008 [5:39:29<1:08:55,  2.09it/s] 82%|████████▏ | 39372/48008 [5:39:29<1:09:07,  2.08it/s] 82%|████████▏ | 39373/48008 [5:39:30<1:11:35,  2.01it/s] 82%|████████▏ | 39374/48008 [5:39:30<1:10:46,  2.03it/s] 82%|████████▏ | 39375/48008 [5:39:31<1:10:17,  2.05it/s] 82%|████████▏ | 39376/48008 [5:39:31<1:07:17,  2.14it/s] 82%|████████▏ | 39377/48008 [5:39:32<1:10:23,  2.04it/s] 82%|████████▏ | 39378/48008 [5:39:33<1:43:19,  1.39it/s] 82%|████████▏ | 39379/48008 [5:39:34<2:06:21,  1.14it/s] 82%|████████▏ | 39380/48008 [5:39:35<1:49:05,  1.32it/s] 82%|████████▏ | 39381/48008 [5:39:35<1:37:12,  1.48it/s] 82%|████████▏ | 39382/48008 [5:39:36<1:29:51,  1.60it/s] 82%|████████▏ | 39383/48008 [5:39:37<1:57:12,  1.23it/s] 82%|████████▏ | 39384/48008 [5:39:38<1:43:51,  1.38it/s] 82%|████████▏ | 39385/48008 [5:39:38<1:33:18,  1.54it/s] 82%|████████▏ | 39386/48008 [5:39:39<1:26:56,  1.65it/s] 82%|████████▏ | 39387/48008 [5:39:39<1:18:34,  1.83it/s] 82%|████████▏ | 39388/48008 [5:39:39<1:16:47,  1.87it/s] 82%|████████▏ | 39389/48008 [5:39:40<1:14:33,  1.93it/s] 82%|████████▏ | 39390/48008 [5:39:40<1:12:54,  1.97it/s] 82%|████████▏ | 39391/48008 [5:39:41<1:12:35,  1.98it/s] 82%|████████▏ | 39392/48008 [5:39:41<1:11:30,  2.01it/s] 82%|████████▏ | 39393/48008 [5:39:42<1:12:23,  1.98it/s] 82%|████████▏ | 39394/48008 [5:39:42<1:13:17,  1.96it/s] 82%|████████▏ | 39395/48008 [5:39:43<1:11:50,  2.00it/s] 82%|████████▏ | 39396/48008 [5:39:44<1:44:09,  1.38it/s] 82%|████████▏ | 39397/48008 [5:39:45<1:34:40,  1.52it/s] 82%|████████▏ | 39398/48008 [5:39:45<1:26:53,  1.65it/s] 82%|████████▏ | 39399/48008 [5:39:46<1:21:19,  1.76it/s] 82%|████████▏ | 39400/48008 [5:39:46<1:17:41,  1.85it/s]                                                         {'loss': 4.2547, 'grad_norm': 0.09575295448303223, 'learning_rate': 3.586485585735711e-05, 'epoch': 0.82}
 82%|████████▏ | 39400/48008 [5:39:46<1:17:41,  1.85it/s] 82%|████████▏ | 39401/48008 [5:39:47<1:12:08,  1.99it/s] 82%|████████▏ | 39402/48008 [5:39:47<1:08:12,  2.10it/s] 82%|████████▏ | 39403/48008 [5:39:47<1:10:01,  2.05it/s] 82%|████████▏ | 39404/48008 [5:39:48<1:06:51,  2.14it/s] 82%|████████▏ | 39405/48008 [5:39:49<1:24:27,  1.70it/s] 82%|████████▏ | 39406/48008 [5:39:49<1:15:24,  1.90it/s] 82%|████████▏ | 39407/48008 [5:39:50<1:10:37,  2.03it/s] 82%|████████▏ | 39408/48008 [5:39:50<1:10:10,  2.04it/s] 82%|████████▏ | 39409/48008 [5:39:51<1:10:39,  2.03it/s] 82%|████████▏ | 39410/48008 [5:39:51<1:10:05,  2.04it/s] 82%|████████▏ | 39411/48008 [5:39:52<1:10:37,  2.03it/s] 82%|████████▏ | 39412/48008 [5:39:52<1:12:41,  1.97it/s] 82%|████████▏ | 39413/48008 [5:39:53<1:13:07,  1.96it/s] 82%|████████▏ | 39414/48008 [5:39:53<1:12:45,  1.97it/s] 82%|████████▏ | 39415/48008 [5:39:54<1:44:42,  1.37it/s] 82%|████████▏ | 39416/48008 [5:39:55<1:33:50,  1.53it/s] 82%|████████▏ | 39417/48008 [5:39:55<1:27:14,  1.64it/s] 82%|████████▏ | 39418/48008 [5:39:56<1:24:11,  1.70it/s] 82%|████████▏ | 39419/48008 [5:39:56<1:19:30,  1.80it/s] 82%|████████▏ | 39420/48008 [5:39:57<1:16:20,  1.88it/s] 82%|████████▏ | 39421/48008 [5:39:57<1:14:04,  1.93it/s] 82%|████████▏ | 39422/48008 [5:39:58<1:09:46,  2.05it/s] 82%|████████▏ | 39423/48008 [5:39:58<1:09:32,  2.06it/s] 82%|████████▏ | 39424/48008 [5:39:59<1:09:23,  2.06it/s] 82%|████████▏ | 39425/48008 [5:39:59<1:09:12,  2.07it/s] 82%|████████▏ | 39426/48008 [5:40:00<1:26:04,  1.66it/s] 82%|████████▏ | 39427/48008 [5:40:01<1:20:53,  1.77it/s] 82%|████████▏ | 39428/48008 [5:40:01<1:19:53,  1.79it/s] 82%|████████▏ | 39429/48008 [5:40:02<1:18:15,  1.83it/s] 82%|████████▏ | 39430/48008 [5:40:02<1:15:26,  1.90it/s] 82%|████████▏ | 39431/48008 [5:40:03<1:16:01,  1.88it/s] 82%|████████▏ | 39432/48008 [5:40:03<1:13:42,  1.94it/s] 82%|████████▏ | 39433/48008 [5:40:04<1:13:39,  1.94it/s] 82%|████████▏ | 39434/48008 [5:40:04<1:13:11,  1.95it/s] 82%|████████▏ | 39435/48008 [5:40:05<1:11:50,  1.99it/s] 82%|████████▏ | 39436/48008 [5:40:05<1:10:51,  2.02it/s] 82%|████████▏ | 39437/48008 [5:40:06<1:10:02,  2.04it/s] 82%|████████▏ | 39438/48008 [5:40:06<1:09:47,  2.05it/s] 82%|████████▏ | 39439/48008 [5:40:07<1:09:21,  2.06it/s] 82%|████████▏ | 39440/48008 [5:40:07<1:10:36,  2.02it/s] 82%|████████▏ | 39441/48008 [5:40:08<1:09:59,  2.04it/s] 82%|████████▏ | 39442/48008 [5:40:08<1:10:40,  2.02it/s] 82%|████████▏ | 39443/48008 [5:40:09<1:10:13,  2.03it/s] 82%|████████▏ | 39444/48008 [5:40:09<1:11:10,  2.01it/s] 82%|████████▏ | 39445/48008 [5:40:10<1:18:55,  1.81it/s] 82%|████████▏ | 39446/48008 [5:40:10<1:15:46,  1.88it/s] 82%|████████▏ | 39447/48008 [5:40:12<1:52:36,  1.27it/s] 82%|████████▏ | 39448/48008 [5:40:12<1:42:04,  1.40it/s] 82%|████████▏ | 39449/48008 [5:40:13<1:32:57,  1.53it/s] 82%|████████▏ | 39450/48008 [5:40:13<1:25:41,  1.66it/s]                                                         {'loss': 4.3069, 'grad_norm': 0.09297916293144226, 'learning_rate': 3.5656557240459924e-05, 'epoch': 0.82}
 82%|████████▏ | 39450/48008 [5:40:13<1:25:41,  1.66it/s] 82%|████████▏ | 39451/48008 [5:40:14<1:17:42,  1.84it/s] 82%|████████▏ | 39452/48008 [5:40:14<1:12:15,  1.97it/s] 82%|████████▏ | 39453/48008 [5:40:15<1:53:08,  1.26it/s] 82%|████████▏ | 39454/48008 [5:40:16<1:40:32,  1.42it/s] 82%|████████▏ | 39455/48008 [5:40:16<1:30:58,  1.57it/s] 82%|████████▏ | 39456/48008 [5:40:17<1:41:10,  1.41it/s] 82%|████████▏ | 39457/48008 [5:40:18<1:32:18,  1.54it/s] 82%|████████▏ | 39458/48008 [5:40:19<1:41:57,  1.40it/s] 82%|████████▏ | 39459/48008 [5:40:20<1:57:42,  1.21it/s] 82%|████████▏ | 39460/48008 [5:40:20<1:42:50,  1.39it/s] 82%|████████▏ | 39461/48008 [5:40:21<1:32:35,  1.54it/s] 82%|████████▏ | 39462/48008 [5:40:21<1:22:36,  1.72it/s] 82%|████████▏ | 39463/48008 [5:40:22<1:19:33,  1.79it/s] 82%|████████▏ | 39464/48008 [5:40:22<1:17:48,  1.83it/s] 82%|████████▏ | 39465/48008 [5:40:23<1:15:05,  1.90it/s] 82%|████████▏ | 39466/48008 [5:40:23<1:13:17,  1.94it/s] 82%|████████▏ | 39467/48008 [5:40:24<1:20:15,  1.77it/s] 82%|████████▏ | 39468/48008 [5:40:24<1:17:56,  1.83it/s] 82%|████████▏ | 39469/48008 [5:40:25<1:12:19,  1.97it/s] 82%|████████▏ | 39470/48008 [5:40:25<1:11:07,  2.00it/s] 82%|████████▏ | 39471/48008 [5:40:26<1:10:08,  2.03it/s] 82%|████████▏ | 39472/48008 [5:40:26<1:12:11,  1.97it/s] 82%|████████▏ | 39473/48008 [5:40:27<1:10:50,  2.01it/s] 82%|████████▏ | 39474/48008 [5:40:27<1:07:16,  2.11it/s] 82%|████████▏ | 39475/48008 [5:40:27<1:04:36,  2.20it/s] 82%|████████▏ | 39476/48008 [5:40:28<1:02:47,  2.26it/s] 82%|████████▏ | 39477/48008 [5:40:29<1:28:02,  1.61it/s] 82%|████████▏ | 39478/48008 [5:40:29<1:19:21,  1.79it/s] 82%|████████▏ | 39479/48008 [5:40:30<1:24:17,  1.69it/s] 82%|████████▏ | 39480/48008 [5:40:30<1:16:43,  1.85it/s] 82%|████████▏ | 39481/48008 [5:40:31<1:11:21,  1.99it/s] 82%|████████▏ | 39482/48008 [5:40:31<1:11:38,  1.98it/s] 82%|████████▏ | 39483/48008 [5:40:32<1:10:36,  2.01it/s] 82%|████████▏ | 39484/48008 [5:40:32<1:09:50,  2.03it/s] 82%|████████▏ | 39485/48008 [5:40:33<1:10:14,  2.02it/s] 82%|████████▏ | 39486/48008 [5:40:33<1:09:40,  2.04it/s] 82%|████████▏ | 39487/48008 [5:40:34<1:17:30,  1.83it/s] 82%|████████▏ | 39488/48008 [5:40:34<1:11:59,  1.97it/s] 82%|████████▏ | 39489/48008 [5:40:35<1:10:56,  2.00it/s] 82%|████████▏ | 39490/48008 [5:40:35<1:07:23,  2.11it/s] 82%|████████▏ | 39491/48008 [5:40:36<1:09:08,  2.05it/s] 82%|████████▏ | 39492/48008 [5:40:36<1:08:46,  2.06it/s] 82%|████████▏ | 39493/48008 [5:40:37<1:10:20,  2.02it/s] 82%|████████▏ | 39494/48008 [5:40:37<1:09:52,  2.03it/s] 82%|████████▏ | 39495/48008 [5:40:38<1:09:25,  2.04it/s] 82%|████████▏ | 39496/48008 [5:40:38<1:09:05,  2.05it/s] 82%|████████▏ | 39497/48008 [5:40:39<1:08:53,  2.06it/s] 82%|████████▏ | 39498/48008 [5:40:40<1:25:41,  1.66it/s] 82%|████████▏ | 39499/48008 [5:40:40<1:17:41,  1.83it/s] 82%|████████▏ | 39500/48008 [5:40:40<1:12:09,  1.97it/s]                                                         {'loss': 4.2224, 'grad_norm': 0.10107679665088654, 'learning_rate': 3.544825862356274e-05, 'epoch': 0.82}
 82%|████████▏ | 39500/48008 [5:40:40<1:12:09,  1.97it/s] 82%|████████▏ | 39501/48008 [5:40:41<1:08:14,  2.08it/s] 82%|████████▏ | 39502/48008 [5:40:42<1:16:37,  1.85it/s] 82%|████████▏ | 39503/48008 [5:40:42<1:14:05,  1.91it/s] 82%|████████▏ | 39504/48008 [5:40:42<1:09:39,  2.03it/s] 82%|████████▏ | 39505/48008 [5:40:43<1:06:23,  2.13it/s] 82%|████████▏ | 39506/48008 [5:40:43<1:07:58,  2.08it/s] 82%|████████▏ | 39507/48008 [5:40:44<1:08:05,  2.08it/s] 82%|████████▏ | 39508/48008 [5:40:44<1:10:44,  2.00it/s] 82%|████████▏ | 39509/48008 [5:40:45<1:07:05,  2.11it/s] 82%|████████▏ | 39510/48008 [5:40:45<1:07:14,  2.11it/s] 82%|████████▏ | 39511/48008 [5:40:46<1:04:29,  2.20it/s] 82%|████████▏ | 39512/48008 [5:40:46<1:05:34,  2.16it/s] 82%|████████▏ | 39513/48008 [5:40:47<1:06:18,  2.14it/s] 82%|████████▏ | 39514/48008 [5:40:47<1:08:31,  2.07it/s] 82%|████████▏ | 39515/48008 [5:40:48<1:11:01,  1.99it/s] 82%|████████▏ | 39516/48008 [5:40:48<1:09:55,  2.02it/s] 82%|████████▏ | 39517/48008 [5:40:49<1:10:32,  2.01it/s] 82%|████████▏ | 39518/48008 [5:40:49<1:07:03,  2.11it/s] 82%|████████▏ | 39519/48008 [5:40:50<1:15:33,  1.87it/s] 82%|████████▏ | 39520/48008 [5:40:50<1:13:10,  1.93it/s] 82%|████████▏ | 39521/48008 [5:40:51<1:11:44,  1.97it/s] 82%|████████▏ | 39522/48008 [5:40:51<1:10:27,  2.01it/s] 82%|████████▏ | 39523/48008 [5:40:52<1:09:57,  2.02it/s] 82%|████████▏ | 39524/48008 [5:40:52<1:10:47,  2.00it/s] 82%|████████▏ | 39525/48008 [5:40:53<1:10:02,  2.02it/s] 82%|████████▏ | 39526/48008 [5:40:53<1:09:24,  2.04it/s] 82%|████████▏ | 39527/48008 [5:40:54<1:11:23,  1.98it/s] 82%|████████▏ | 39528/48008 [5:40:54<1:10:18,  2.01it/s] 82%|████████▏ | 39529/48008 [5:40:55<1:11:15,  1.98it/s] 82%|████████▏ | 39530/48008 [5:40:55<1:10:11,  2.01it/s] 82%|████████▏ | 39531/48008 [5:40:56<1:09:31,  2.03it/s] 82%|████████▏ | 39532/48008 [5:40:56<1:09:15,  2.04it/s] 82%|████████▏ | 39533/48008 [5:40:57<1:06:11,  2.13it/s] 82%|████████▏ | 39534/48008 [5:40:57<1:04:02,  2.21it/s] 82%|████████▏ | 39535/48008 [5:40:58<1:05:12,  2.17it/s] 82%|████████▏ | 39536/48008 [5:40:58<1:06:00,  2.14it/s] 82%|████████▏ | 39537/48008 [5:40:58<1:06:34,  2.12it/s] 82%|████████▏ | 39538/48008 [5:40:59<1:07:07,  2.10it/s] 82%|████████▏ | 39539/48008 [5:40:59<1:08:58,  2.05it/s] 82%|████████▏ | 39540/48008 [5:41:00<1:10:14,  2.01it/s] 82%|████████▏ | 39541/48008 [5:41:01<1:17:32,  1.82it/s] 82%|████████▏ | 39542/48008 [5:41:01<1:14:31,  1.89it/s] 82%|████████▏ | 39543/48008 [5:41:02<1:14:19,  1.90it/s] 82%|████████▏ | 39544/48008 [5:41:02<1:12:31,  1.95it/s] 82%|████████▏ | 39545/48008 [5:41:03<1:13:47,  1.91it/s] 82%|████████▏ | 39546/48008 [5:41:03<1:13:02,  1.93it/s] 82%|████████▏ | 39547/48008 [5:41:04<1:11:38,  1.97it/s] 82%|████████▏ | 39548/48008 [5:41:04<1:10:44,  1.99it/s] 82%|████████▏ | 39549/48008 [5:41:05<1:12:29,  1.94it/s] 82%|████████▏ | 39550/48008 [5:41:05<1:11:01,  1.98it/s]                                                         {'loss': 4.2313, 'grad_norm': 0.10274527221918106, 'learning_rate': 3.523996000666556e-05, 'epoch': 0.82}
 82%|████████▏ | 39550/48008 [5:41:05<1:11:01,  1.98it/s] 82%|████████▏ | 39551/48008 [5:41:06<1:10:03,  2.01it/s] 82%|████████▏ | 39552/48008 [5:41:06<1:09:18,  2.03it/s] 82%|████████▏ | 39553/48008 [5:41:07<1:10:12,  2.01it/s] 82%|████████▏ | 39554/48008 [5:41:07<1:09:27,  2.03it/s] 82%|████████▏ | 39555/48008 [5:41:08<1:41:50,  1.38it/s] 82%|████████▏ | 39556/48008 [5:41:09<1:33:22,  1.51it/s] 82%|████████▏ | 39557/48008 [5:41:09<1:28:11,  1.60it/s] 82%|████████▏ | 39558/48008 [5:41:10<1:22:13,  1.71it/s] 82%|████████▏ | 39559/48008 [5:41:10<1:19:04,  1.78it/s] 82%|████████▏ | 39560/48008 [5:41:11<1:12:56,  1.93it/s] 82%|████████▏ | 39561/48008 [5:41:11<1:11:31,  1.97it/s] 82%|████████▏ | 39562/48008 [5:41:12<1:12:00,  1.95it/s] 82%|████████▏ | 39563/48008 [5:41:12<1:11:02,  1.98it/s] 82%|████████▏ | 39564/48008 [5:41:13<1:10:55,  1.98it/s] 82%|████████▏ | 39565/48008 [5:41:13<1:07:29,  2.08it/s] 82%|████████▏ | 39566/48008 [5:41:14<1:08:31,  2.05it/s] 82%|████████▏ | 39567/48008 [5:41:14<1:09:31,  2.02it/s] 82%|████████▏ | 39568/48008 [5:41:15<1:06:20,  2.12it/s] 82%|████████▏ | 39569/48008 [5:41:15<1:06:54,  2.10it/s] 82%|████████▏ | 39570/48008 [5:41:16<1:06:58,  2.10it/s] 82%|████████▏ | 39571/48008 [5:41:16<1:08:20,  2.06it/s] 82%|████████▏ | 39572/48008 [5:41:17<1:08:11,  2.06it/s] 82%|████████▏ | 39573/48008 [5:41:17<1:08:52,  2.04it/s] 82%|████████▏ | 39574/48008 [5:41:18<1:08:27,  2.05it/s] 82%|████████▏ | 39575/48008 [5:41:18<1:08:16,  2.06it/s] 82%|████████▏ | 39576/48008 [5:41:19<1:10:19,  2.00it/s] 82%|████████▏ | 39577/48008 [5:41:19<1:10:55,  1.98it/s] 82%|████████▏ | 39578/48008 [5:41:20<1:09:51,  2.01it/s] 82%|████████▏ | 39579/48008 [5:41:20<1:09:59,  2.01it/s] 82%|████████▏ | 39580/48008 [5:41:21<1:17:21,  1.82it/s] 82%|████████▏ | 39581/48008 [5:41:21<1:14:22,  1.89it/s] 82%|████████▏ | 39582/48008 [5:41:22<1:20:17,  1.75it/s] 82%|████████▏ | 39583/48008 [5:41:23<1:17:59,  1.80it/s] 82%|████████▏ | 39584/48008 [5:41:23<1:22:48,  1.70it/s] 82%|████████▏ | 39585/48008 [5:41:24<1:20:05,  1.75it/s] 82%|████████▏ | 39586/48008 [5:41:24<1:16:22,  1.84it/s] 82%|████████▏ | 39587/48008 [5:41:25<1:13:41,  1.90it/s] 82%|████████▏ | 39588/48008 [5:41:26<1:28:45,  1.58it/s] 82%|████████▏ | 39589/48008 [5:41:26<1:23:42,  1.68it/s] 82%|████████▏ | 39590/48008 [5:41:27<1:19:04,  1.77it/s] 82%|████████▏ | 39591/48008 [5:41:27<1:15:46,  1.85it/s] 82%|████████▏ | 39592/48008 [5:41:28<1:14:08,  1.89it/s] 82%|████████▏ | 39593/48008 [5:41:28<1:09:25,  2.02it/s] 82%|████████▏ | 39594/48008 [5:41:28<1:10:05,  2.00it/s] 82%|████████▏ | 39595/48008 [5:41:29<1:09:34,  2.02it/s] 82%|████████▏ | 39596/48008 [5:41:29<1:08:54,  2.03it/s] 82%|████████▏ | 39597/48008 [5:41:30<1:09:19,  2.02it/s] 82%|████████▏ | 39598/48008 [5:41:30<1:09:53,  2.01it/s] 82%|████████▏ | 39599/48008 [5:41:31<1:09:59,  2.00it/s] 82%|████████▏ | 39600/48008 [5:41:32<1:41:37,  1.38it/s]                                                         {'loss': 4.2723, 'grad_norm': 0.0937672108411789, 'learning_rate': 3.503166138976837e-05, 'epoch': 0.82}
 82%|████████▏ | 39600/48008 [5:41:32<1:41:37,  1.38it/s] 82%|████████▏ | 39601/48008 [5:41:33<1:31:25,  1.53it/s] 82%|████████▏ | 39602/48008 [5:41:33<1:21:37,  1.72it/s] 82%|████████▏ | 39603/48008 [5:41:34<1:14:48,  1.87it/s] 82%|████████▏ | 39604/48008 [5:41:34<1:13:36,  1.90it/s] 82%|████████▏ | 39605/48008 [5:41:35<1:11:51,  1.95it/s] 82%|████████▏ | 39606/48008 [5:41:35<1:07:49,  2.06it/s] 83%|████████▎ | 39607/48008 [5:41:35<1:09:27,  2.02it/s] 83%|████████▎ | 39608/48008 [5:41:36<1:06:09,  2.12it/s] 83%|████████▎ | 39609/48008 [5:41:36<1:07:34,  2.07it/s] 83%|████████▎ | 39610/48008 [5:41:37<1:07:29,  2.07it/s] 83%|████████▎ | 39611/48008 [5:41:37<1:04:48,  2.16it/s] 83%|████████▎ | 39612/48008 [5:41:38<1:05:46,  2.13it/s] 83%|████████▎ | 39613/48008 [5:41:39<1:38:34,  1.42it/s] 83%|████████▎ | 39614/48008 [5:41:40<1:29:07,  1.57it/s] 83%|████████▎ | 39615/48008 [5:41:40<1:23:01,  1.68it/s] 83%|████████▎ | 39616/48008 [5:41:40<1:18:24,  1.78it/s] 83%|████████▎ | 39617/48008 [5:41:41<1:15:29,  1.85it/s] 83%|████████▎ | 39618/48008 [5:41:41<1:13:03,  1.91it/s] 83%|████████▎ | 39619/48008 [5:41:42<1:19:15,  1.76it/s] 83%|████████▎ | 39620/48008 [5:41:43<1:17:33,  1.80it/s] 83%|████████▎ | 39621/48008 [5:41:43<1:16:03,  1.84it/s] 83%|████████▎ | 39622/48008 [5:41:44<1:14:47,  1.87it/s] 83%|████████▎ | 39623/48008 [5:41:44<1:09:39,  2.01it/s] 83%|████████▎ | 39624/48008 [5:41:45<1:41:13,  1.38it/s] 83%|████████▎ | 39625/48008 [5:41:46<1:31:19,  1.53it/s] 83%|████████▎ | 39626/48008 [5:41:46<1:24:07,  1.66it/s] 83%|████████▎ | 39627/48008 [5:41:47<1:19:06,  1.77it/s] 83%|████████▎ | 39628/48008 [5:41:47<1:17:15,  1.81it/s] 83%|████████▎ | 39629/48008 [5:41:49<1:47:02,  1.30it/s] 83%|████████▎ | 39630/48008 [5:41:49<1:36:00,  1.45it/s] 83%|████████▎ | 39631/48008 [5:41:50<1:28:16,  1.58it/s] 83%|████████▎ | 39632/48008 [5:41:50<1:21:51,  1.71it/s] 83%|████████▎ | 39633/48008 [5:41:51<1:17:19,  1.80it/s] 83%|████████▎ | 39634/48008 [5:41:51<1:14:24,  1.88it/s] 83%|████████▎ | 39635/48008 [5:41:52<1:13:27,  1.90it/s] 83%|████████▎ | 39636/48008 [5:41:52<1:08:55,  2.02it/s] 83%|████████▎ | 39637/48008 [5:41:52<1:09:16,  2.01it/s] 83%|████████▎ | 39638/48008 [5:41:53<1:08:37,  2.03it/s] 83%|████████▎ | 39639/48008 [5:41:53<1:08:11,  2.05it/s] 83%|████████▎ | 39640/48008 [5:41:54<1:07:56,  2.05it/s] 83%|████████▎ | 39641/48008 [5:41:54<1:07:43,  2.06it/s] 83%|████████▎ | 39642/48008 [5:41:55<1:09:13,  2.01it/s] 83%|████████▎ | 39643/48008 [5:41:55<1:10:51,  1.97it/s] 83%|████████▎ | 39644/48008 [5:41:56<1:11:41,  1.94it/s] 83%|████████▎ | 39645/48008 [5:41:57<1:11:19,  1.95it/s] 83%|████████▎ | 39646/48008 [5:41:57<1:07:13,  2.07it/s] 83%|████████▎ | 39647/48008 [5:41:57<1:08:57,  2.02it/s] 83%|████████▎ | 39648/48008 [5:41:58<1:24:43,  1.64it/s] 83%|████████▎ | 39649/48008 [5:41:59<1:20:17,  1.74it/s] 83%|████████▎ | 39650/48008 [5:41:59<1:16:28,  1.82it/s]                                                         {'loss': 4.2464, 'grad_norm': 0.10010110586881638, 'learning_rate': 3.4823362772871186e-05, 'epoch': 0.83} 83%|████████▎ | 39650/48008 [5:41:59<1:16:28,  1.82it/s]
 83%|████████▎ | 39651/48008 [5:42:01<1:45:55,  1.32it/s] 83%|████████▎ | 39652/48008 [5:42:01<1:31:23,  1.52it/s] 83%|████████▎ | 39653/48008 [5:42:01<1:25:50,  1.62it/s] 83%|████████▎ | 39654/48008 [5:42:02<1:22:01,  1.70it/s] 83%|████████▎ | 39655/48008 [5:42:03<1:19:06,  1.76it/s] 83%|████████▎ | 39656/48008 [5:42:03<1:16:14,  1.83it/s] 83%|████████▎ | 39657/48008 [5:42:04<1:14:30,  1.87it/s] 83%|████████▎ | 39658/48008 [5:42:04<1:12:16,  1.93it/s] 83%|████████▎ | 39659/48008 [5:42:05<1:18:55,  1.76it/s] 83%|████████▎ | 39660/48008 [5:42:06<1:47:28,  1.29it/s] 83%|████████▎ | 39661/48008 [5:42:06<1:32:22,  1.51it/s] 83%|████████▎ | 39662/48008 [5:42:07<1:32:48,  1.50it/s] 83%|████████▎ | 39663/48008 [5:42:08<1:25:15,  1.63it/s] 83%|████████▎ | 39664/48008 [5:42:08<1:21:38,  1.70it/s] 83%|████████▎ | 39665/48008 [5:42:09<1:19:31,  1.75it/s] 83%|████████▎ | 39666/48008 [5:42:09<1:13:07,  1.90it/s] 83%|████████▎ | 39667/48008 [5:42:09<1:11:38,  1.94it/s] 83%|████████▎ | 39668/48008 [5:42:10<1:07:23,  2.06it/s] 83%|████████▎ | 39669/48008 [5:42:10<1:08:16,  2.04it/s] 83%|████████▎ | 39670/48008 [5:42:11<1:07:58,  2.04it/s] 83%|████████▎ | 39671/48008 [5:42:11<1:07:41,  2.05it/s] 83%|████████▎ | 39672/48008 [5:42:12<1:08:15,  2.04it/s] 83%|████████▎ | 39673/48008 [5:42:12<1:05:05,  2.13it/s] 83%|████████▎ | 39674/48008 [5:42:13<1:03:02,  2.20it/s] 83%|████████▎ | 39675/48008 [5:42:13<1:05:40,  2.11it/s] 83%|████████▎ | 39676/48008 [5:42:14<1:06:57,  2.07it/s] 83%|████████▎ | 39677/48008 [5:42:14<1:07:39,  2.05it/s] 83%|████████▎ | 39678/48008 [5:42:15<1:07:25,  2.06it/s] 83%|████████▎ | 39679/48008 [5:42:15<1:07:21,  2.06it/s] 83%|████████▎ | 39680/48008 [5:42:16<1:07:56,  2.04it/s] 83%|████████▎ | 39681/48008 [5:42:16<1:07:19,  2.06it/s] 83%|████████▎ | 39682/48008 [5:42:17<1:08:19,  2.03it/s] 83%|████████▎ | 39683/48008 [5:42:17<1:07:40,  2.05it/s] 83%|████████▎ | 39684/48008 [5:42:18<1:08:32,  2.02it/s] 83%|████████▎ | 39685/48008 [5:42:18<1:07:53,  2.04it/s] 83%|████████▎ | 39686/48008 [5:42:19<1:04:44,  2.14it/s] 83%|████████▎ | 39687/48008 [5:42:19<1:02:38,  2.21it/s] 83%|████████▎ | 39688/48008 [5:42:19<1:04:43,  2.14it/s] 83%|████████▎ | 39689/48008 [5:42:20<1:05:18,  2.12it/s] 83%|████████▎ | 39690/48008 [5:42:20<1:07:26,  2.06it/s] 83%|████████▎ | 39691/48008 [5:42:21<1:07:56,  2.04it/s] 83%|████████▎ | 39692/48008 [5:42:22<1:15:29,  1.84it/s] 83%|████████▎ | 39693/48008 [5:42:22<1:13:00,  1.90it/s] 83%|████████▎ | 39694/48008 [5:42:23<1:11:50,  1.93it/s] 83%|████████▎ | 39695/48008 [5:42:23<1:10:27,  1.97it/s] 83%|████████▎ | 39696/48008 [5:42:24<1:05:05,  2.13it/s] 83%|████████▎ | 39697/48008 [5:42:24<1:08:00,  2.04it/s] 83%|████████▎ | 39698/48008 [5:42:25<1:08:27,  2.02it/s] 83%|████████▎ | 39699/48008 [5:42:25<1:09:46,  1.98it/s] 83%|████████▎ | 39700/48008 [5:42:26<1:09:32,  1.99it/s]                                                         {'loss': 4.2697, 'grad_norm': 0.09927500784397125, 'learning_rate': 3.461506415597401e-05, 'epoch': 0.83}
 83%|████████▎ | 39700/48008 [5:42:26<1:09:32,  1.99it/s] 83%|████████▎ | 39701/48008 [5:42:26<1:08:42,  2.01it/s] 83%|████████▎ | 39702/48008 [5:42:27<1:08:06,  2.03it/s] 83%|████████▎ | 39703/48008 [5:42:27<1:07:49,  2.04it/s] 83%|████████▎ | 39704/48008 [5:42:28<1:07:28,  2.05it/s] 83%|████████▎ | 39705/48008 [5:42:28<1:08:10,  2.03it/s] 83%|████████▎ | 39706/48008 [5:42:28<1:07:36,  2.05it/s] 83%|████████▎ | 39707/48008 [5:42:29<1:04:36,  2.14it/s] 83%|████████▎ | 39708/48008 [5:42:29<1:05:10,  2.12it/s] 83%|████████▎ | 39709/48008 [5:42:30<1:05:29,  2.11it/s] 83%|████████▎ | 39710/48008 [5:42:30<1:06:43,  2.07it/s] 83%|████████▎ | 39711/48008 [5:42:31<1:06:35,  2.08it/s] 83%|████████▎ | 39712/48008 [5:42:31<1:06:28,  2.08it/s] 83%|████████▎ | 39713/48008 [5:42:32<1:06:32,  2.08it/s] 83%|████████▎ | 39714/48008 [5:42:32<1:06:35,  2.08it/s] 83%|████████▎ | 39715/48008 [5:42:33<1:03:55,  2.16it/s] 83%|████████▎ | 39716/48008 [5:42:33<1:04:36,  2.14it/s] 83%|████████▎ | 39717/48008 [5:42:34<1:06:12,  2.09it/s] 83%|████████▎ | 39718/48008 [5:42:34<1:06:42,  2.07it/s] 83%|████████▎ | 39719/48008 [5:42:35<1:06:37,  2.07it/s] 83%|████████▎ | 39720/48008 [5:42:35<1:08:00,  2.03it/s] 83%|████████▎ | 39721/48008 [5:42:36<1:07:17,  2.05it/s] 83%|████████▎ | 39722/48008 [5:42:36<1:07:11,  2.06it/s] 83%|████████▎ | 39723/48008 [5:42:37<1:07:08,  2.06it/s] 83%|████████▎ | 39724/48008 [5:42:37<1:09:27,  1.99it/s] 83%|████████▎ | 39725/48008 [5:42:38<1:16:22,  1.81it/s] 83%|████████▎ | 39726/48008 [5:42:38<1:14:18,  1.86it/s] 83%|████████▎ | 39727/48008 [5:42:39<1:13:24,  1.88it/s] 83%|████████▎ | 39728/48008 [5:42:40<1:27:38,  1.57it/s] 83%|████████▎ | 39729/48008 [5:42:40<1:22:15,  1.68it/s] 83%|████████▎ | 39730/48008 [5:42:41<1:17:41,  1.78it/s] 83%|████████▎ | 39731/48008 [5:42:41<1:14:07,  1.86it/s] 83%|████████▎ | 39732/48008 [5:42:42<1:11:58,  1.92it/s] 83%|████████▎ | 39733/48008 [5:42:42<1:11:26,  1.93it/s] 83%|████████▎ | 39734/48008 [5:42:43<1:10:39,  1.95it/s] 83%|████████▎ | 39735/48008 [5:42:43<1:06:37,  2.07it/s] 83%|████████▎ | 39736/48008 [5:42:44<1:06:32,  2.07it/s] 83%|████████▎ | 39737/48008 [5:42:44<1:07:30,  2.04it/s] 83%|████████▎ | 39738/48008 [5:42:45<1:09:42,  1.98it/s] 83%|████████▎ | 39739/48008 [5:42:45<1:09:40,  1.98it/s] 83%|████████▎ | 39740/48008 [5:42:46<1:05:58,  2.09it/s] 83%|████████▎ | 39741/48008 [5:42:46<1:05:58,  2.09it/s] 83%|████████▎ | 39742/48008 [5:42:47<1:06:12,  2.08it/s] 83%|████████▎ | 39743/48008 [5:42:47<1:03:27,  2.17it/s] 83%|████████▎ | 39744/48008 [5:42:47<1:01:41,  2.23it/s] 83%|████████▎ | 39745/48008 [5:42:48<1:03:14,  2.18it/s] 83%|████████▎ | 39746/48008 [5:42:48<1:04:13,  2.14it/s] 83%|████████▎ | 39747/48008 [5:42:49<1:04:40,  2.13it/s] 83%|████████▎ | 39748/48008 [5:42:49<1:02:21,  2.21it/s] 83%|████████▎ | 39749/48008 [5:42:50<1:03:23,  2.17it/s] 83%|████████▎ | 39750/48008 [5:42:50<1:06:02,  2.08it/s]                                                         {'loss': 4.2644, 'grad_norm': 0.08403855562210083, 'learning_rate': 3.440676553907682e-05, 'epoch': 0.83} 83%|████████▎ | 39750/48008 [5:42:50<1:06:02,  2.08it/s]
 83%|████████▎ | 39751/48008 [5:42:51<1:06:01,  2.08it/s] 83%|████████▎ | 39752/48008 [5:42:51<1:07:18,  2.04it/s] 83%|████████▎ | 39753/48008 [5:42:52<1:07:49,  2.03it/s] 83%|████████▎ | 39754/48008 [5:42:52<1:08:12,  2.02it/s] 83%|████████▎ | 39755/48008 [5:42:53<1:15:36,  1.82it/s] 83%|████████▎ | 39756/48008 [5:42:53<1:13:45,  1.86it/s] 83%|████████▎ | 39757/48008 [5:42:54<1:08:59,  1.99it/s] 83%|████████▎ | 39758/48008 [5:42:54<1:09:07,  1.99it/s] 83%|████████▎ | 39759/48008 [5:42:55<1:09:07,  1.99it/s] 83%|████████▎ | 39760/48008 [5:42:56<1:24:46,  1.62it/s] 83%|████████▎ | 39761/48008 [5:42:56<1:20:50,  1.70it/s] 83%|████████▎ | 39762/48008 [5:42:57<1:13:40,  1.87it/s] 83%|████████▎ | 39763/48008 [5:42:57<1:08:40,  2.00it/s] 83%|████████▎ | 39764/48008 [5:42:58<1:07:50,  2.03it/s] 83%|████████▎ | 39765/48008 [5:42:58<1:04:49,  2.12it/s] 83%|████████▎ | 39766/48008 [5:42:58<1:06:11,  2.08it/s] 83%|████████▎ | 39767/48008 [5:42:59<1:07:06,  2.05it/s] 83%|████████▎ | 39768/48008 [5:42:59<1:08:16,  2.01it/s] 83%|████████▎ | 39769/48008 [5:43:00<1:08:39,  2.00it/s] 83%|████████▎ | 39770/48008 [5:43:00<1:07:54,  2.02it/s] 83%|████████▎ | 39771/48008 [5:43:01<1:07:15,  2.04it/s] 83%|████████▎ | 39772/48008 [5:43:02<1:38:23,  1.40it/s] 83%|████████▎ | 39773/48008 [5:43:03<1:28:41,  1.55it/s] 83%|████████▎ | 39774/48008 [5:43:03<1:30:13,  1.52it/s] 83%|████████▎ | 39775/48008 [5:43:04<1:22:51,  1.66it/s] 83%|████████▎ | 39776/48008 [5:43:05<1:34:20,  1.45it/s] 83%|████████▎ | 39777/48008 [5:43:05<1:26:09,  1.59it/s] 83%|████████▎ | 39778/48008 [5:43:06<1:36:23,  1.42it/s] 83%|████████▎ | 39779/48008 [5:43:07<1:28:33,  1.55it/s] 83%|████████▎ | 39780/48008 [5:43:07<1:21:40,  1.68it/s] 83%|████████▎ | 39781/48008 [5:43:08<1:16:55,  1.78it/s] 83%|████████▎ | 39782/48008 [5:43:08<1:15:21,  1.82it/s] 83%|████████▎ | 39783/48008 [5:43:09<1:12:49,  1.88it/s] 83%|████████▎ | 39784/48008 [5:43:09<1:07:53,  2.02it/s] 83%|████████▎ | 39785/48008 [5:43:09<1:07:11,  2.04it/s] 83%|████████▎ | 39786/48008 [5:43:10<1:07:51,  2.02it/s] 83%|████████▎ | 39787/48008 [5:43:10<1:07:11,  2.04it/s] 83%|████████▎ | 39788/48008 [5:43:11<1:06:42,  2.05it/s] 83%|████████▎ | 39789/48008 [5:43:11<1:03:48,  2.15it/s] 83%|████████▎ | 39790/48008 [5:43:12<1:05:38,  2.09it/s] 83%|████████▎ | 39791/48008 [5:43:12<1:05:36,  2.09it/s] 83%|████████▎ | 39792/48008 [5:43:13<1:05:32,  2.09it/s] 83%|████████▎ | 39793/48008 [5:43:13<1:06:38,  2.05it/s] 83%|████████▎ | 39794/48008 [5:43:14<1:06:39,  2.05it/s] 83%|████████▎ | 39795/48008 [5:43:14<1:03:49,  2.14it/s] 83%|████████▎ | 39796/48008 [5:43:15<1:04:26,  2.12it/s] 83%|████████▎ | 39797/48008 [5:43:15<1:12:46,  1.88it/s] 83%|████████▎ | 39798/48008 [5:43:16<1:10:32,  1.94it/s] 83%|████████▎ | 39799/48008 [5:43:16<1:09:59,  1.95it/s] 83%|████████▎ | 39800/48008 [5:43:17<1:10:16,  1.95it/s]                                                         {'loss': 4.2238, 'grad_norm': 0.11056701838970184, 'learning_rate': 3.419846692217964e-05, 'epoch': 0.83}
 83%|████████▎ | 39800/48008 [5:43:17<1:10:16,  1.95it/s] 83%|████████▎ | 39801/48008 [5:43:17<1:09:53,  1.96it/s] 83%|████████▎ | 39802/48008 [5:43:18<1:05:55,  2.07it/s] 83%|████████▎ | 39803/48008 [5:43:18<1:05:58,  2.07it/s] 83%|████████▎ | 39804/48008 [5:43:19<1:03:12,  2.16it/s] 83%|████████▎ | 39805/48008 [5:43:20<1:20:13,  1.70it/s] 83%|████████▎ | 39806/48008 [5:43:20<1:13:18,  1.86it/s] 83%|████████▎ | 39807/48008 [5:43:20<1:10:48,  1.93it/s] 83%|████████▎ | 39808/48008 [5:43:21<1:09:19,  1.97it/s] 83%|████████▎ | 39809/48008 [5:43:21<1:09:34,  1.96it/s] 83%|████████▎ | 39810/48008 [5:43:22<1:08:12,  2.00it/s] 83%|████████▎ | 39811/48008 [5:43:22<1:07:39,  2.02it/s] 83%|████████▎ | 39812/48008 [5:43:23<1:08:09,  2.00it/s] 83%|████████▎ | 39813/48008 [5:43:23<1:07:36,  2.02it/s] 83%|████████▎ | 39814/48008 [5:43:24<1:06:58,  2.04it/s] 83%|████████▎ | 39815/48008 [5:43:24<1:08:08,  2.00it/s] 83%|████████▎ | 39816/48008 [5:43:25<1:07:27,  2.02it/s] 83%|████████▎ | 39817/48008 [5:43:25<1:04:11,  2.13it/s] 83%|████████▎ | 39818/48008 [5:43:26<1:01:58,  2.20it/s] 83%|████████▎ | 39819/48008 [5:43:26<1:03:07,  2.16it/s] 83%|████████▎ | 39820/48008 [5:43:27<1:03:48,  2.14it/s] 83%|████████▎ | 39821/48008 [5:43:27<1:05:23,  2.09it/s] 83%|████████▎ | 39822/48008 [5:43:28<1:06:23,  2.05it/s] 83%|████████▎ | 39823/48008 [5:43:28<1:05:55,  2.07it/s] 83%|████████▎ | 39824/48008 [5:43:29<1:03:12,  2.16it/s] 83%|████████▎ | 39825/48008 [5:43:29<1:11:41,  1.90it/s] 83%|████████▎ | 39826/48008 [5:43:30<1:12:22,  1.88it/s] 83%|████████▎ | 39827/48008 [5:43:30<1:11:03,  1.92it/s] 83%|████████▎ | 39828/48008 [5:43:31<1:06:41,  2.04it/s] 83%|████████▎ | 39829/48008 [5:43:31<1:06:17,  2.06it/s] 83%|████████▎ | 39830/48008 [5:43:32<1:06:12,  2.06it/s] 83%|████████▎ | 39831/48008 [5:43:33<1:22:03,  1.66it/s] 83%|████████▎ | 39832/48008 [5:43:33<1:17:11,  1.77it/s] 83%|████████▎ | 39833/48008 [5:43:34<1:13:36,  1.85it/s] 83%|████████▎ | 39834/48008 [5:43:34<1:11:15,  1.91it/s] 83%|████████▎ | 39835/48008 [5:43:35<1:10:23,  1.94it/s] 83%|████████▎ | 39836/48008 [5:43:35<1:06:31,  2.05it/s] 83%|████████▎ | 39837/48008 [5:43:35<1:07:03,  2.03it/s] 83%|████████▎ | 39838/48008 [5:43:36<1:06:58,  2.03it/s] 83%|████████▎ | 39839/48008 [5:43:36<1:06:58,  2.03it/s] 83%|████████▎ | 39840/48008 [5:43:37<1:07:26,  2.02it/s] 83%|████████▎ | 39841/48008 [5:43:37<1:07:09,  2.03it/s] 83%|████████▎ | 39842/48008 [5:43:38<1:06:35,  2.04it/s] 83%|████████▎ | 39843/48008 [5:43:38<1:06:03,  2.06it/s] 83%|████████▎ | 39844/48008 [5:43:39<1:05:46,  2.07it/s] 83%|████████▎ | 39845/48008 [5:43:40<1:13:24,  1.85it/s] 83%|████████▎ | 39846/48008 [5:43:40<1:11:05,  1.91it/s] 83%|████████▎ | 39847/48008 [5:43:40<1:09:51,  1.95it/s] 83%|████████▎ | 39848/48008 [5:43:41<1:10:43,  1.92it/s] 83%|████████▎ | 39849/48008 [5:43:42<1:08:56,  1.97it/s] 83%|████████▎ | 39850/48008 [5:43:42<1:09:24,  1.96it/s]                                                         {'loss': 4.256, 'grad_norm': 0.1090872660279274, 'learning_rate': 3.3990168305282456e-05, 'epoch': 0.83}
 83%|████████▎ | 39850/48008 [5:43:42<1:09:24,  1.96it/s] 83%|████████▎ | 39851/48008 [5:43:43<1:09:47,  1.95it/s] 83%|████████▎ | 39852/48008 [5:43:43<1:09:12,  1.96it/s] 83%|████████▎ | 39853/48008 [5:43:44<1:09:06,  1.97it/s] 83%|████████▎ | 39854/48008 [5:43:44<1:24:00,  1.62it/s] 83%|████████▎ | 39855/48008 [5:43:45<1:18:34,  1.73it/s] 83%|████████▎ | 39856/48008 [5:43:45<1:11:49,  1.89it/s] 83%|████████▎ | 39857/48008 [5:43:46<1:11:05,  1.91it/s] 83%|████████▎ | 39858/48008 [5:43:46<1:05:20,  2.08it/s] 83%|████████▎ | 39859/48008 [5:43:47<1:06:27,  2.04it/s] 83%|████████▎ | 39860/48008 [5:43:47<1:06:10,  2.05it/s] 83%|████████▎ | 39861/48008 [5:43:48<1:03:16,  2.15it/s] 83%|████████▎ | 39862/48008 [5:43:48<1:04:01,  2.12it/s] 83%|████████▎ | 39863/48008 [5:43:49<1:06:35,  2.04it/s] 83%|████████▎ | 39864/48008 [5:43:49<1:14:05,  1.83it/s] 83%|████████▎ | 39865/48008 [5:43:50<1:11:25,  1.90it/s] 83%|████████▎ | 39866/48008 [5:43:50<1:11:15,  1.90it/s] 83%|████████▎ | 39867/48008 [5:43:51<1:17:31,  1.75it/s] 83%|████████▎ | 39868/48008 [5:43:52<1:21:42,  1.66it/s] 83%|████████▎ | 39869/48008 [5:43:52<1:18:12,  1.73it/s] 83%|████████▎ | 39870/48008 [5:43:53<1:11:39,  1.89it/s] 83%|████████▎ | 39871/48008 [5:43:53<1:09:33,  1.95it/s] 83%|████████▎ | 39872/48008 [5:43:54<1:08:05,  1.99it/s] 83%|████████▎ | 39873/48008 [5:43:54<1:07:18,  2.01it/s] 83%|████████▎ | 39874/48008 [5:43:55<1:06:44,  2.03it/s] 83%|████████▎ | 39875/48008 [5:43:55<1:07:49,  2.00it/s] 83%|████████▎ | 39876/48008 [5:43:56<1:07:06,  2.02it/s] 83%|████████▎ | 39877/48008 [5:43:56<1:07:14,  2.02it/s] 83%|████████▎ | 39878/48008 [5:43:56<1:03:56,  2.12it/s] 83%|████████▎ | 39879/48008 [5:43:57<1:05:21,  2.07it/s] 83%|████████▎ | 39880/48008 [5:43:57<1:05:28,  2.07it/s] 83%|████████▎ | 39881/48008 [5:43:58<1:05:31,  2.07it/s] 83%|████████▎ | 39882/48008 [5:43:58<1:02:56,  2.15it/s] 83%|████████▎ | 39883/48008 [5:43:59<1:03:44,  2.12it/s] 83%|████████▎ | 39884/48008 [5:43:59<1:04:00,  2.12it/s] 83%|████████▎ | 39885/48008 [5:44:00<1:04:31,  2.10it/s] 83%|████████▎ | 39886/48008 [5:44:00<1:01:58,  2.18it/s] 83%|████████▎ | 39887/48008 [5:44:01<1:03:50,  2.12it/s] 83%|████████▎ | 39888/48008 [5:44:01<1:01:43,  2.19it/s] 83%|████████▎ | 39889/48008 [5:44:02<1:03:34,  2.13it/s] 83%|████████▎ | 39890/48008 [5:44:02<1:04:22,  2.10it/s] 83%|████████▎ | 39891/48008 [5:44:03<1:04:42,  2.09it/s] 83%|████████▎ | 39892/48008 [5:44:03<1:04:54,  2.08it/s] 83%|████████▎ | 39893/48008 [5:44:04<1:02:32,  2.16it/s] 83%|████████▎ | 39894/48008 [5:44:04<1:00:36,  2.23it/s] 83%|████████▎ | 39895/48008 [5:44:04<1:01:54,  2.18it/s] 83%|████████▎ | 39896/48008 [5:44:05<1:02:38,  2.16it/s] 83%|████████▎ | 39897/48008 [5:44:05<1:03:29,  2.13it/s] 83%|████████▎ | 39898/48008 [5:44:06<1:01:16,  2.21it/s] 83%|████████▎ | 39899/48008 [5:44:06<1:03:50,  2.12it/s] 83%|████████▎ | 39900/48008 [5:44:07<1:04:17,  2.10it/s]                                                         {'loss': 4.1738, 'grad_norm': 0.09431155771017075, 'learning_rate': 3.378186968838527e-05, 'epoch': 0.83}
 83%|████████▎ | 39900/48008 [5:44:07<1:04:17,  2.10it/s] 83%|████████▎ | 39901/48008 [5:44:07<1:05:30,  2.06it/s] 83%|████████▎ | 39902/48008 [5:44:08<1:21:19,  1.66it/s] 83%|████████▎ | 39903/48008 [5:44:09<1:17:28,  1.74it/s] 83%|████████▎ | 39904/48008 [5:44:09<1:11:02,  1.90it/s] 83%|████████▎ | 39905/48008 [5:44:10<1:07:10,  2.01it/s] 83%|████████▎ | 39906/48008 [5:44:10<1:07:37,  2.00it/s] 83%|████████▎ | 39907/48008 [5:44:11<1:06:55,  2.02it/s] 83%|████████▎ | 39908/48008 [5:44:11<1:06:21,  2.03it/s] 83%|████████▎ | 39909/48008 [5:44:11<1:05:49,  2.05it/s] 83%|████████▎ | 39910/48008 [5:44:12<1:05:24,  2.06it/s] 83%|████████▎ | 39911/48008 [5:44:12<1:02:38,  2.15it/s] 83%|████████▎ | 39912/48008 [5:44:13<1:04:10,  2.10it/s] 83%|████████▎ | 39913/48008 [5:44:13<1:05:10,  2.07it/s] 83%|████████▎ | 39914/48008 [5:44:14<1:06:36,  2.03it/s] 83%|████████▎ | 39915/48008 [5:44:14<1:07:10,  2.01it/s] 83%|████████▎ | 39916/48008 [5:44:15<1:07:15,  2.01it/s] 83%|████████▎ | 39917/48008 [5:44:15<1:06:21,  2.03it/s] 83%|████████▎ | 39918/48008 [5:44:16<1:05:55,  2.05it/s] 83%|████████▎ | 39919/48008 [5:44:16<1:05:39,  2.05it/s] 83%|████████▎ | 39920/48008 [5:44:17<1:05:17,  2.06it/s] 83%|████████▎ | 39921/48008 [5:44:17<1:05:29,  2.06it/s] 83%|████████▎ | 39922/48008 [5:44:18<1:07:39,  1.99it/s] 83%|████████▎ | 39923/48008 [5:44:18<1:04:10,  2.10it/s] 83%|████████▎ | 39924/48008 [5:44:19<1:04:27,  2.09it/s] 83%|████████▎ | 39925/48008 [5:44:19<1:05:43,  2.05it/s] 83%|████████▎ | 39926/48008 [5:44:20<1:06:22,  2.03it/s] 83%|████████▎ | 39927/48008 [5:44:20<1:06:44,  2.02it/s] 83%|████████▎ | 39928/48008 [5:44:21<1:07:40,  1.99it/s] 83%|████████▎ | 39929/48008 [5:44:21<1:04:08,  2.10it/s] 83%|████████▎ | 39930/48008 [5:44:22<1:04:37,  2.08it/s] 83%|████████▎ | 39931/48008 [5:44:22<1:05:38,  2.05it/s] 83%|████████▎ | 39932/48008 [5:44:23<1:02:39,  2.15it/s] 83%|████████▎ | 39933/48008 [5:44:23<1:03:18,  2.13it/s] 83%|████████▎ | 39934/48008 [5:44:24<1:03:40,  2.11it/s] 83%|████████▎ | 39935/48008 [5:44:24<1:01:27,  2.19it/s] 83%|████████▎ | 39936/48008 [5:44:24<1:02:27,  2.15it/s] 83%|████████▎ | 39937/48008 [5:44:25<1:03:08,  2.13it/s] 83%|████████▎ | 39938/48008 [5:44:26<1:11:36,  1.88it/s] 83%|████████▎ | 39939/48008 [5:44:26<1:06:38,  2.02it/s] 83%|████████▎ | 39940/48008 [5:44:26<1:03:36,  2.11it/s] 83%|████████▎ | 39941/48008 [5:44:27<1:03:51,  2.11it/s] 83%|████████▎ | 39942/48008 [5:44:27<1:01:27,  2.19it/s] 83%|████████▎ | 39943/48008 [5:44:28<1:04:55,  2.07it/s] 83%|████████▎ | 39944/48008 [5:44:28<1:05:49,  2.04it/s] 83%|████████▎ | 39945/48008 [5:44:29<1:06:36,  2.02it/s] 83%|████████▎ | 39946/48008 [5:44:29<1:06:45,  2.01it/s] 83%|████████▎ | 39947/48008 [5:44:30<1:03:12,  2.13it/s] 83%|████████▎ | 39948/48008 [5:44:30<1:01:04,  2.20it/s] 83%|████████▎ | 39949/48008 [5:44:31<59:43,  2.25it/s]   83%|████████▎ | 39950/48008 [5:44:31<1:01:04,  2.20it/s]                                                         {'loss': 4.2092, 'grad_norm': 0.11001317203044891, 'learning_rate': 3.3573571071488084e-05, 'epoch': 0.83}
 83%|████████▎ | 39950/48008 [5:44:31<1:01:04,  2.20it/s] 83%|████████▎ | 39951/48008 [5:44:32<59:37,  2.25it/s]   83%|████████▎ | 39952/48008 [5:44:32<1:01:07,  2.20it/s] 83%|████████▎ | 39953/48008 [5:44:33<1:02:00,  2.16it/s] 83%|████████▎ | 39954/48008 [5:44:33<1:00:11,  2.23it/s] 83%|████████▎ | 39955/48008 [5:44:33<1:01:38,  2.18it/s] 83%|████████▎ | 39956/48008 [5:44:34<1:02:40,  2.14it/s] 83%|████████▎ | 39957/48008 [5:44:34<1:03:26,  2.12it/s] 83%|████████▎ | 39958/48008 [5:44:35<1:05:59,  2.03it/s] 83%|████████▎ | 39959/48008 [5:44:35<1:03:09,  2.12it/s] 83%|████████▎ | 39960/48008 [5:44:37<1:34:37,  1.42it/s] 83%|████████▎ | 39961/48008 [5:44:37<1:21:33,  1.64it/s] 83%|████████▎ | 39962/48008 [5:44:37<1:17:26,  1.73it/s] 83%|████████▎ | 39963/48008 [5:44:38<1:14:32,  1.80it/s] 83%|████████▎ | 39964/48008 [5:44:39<1:13:05,  1.83it/s] 83%|████████▎ | 39965/48008 [5:44:39<1:12:51,  1.84it/s] 83%|████████▎ | 39966/48008 [5:44:40<1:11:14,  1.88it/s] 83%|████████▎ | 39967/48008 [5:44:41<1:40:03,  1.34it/s] 83%|████████▎ | 39968/48008 [5:44:41<1:30:31,  1.48it/s] 83%|████████▎ | 39969/48008 [5:44:42<1:22:34,  1.62it/s] 83%|████████▎ | 39970/48008 [5:44:42<1:14:27,  1.80it/s] 83%|████████▎ | 39971/48008 [5:44:43<1:12:38,  1.84it/s] 83%|████████▎ | 39972/48008 [5:44:43<1:10:28,  1.90it/s] 83%|████████▎ | 39973/48008 [5:44:44<1:10:17,  1.90it/s] 83%|████████▎ | 39974/48008 [5:44:44<1:05:56,  2.03it/s] 83%|████████▎ | 39975/48008 [5:44:45<1:02:52,  2.13it/s] 83%|████████▎ | 39976/48008 [5:44:45<1:03:07,  2.12it/s] 83%|████████▎ | 39977/48008 [5:44:46<1:03:41,  2.10it/s] 83%|████████▎ | 39978/48008 [5:44:46<1:04:11,  2.08it/s] 83%|████████▎ | 39979/48008 [5:44:47<1:05:38,  2.04it/s] 83%|████████▎ | 39980/48008 [5:44:47<1:06:42,  2.01it/s] 83%|████████▎ | 39981/48008 [5:44:48<1:06:09,  2.02it/s] 83%|████████▎ | 39982/48008 [5:44:48<1:05:48,  2.03it/s] 83%|████████▎ | 39983/48008 [5:44:49<1:06:42,  2.01it/s] 83%|████████▎ | 39984/48008 [5:44:49<1:05:54,  2.03it/s] 83%|████████▎ | 39985/48008 [5:44:49<1:05:22,  2.05it/s] 83%|████████▎ | 39986/48008 [5:44:50<1:05:52,  2.03it/s] 83%|████████▎ | 39987/48008 [5:44:50<1:05:23,  2.04it/s] 83%|████████▎ | 39988/48008 [5:44:51<1:05:19,  2.05it/s] 83%|████████▎ | 39989/48008 [5:44:51<1:05:02,  2.05it/s] 83%|████████▎ | 39990/48008 [5:44:52<1:05:03,  2.05it/s] 83%|████████▎ | 39991/48008 [5:44:52<1:05:42,  2.03it/s] 83%|████████▎ | 39992/48008 [5:44:53<1:05:11,  2.05it/s] 83%|████████▎ | 39993/48008 [5:44:53<1:04:58,  2.06it/s] 83%|████████▎ | 39994/48008 [5:44:54<1:02:18,  2.14it/s] 83%|████████▎ | 39995/48008 [5:44:54<1:03:46,  2.09it/s] 83%|████████▎ | 39996/48008 [5:44:55<1:04:11,  2.08it/s] 83%|████████▎ | 39997/48008 [5:44:55<1:01:52,  2.16it/s] 83%|████████▎ | 39998/48008 [5:44:56<1:03:49,  2.09it/s] 83%|████████▎ | 39999/48008 [5:44:56<1:05:10,  2.05it/s] 83%|████████▎ | 40000/48008 [5:44:57<1:02:28,  2.14it/s]                                                         {'loss': 4.1845, 'grad_norm': 0.10444143414497375, 'learning_rate': 3.33652724545909e-05, 'epoch': 0.83} 83%|████████▎ | 40000/48008 [5:44:57<1:02:28,  2.14it/s]
 83%|████████▎ | 40001/48008 [5:44:57<1:02:52,  2.12it/s] 83%|████████▎ | 40002/48008 [5:44:58<1:03:04,  2.12it/s] 83%|████████▎ | 40003/48008 [5:44:58<1:00:41,  2.20it/s] 83%|████████▎ | 40004/48008 [5:44:59<1:04:05,  2.08it/s] 83%|████████▎ | 40005/48008 [5:44:59<1:01:25,  2.17it/s] 83%|████████▎ | 40006/48008 [5:44:59<1:02:11,  2.14it/s] 83%|████████▎ | 40007/48008 [5:45:00<1:03:32,  2.10it/s] 83%|████████▎ | 40008/48008 [5:45:00<1:01:03,  2.18it/s] 83%|████████▎ | 40009/48008 [5:45:01<1:02:03,  2.15it/s] 83%|████████▎ | 40010/48008 [5:45:01<1:02:34,  2.13it/s] 83%|████████▎ | 40011/48008 [5:45:02<1:02:56,  2.12it/s] 83%|████████▎ | 40012/48008 [5:45:02<1:00:58,  2.19it/s] 83%|████████▎ | 40013/48008 [5:45:03<1:09:32,  1.92it/s] 83%|████████▎ | 40014/48008 [5:45:04<1:23:44,  1.59it/s] 83%|████████▎ | 40015/48008 [5:45:04<1:18:52,  1.69it/s] 83%|████████▎ | 40016/48008 [5:45:05<1:15:55,  1.75it/s] 83%|████████▎ | 40017/48008 [5:45:05<1:13:52,  1.80it/s] 83%|████████▎ | 40018/48008 [5:45:07<1:41:44,  1.31it/s] 83%|████████▎ | 40019/48008 [5:45:07<1:30:20,  1.47it/s] 83%|████████▎ | 40020/48008 [5:45:08<1:22:26,  1.62it/s] 83%|████████▎ | 40021/48008 [5:45:09<1:47:32,  1.24it/s] 83%|████████▎ | 40022/48008 [5:45:09<1:35:28,  1.39it/s] 83%|████████▎ | 40023/48008 [5:45:10<1:23:28,  1.59it/s] 83%|████████▎ | 40024/48008 [5:45:10<1:17:56,  1.71it/s] 83%|████████▎ | 40025/48008 [5:45:11<1:15:09,  1.77it/s] 83%|████████▎ | 40026/48008 [5:45:11<1:19:46,  1.67it/s] 83%|████████▎ | 40027/48008 [5:45:12<1:14:51,  1.78it/s] 83%|████████▎ | 40028/48008 [5:45:12<1:12:37,  1.83it/s] 83%|████████▎ | 40029/48008 [5:45:13<1:10:05,  1.90it/s] 83%|████████▎ | 40030/48008 [5:45:13<1:09:40,  1.91it/s] 83%|████████▎ | 40031/48008 [5:45:14<1:08:11,  1.95it/s] 83%|████████▎ | 40032/48008 [5:45:14<1:09:14,  1.92it/s] 83%|████████▎ | 40033/48008 [5:45:15<1:09:14,  1.92it/s] 83%|████████▎ | 40034/48008 [5:45:16<1:15:21,  1.76it/s] 83%|████████▎ | 40035/48008 [5:45:16<1:11:43,  1.85it/s] 83%|████████▎ | 40036/48008 [5:45:17<1:09:18,  1.92it/s] 83%|████████▎ | 40037/48008 [5:45:17<1:05:08,  2.04it/s] 83%|████████▎ | 40038/48008 [5:45:17<1:04:48,  2.05it/s] 83%|████████▎ | 40039/48008 [5:45:18<1:20:10,  1.66it/s] 83%|████████▎ | 40040/48008 [5:45:19<1:15:13,  1.77it/s] 83%|████████▎ | 40041/48008 [5:45:19<1:07:51,  1.96it/s] 83%|████████▎ | 40042/48008 [5:45:20<1:07:37,  1.96it/s] 83%|████████▎ | 40043/48008 [5:45:20<1:06:24,  2.00it/s] 83%|████████▎ | 40044/48008 [5:45:21<1:08:04,  1.95it/s] 83%|████████▎ | 40045/48008 [5:45:22<1:37:28,  1.36it/s] 83%|████████▎ | 40046/48008 [5:45:22<1:24:51,  1.56it/s] 83%|████████▎ | 40047/48008 [5:45:23<1:20:52,  1.64it/s] 83%|████████▎ | 40048/48008 [5:45:23<1:13:07,  1.81it/s] 83%|████████▎ | 40049/48008 [5:45:24<1:10:22,  1.89it/s] 83%|████████▎ | 40050/48008 [5:45:24<1:09:06,  1.92it/s]                                                         {'loss': 4.2424, 'grad_norm': 0.09569486975669861, 'learning_rate': 3.315697383769372e-05, 'epoch': 0.83}
 83%|████████▎ | 40050/48008 [5:45:24<1:09:06,  1.92it/s] 83%|████████▎ | 40051/48008 [5:45:25<1:07:43,  1.96it/s] 83%|████████▎ | 40052/48008 [5:45:25<1:07:24,  1.97it/s] 83%|████████▎ | 40053/48008 [5:45:26<1:03:31,  2.09it/s] 83%|████████▎ | 40054/48008 [5:45:26<1:00:53,  2.18it/s] 83%|████████▎ | 40055/48008 [5:45:27<1:02:30,  2.12it/s] 83%|████████▎ | 40056/48008 [5:45:27<1:04:23,  2.06it/s] 83%|████████▎ | 40057/48008 [5:45:28<1:05:11,  2.03it/s] 83%|████████▎ | 40058/48008 [5:45:28<1:06:33,  1.99it/s] 83%|████████▎ | 40059/48008 [5:45:29<1:05:37,  2.02it/s] 83%|████████▎ | 40060/48008 [5:45:30<1:20:57,  1.64it/s] 83%|████████▎ | 40061/48008 [5:45:30<1:15:45,  1.75it/s] 83%|████████▎ | 40062/48008 [5:45:31<1:12:02,  1.84it/s] 83%|████████▎ | 40063/48008 [5:45:31<1:10:59,  1.87it/s] 83%|████████▎ | 40064/48008 [5:45:32<1:09:46,  1.90it/s] 83%|████████▎ | 40065/48008 [5:45:32<1:08:03,  1.94it/s] 83%|████████▎ | 40066/48008 [5:45:32<1:04:08,  2.06it/s] 83%|████████▎ | 40067/48008 [5:45:33<1:05:36,  2.02it/s] 83%|████████▎ | 40068/48008 [5:45:33<1:05:54,  2.01it/s] 83%|████████▎ | 40069/48008 [5:45:34<1:05:09,  2.03it/s] 83%|████████▎ | 40070/48008 [5:45:34<1:02:01,  2.13it/s] 83%|████████▎ | 40071/48008 [5:45:35<1:04:14,  2.06it/s] 83%|████████▎ | 40072/48008 [5:45:35<1:01:28,  2.15it/s] 83%|████████▎ | 40073/48008 [5:45:36<1:03:26,  2.08it/s] 83%|████████▎ | 40074/48008 [5:45:36<1:05:07,  2.03it/s] 83%|████████▎ | 40075/48008 [5:45:37<1:06:17,  1.99it/s] 83%|████████▎ | 40076/48008 [5:45:37<1:05:35,  2.02it/s] 83%|████████▎ | 40077/48008 [5:45:38<1:05:10,  2.03it/s] 83%|████████▎ | 40078/48008 [5:45:39<1:12:16,  1.83it/s] 83%|████████▎ | 40079/48008 [5:45:39<1:09:29,  1.90it/s] 83%|████████▎ | 40080/48008 [5:45:40<1:15:34,  1.75it/s] 83%|████████▎ | 40081/48008 [5:45:41<1:42:15,  1.29it/s] 83%|████████▎ | 40082/48008 [5:45:41<1:31:49,  1.44it/s] 83%|████████▎ | 40083/48008 [5:45:42<1:23:14,  1.59it/s] 83%|████████▎ | 40084/48008 [5:45:42<1:17:18,  1.71it/s] 83%|████████▎ | 40085/48008 [5:45:43<1:13:12,  1.80it/s] 83%|████████▎ | 40086/48008 [5:45:43<1:11:04,  1.86it/s] 84%|████████▎ | 40087/48008 [5:45:44<1:16:18,  1.73it/s] 84%|████████▎ | 40088/48008 [5:45:45<1:12:37,  1.82it/s] 84%|████████▎ | 40089/48008 [5:45:45<1:11:39,  1.84it/s] 84%|████████▎ | 40090/48008 [5:45:46<1:09:00,  1.91it/s] 84%|████████▎ | 40091/48008 [5:45:46<1:07:25,  1.96it/s] 84%|████████▎ | 40092/48008 [5:45:46<1:06:03,  2.00it/s] 84%|████████▎ | 40093/48008 [5:45:47<1:02:46,  2.10it/s] 84%|████████▎ | 40094/48008 [5:45:47<1:03:00,  2.09it/s] 84%|████████▎ | 40095/48008 [5:45:48<1:00:34,  2.18it/s] 84%|████████▎ | 40096/48008 [5:45:49<1:35:46,  1.38it/s] 84%|████████▎ | 40097/48008 [5:45:50<1:26:56,  1.52it/s] 84%|████████▎ | 40098/48008 [5:45:50<1:19:48,  1.65it/s] 84%|████████▎ | 40099/48008 [5:45:51<1:14:56,  1.76it/s] 84%|████████▎ | 40100/48008 [5:45:51<1:11:25,  1.85it/s]                                                         {'loss': 4.2419, 'grad_norm': 0.10954046994447708, 'learning_rate': 3.2948675220796536e-05, 'epoch': 0.84} 84%|████████▎ | 40100/48008 [5:45:51<1:11:25,  1.85it/s]
 84%|████████▎ | 40101/48008 [5:45:52<1:39:26,  1.33it/s] 84%|████████▎ | 40102/48008 [5:45:54<2:05:44,  1.05it/s] 84%|████████▎ | 40103/48008 [5:45:54<1:44:32,  1.26it/s] 84%|████████▎ | 40104/48008 [5:45:55<1:33:46,  1.40it/s] 84%|████████▎ | 40105/48008 [5:45:55<1:24:40,  1.56it/s] 84%|████████▎ | 40106/48008 [5:45:56<1:18:19,  1.68it/s] 84%|████████▎ | 40107/48008 [5:45:56<1:21:27,  1.62it/s] 84%|████████▎ | 40108/48008 [5:45:57<1:40:31,  1.31it/s] 84%|████████▎ | 40109/48008 [5:45:58<1:29:38,  1.47it/s] 84%|████████▎ | 40110/48008 [5:45:58<1:21:32,  1.61it/s] 84%|████████▎ | 40111/48008 [5:45:59<1:16:10,  1.73it/s] 84%|████████▎ | 40112/48008 [5:45:59<1:12:09,  1.82it/s] 84%|████████▎ | 40113/48008 [5:46:00<1:09:32,  1.89it/s] 84%|████████▎ | 40114/48008 [5:46:00<1:05:04,  2.02it/s] 84%|████████▎ | 40115/48008 [5:46:01<1:04:42,  2.03it/s] 84%|████████▎ | 40116/48008 [5:46:01<1:05:55,  2.00it/s] 84%|████████▎ | 40117/48008 [5:46:02<1:02:37,  2.10it/s] 84%|████████▎ | 40118/48008 [5:46:02<1:02:56,  2.09it/s] 84%|████████▎ | 40119/48008 [5:46:03<1:00:23,  2.18it/s] 84%|████████▎ | 40120/48008 [5:46:03<1:02:55,  2.09it/s] 84%|████████▎ | 40121/48008 [5:46:04<1:00:19,  2.18it/s] 84%|████████▎ | 40122/48008 [5:46:04<1:02:47,  2.09it/s] 84%|████████▎ | 40123/48008 [5:46:05<1:10:43,  1.86it/s] 84%|████████▎ | 40124/48008 [5:46:05<1:08:23,  1.92it/s] 84%|████████▎ | 40125/48008 [5:46:06<1:07:50,  1.94it/s] 84%|████████▎ | 40126/48008 [5:46:07<1:30:19,  1.45it/s] 84%|████████▎ | 40127/48008 [5:46:07<1:23:27,  1.57it/s] 84%|████████▎ | 40128/48008 [5:46:08<1:19:07,  1.66it/s] 84%|████████▎ | 40129/48008 [5:46:08<1:11:48,  1.83it/s] 84%|████████▎ | 40130/48008 [5:46:09<1:10:04,  1.87it/s] 84%|████████▎ | 40131/48008 [5:46:09<1:15:26,  1.74it/s] 84%|████████▎ | 40132/48008 [5:46:10<1:12:44,  1.80it/s] 84%|████████▎ | 40133/48008 [5:46:10<1:10:53,  1.85it/s] 84%|████████▎ | 40134/48008 [5:46:11<1:09:54,  1.88it/s] 84%|████████▎ | 40135/48008 [5:46:11<1:07:54,  1.93it/s] 84%|████████▎ | 40136/48008 [5:46:12<1:06:36,  1.97it/s] 84%|████████▎ | 40137/48008 [5:46:12<1:05:34,  2.00it/s] 84%|████████▎ | 40138/48008 [5:46:13<1:02:12,  2.11it/s] 84%|████████▎ | 40139/48008 [5:46:13<1:03:23,  2.07it/s] 84%|████████▎ | 40140/48008 [5:46:14<1:10:49,  1.85it/s] 84%|████████▎ | 40141/48008 [5:46:14<1:05:54,  1.99it/s] 84%|████████▎ | 40142/48008 [5:46:15<1:05:07,  2.01it/s] 84%|████████▎ | 40143/48008 [5:46:15<1:05:18,  2.01it/s] 84%|████████▎ | 40144/48008 [5:46:16<1:06:06,  1.98it/s] 84%|████████▎ | 40145/48008 [5:46:16<1:05:55,  1.99it/s] 84%|████████▎ | 40146/48008 [5:46:17<1:05:58,  1.99it/s] 84%|████████▎ | 40147/48008 [5:46:17<1:05:04,  2.01it/s] 84%|████████▎ | 40148/48008 [5:46:18<1:01:59,  2.11it/s] 84%|████████▎ | 40149/48008 [5:46:18<1:02:21,  2.10it/s] 84%|████████▎ | 40150/48008 [5:46:19<1:02:35,  2.09it/s]                                                         {'loss': 4.2301, 'grad_norm': 0.09824986755847931, 'learning_rate': 3.274037660389935e-05, 'epoch': 0.84}
 84%|████████▎ | 40150/48008 [5:46:19<1:02:35,  2.09it/s] 84%|████████▎ | 40151/48008 [5:46:19<1:00:09,  2.18it/s] 84%|████████▎ | 40152/48008 [5:46:20<1:01:08,  2.14it/s] 84%|████████▎ | 40153/48008 [5:46:20<1:03:08,  2.07it/s] 84%|████████▎ | 40154/48008 [5:46:21<1:05:29,  2.00it/s] 84%|████████▎ | 40155/48008 [5:46:21<1:04:44,  2.02it/s] 84%|████████▎ | 40156/48008 [5:46:22<1:04:14,  2.04it/s] 84%|████████▎ | 40157/48008 [5:46:22<1:05:57,  1.98it/s] 84%|████████▎ | 40158/48008 [5:46:23<1:05:55,  1.98it/s] 84%|████████▎ | 40159/48008 [5:46:23<1:05:09,  2.01it/s] 84%|████████▎ | 40160/48008 [5:46:24<1:01:52,  2.11it/s] 84%|████████▎ | 40161/48008 [5:46:24<1:03:11,  2.07it/s] 84%|████████▎ | 40162/48008 [5:46:25<1:03:58,  2.04it/s] 84%|████████▎ | 40163/48008 [5:46:25<1:01:05,  2.14it/s] 84%|████████▎ | 40164/48008 [5:46:26<1:01:40,  2.12it/s] 84%|████████▎ | 40165/48008 [5:46:26<1:01:59,  2.11it/s] 84%|████████▎ | 40166/48008 [5:46:27<1:03:37,  2.05it/s] 84%|████████▎ | 40167/48008 [5:46:27<1:10:48,  1.85it/s] 84%|████████▎ | 40168/48008 [5:46:28<1:08:23,  1.91it/s] 84%|████████▎ | 40169/48008 [5:46:28<1:14:08,  1.76it/s] 84%|████████▎ | 40170/48008 [5:46:29<1:12:21,  1.81it/s] 84%|████████▎ | 40171/48008 [5:46:29<1:09:18,  1.88it/s] 84%|████████▎ | 40172/48008 [5:46:30<1:07:14,  1.94it/s] 84%|████████▎ | 40173/48008 [5:46:30<1:08:07,  1.92it/s] 84%|████████▎ | 40174/48008 [5:46:31<1:06:40,  1.96it/s] 84%|████████▎ | 40175/48008 [5:46:31<1:07:39,  1.93it/s] 84%|████████▎ | 40176/48008 [5:46:32<1:06:12,  1.97it/s] 84%|████████▎ | 40177/48008 [5:46:32<1:06:35,  1.96it/s] 84%|████████▎ | 40178/48008 [5:46:33<1:05:25,  1.99it/s] 84%|████████▎ | 40179/48008 [5:46:33<1:04:41,  2.02it/s] 84%|████████▎ | 40180/48008 [5:46:34<1:04:03,  2.04it/s] 84%|████████▎ | 40181/48008 [5:46:34<1:03:33,  2.05it/s] 84%|████████▎ | 40182/48008 [5:46:35<1:03:26,  2.06it/s] 84%|████████▎ | 40183/48008 [5:46:35<1:00:37,  2.15it/s] 84%|████████▎ | 40184/48008 [5:46:36<1:01:11,  2.13it/s] 84%|████████▎ | 40185/48008 [5:46:36<1:02:19,  2.09it/s] 84%|████████▎ | 40186/48008 [5:46:37<1:02:35,  2.08it/s] 84%|████████▎ | 40187/48008 [5:46:37<1:02:44,  2.08it/s] 84%|████████▎ | 40188/48008 [5:46:38<1:03:25,  2.05it/s] 84%|████████▎ | 40189/48008 [5:46:38<1:03:14,  2.06it/s] 84%|████████▎ | 40190/48008 [5:46:39<1:02:56,  2.07it/s] 84%|████████▎ | 40191/48008 [5:46:39<1:00:18,  2.16it/s] 84%|████████▎ | 40192/48008 [5:46:40<1:01:59,  2.10it/s] 84%|████████▎ | 40193/48008 [5:46:40<59:38,  2.18it/s]   84%|████████▎ | 40194/48008 [5:46:40<1:01:30,  2.12it/s] 84%|████████▎ | 40195/48008 [5:46:41<1:17:22,  1.68it/s] 84%|████████▎ | 40196/48008 [5:46:42<1:13:48,  1.76it/s] 84%|████████▎ | 40197/48008 [5:46:43<1:17:51,  1.67it/s] 84%|████████▎ | 40198/48008 [5:46:43<1:13:03,  1.78it/s] 84%|████████▎ | 40199/48008 [5:46:43<1:09:55,  1.86it/s] 84%|████████▎ | 40200/48008 [5:46:44<1:08:35,  1.90it/s]                                                         {'loss': 4.2387, 'grad_norm': 0.0930132195353508, 'learning_rate': 3.253207798700217e-05, 'epoch': 0.84}
 84%|████████▎ | 40200/48008 [5:46:44<1:08:35,  1.90it/s] 84%|████████▎ | 40201/48008 [5:46:44<1:04:18,  2.02it/s] 84%|████████▎ | 40202/48008 [5:46:45<1:03:38,  2.04it/s] 84%|████████▎ | 40203/48008 [5:46:45<1:05:35,  1.98it/s] 84%|████████▎ | 40204/48008 [5:46:46<1:02:09,  2.09it/s] 84%|████████▎ | 40205/48008 [5:46:46<59:41,  2.18it/s]   84%|████████▎ | 40206/48008 [5:46:47<57:55,  2.24it/s] 84%|████████▍ | 40207/48008 [5:46:47<59:20,  2.19it/s] 84%|████████▍ | 40208/48008 [5:46:48<57:39,  2.25it/s] 84%|████████▍ | 40209/48008 [5:46:48<59:59,  2.17it/s] 84%|████████▍ | 40210/48008 [5:46:49<1:16:22,  1.70it/s] 84%|████████▍ | 40211/48008 [5:46:49<1:13:12,  1.78it/s] 84%|████████▍ | 40212/48008 [5:46:50<1:10:56,  1.83it/s] 84%|████████▍ | 40213/48008 [5:46:50<1:09:12,  1.88it/s] 84%|████████▍ | 40214/48008 [5:46:51<1:08:04,  1.91it/s] 84%|████████▍ | 40215/48008 [5:46:51<1:06:24,  1.96it/s] 84%|████████▍ | 40216/48008 [5:46:52<1:05:17,  1.99it/s] 84%|████████▍ | 40217/48008 [5:46:52<1:05:08,  1.99it/s] 84%|████████▍ | 40218/48008 [5:46:53<1:05:50,  1.97it/s] 84%|████████▍ | 40219/48008 [5:46:53<1:05:48,  1.97it/s] 84%|████████▍ | 40220/48008 [5:46:54<1:05:44,  1.97it/s] 84%|████████▍ | 40221/48008 [5:46:54<1:06:05,  1.96it/s] 84%|████████▍ | 40222/48008 [5:46:55<1:05:49,  1.97it/s] 84%|████████▍ | 40223/48008 [5:46:55<1:05:44,  1.97it/s] 84%|████████▍ | 40224/48008 [5:46:56<1:06:20,  1.96it/s] 84%|████████▍ | 40225/48008 [5:46:56<1:05:08,  1.99it/s] 84%|████████▍ | 40226/48008 [5:46:57<1:04:13,  2.02it/s] 84%|████████▍ | 40227/48008 [5:46:57<1:01:10,  2.12it/s] 84%|████████▍ | 40228/48008 [5:46:58<1:02:27,  2.08it/s] 84%|████████▍ | 40229/48008 [5:46:58<1:03:06,  2.05it/s] 84%|████████▍ | 40230/48008 [5:46:59<1:02:53,  2.06it/s] 84%|████████▍ | 40231/48008 [5:46:59<1:04:03,  2.02it/s] 84%|████████▍ | 40232/48008 [5:47:00<1:00:49,  2.13it/s] 84%|████████▍ | 40233/48008 [5:47:00<1:03:24,  2.04it/s] 84%|████████▍ | 40234/48008 [5:47:01<1:02:57,  2.06it/s] 84%|████████▍ | 40235/48008 [5:47:01<1:00:11,  2.15it/s] 84%|████████▍ | 40236/48008 [5:47:02<1:01:48,  2.10it/s] 84%|████████▍ | 40237/48008 [5:47:02<1:03:21,  2.04it/s] 84%|████████▍ | 40238/48008 [5:47:03<1:00:29,  2.14it/s] 84%|████████▍ | 40239/48008 [5:47:03<1:00:51,  2.13it/s] 84%|████████▍ | 40240/48008 [5:47:04<58:42,  2.20it/s]   84%|████████▍ | 40241/48008 [5:47:04<1:00:32,  2.14it/s] 84%|████████▍ | 40242/48008 [5:47:05<1:30:59,  1.42it/s] 84%|████████▍ | 40243/48008 [5:47:06<1:23:10,  1.56it/s] 84%|████████▍ | 40244/48008 [5:47:06<1:14:22,  1.74it/s] 84%|████████▍ | 40245/48008 [5:47:07<1:18:31,  1.65it/s] 84%|████████▍ | 40246/48008 [5:47:07<1:13:33,  1.76it/s] 84%|████████▍ | 40247/48008 [5:47:08<1:11:04,  1.82it/s] 84%|████████▍ | 40248/48008 [5:47:08<1:05:58,  1.96it/s] 84%|████████▍ | 40249/48008 [5:47:09<1:02:14,  2.08it/s] 84%|████████▍ | 40250/48008 [5:47:09<1:01:59,  2.09it/s]                                                         {'loss': 4.2562, 'grad_norm': 0.11079762130975723, 'learning_rate': 3.232377937010498e-05, 'epoch': 0.84}
 84%|████████▍ | 40250/48008 [5:47:09<1:01:59,  2.09it/s] 84%|████████▍ | 40251/48008 [5:47:10<59:37,  2.17it/s]   84%|████████▍ | 40252/48008 [5:47:10<57:56,  2.23it/s] 84%|████████▍ | 40253/48008 [5:47:11<1:06:51,  1.93it/s] 84%|████████▍ | 40254/48008 [5:47:12<1:20:46,  1.60it/s] 84%|████████▍ | 40255/48008 [5:47:12<1:12:40,  1.78it/s] 84%|████████▍ | 40256/48008 [5:47:12<1:09:43,  1.85it/s] 84%|████████▍ | 40257/48008 [5:47:13<1:04:56,  1.99it/s] 84%|████████▍ | 40258/48008 [5:47:13<1:05:40,  1.97it/s] 84%|████████▍ | 40259/48008 [5:47:14<1:05:26,  1.97it/s] 84%|████████▍ | 40260/48008 [5:47:14<1:05:26,  1.97it/s] 84%|████████▍ | 40261/48008 [5:47:15<1:04:29,  2.00it/s] 84%|████████▍ | 40262/48008 [5:47:15<59:47,  2.16it/s]   84%|████████▍ | 40263/48008 [5:47:16<1:00:28,  2.13it/s] 84%|████████▍ | 40264/48008 [5:47:16<1:00:44,  2.12it/s] 84%|████████▍ | 40265/48008 [5:47:17<1:01:09,  2.11it/s] 84%|████████▍ | 40266/48008 [5:47:17<58:49,  2.19it/s]   84%|████████▍ | 40267/48008 [5:47:18<59:54,  2.15it/s] 84%|████████▍ | 40268/48008 [5:47:18<1:00:41,  2.13it/s] 84%|████████▍ | 40269/48008 [5:47:19<1:01:09,  2.11it/s] 84%|████████▍ | 40270/48008 [5:47:19<1:02:09,  2.07it/s] 84%|████████▍ | 40271/48008 [5:47:20<1:02:08,  2.07it/s] 84%|████████▍ | 40272/48008 [5:47:20<59:38,  2.16it/s]   84%|████████▍ | 40273/48008 [5:47:20<1:00:27,  2.13it/s] 84%|████████▍ | 40274/48008 [5:47:21<1:00:55,  2.12it/s] 84%|████████▍ | 40275/48008 [5:47:21<1:01:05,  2.11it/s] 84%|████████▍ | 40276/48008 [5:47:22<1:02:05,  2.08it/s] 84%|████████▍ | 40277/48008 [5:47:23<1:31:51,  1.40it/s] 84%|████████▍ | 40278/48008 [5:47:24<1:22:56,  1.55it/s] 84%|████████▍ | 40279/48008 [5:47:24<1:16:40,  1.68it/s] 84%|████████▍ | 40280/48008 [5:47:25<1:12:08,  1.79it/s] 84%|████████▍ | 40281/48008 [5:47:25<1:09:11,  1.86it/s] 84%|████████▍ | 40282/48008 [5:47:26<1:14:19,  1.73it/s] 84%|████████▍ | 40283/48008 [5:47:26<1:10:24,  1.83it/s] 84%|████████▍ | 40284/48008 [5:47:27<1:07:41,  1.90it/s] 84%|████████▍ | 40285/48008 [5:47:27<1:06:01,  1.95it/s] 84%|████████▍ | 40286/48008 [5:47:28<1:04:43,  1.99it/s] 84%|████████▍ | 40287/48008 [5:47:28<1:03:52,  2.01it/s] 84%|████████▍ | 40288/48008 [5:47:29<1:03:11,  2.04it/s] 84%|████████▍ | 40289/48008 [5:47:29<1:02:42,  2.05it/s] 84%|████████▍ | 40290/48008 [5:47:30<1:03:27,  2.03it/s] 84%|████████▍ | 40291/48008 [5:47:30<1:03:55,  2.01it/s] 84%|████████▍ | 40292/48008 [5:47:31<1:18:48,  1.63it/s] 84%|████████▍ | 40293/48008 [5:47:32<1:13:32,  1.75it/s] 84%|████████▍ | 40294/48008 [5:47:33<1:40:01,  1.29it/s] 84%|████████▍ | 40295/48008 [5:47:33<1:30:15,  1.42it/s] 84%|████████▍ | 40296/48008 [5:47:34<1:23:16,  1.54it/s] 84%|████████▍ | 40297/48008 [5:47:34<1:18:14,  1.64it/s] 84%|████████▍ | 40298/48008 [5:47:35<1:13:17,  1.75it/s] 84%|████████▍ | 40299/48008 [5:47:35<1:12:05,  1.78it/s] 84%|████████▍ | 40300/48008 [5:47:36<1:08:56,  1.86it/s]                                                         {'loss': 4.249, 'grad_norm': 0.09369350224733353, 'learning_rate': 3.21154807532078e-05, 'epoch': 0.84}
 84%|████████▍ | 40300/48008 [5:47:36<1:08:56,  1.86it/s] 84%|████████▍ | 40301/48008 [5:47:36<1:08:09,  1.88it/s] 84%|████████▍ | 40302/48008 [5:47:37<1:06:11,  1.94it/s] 84%|████████▍ | 40303/48008 [5:47:37<1:05:46,  1.95it/s] 84%|████████▍ | 40304/48008 [5:47:38<1:05:38,  1.96it/s] 84%|████████▍ | 40305/48008 [5:47:38<1:05:09,  1.97it/s] 84%|████████▍ | 40306/48008 [5:47:39<1:04:14,  2.00it/s] 84%|████████▍ | 40307/48008 [5:47:39<1:03:25,  2.02it/s] 84%|████████▍ | 40308/48008 [5:47:40<1:04:29,  1.99it/s] 84%|████████▍ | 40309/48008 [5:47:40<1:03:46,  2.01it/s] 84%|████████▍ | 40310/48008 [5:47:41<1:03:18,  2.03it/s] 84%|████████▍ | 40311/48008 [5:47:41<1:03:54,  2.01it/s] 84%|████████▍ | 40312/48008 [5:47:42<1:04:02,  2.00it/s] 84%|████████▍ | 40313/48008 [5:47:42<1:00:52,  2.11it/s] 84%|████████▍ | 40314/48008 [5:47:43<1:02:46,  2.04it/s] 84%|████████▍ | 40315/48008 [5:47:43<1:03:07,  2.03it/s] 84%|████████▍ | 40316/48008 [5:47:44<1:02:32,  2.05it/s] 84%|████████▍ | 40317/48008 [5:47:44<1:03:07,  2.03it/s] 84%|████████▍ | 40318/48008 [5:47:45<1:04:01,  2.00it/s] 84%|████████▍ | 40319/48008 [5:47:45<1:00:50,  2.11it/s] 84%|████████▍ | 40320/48008 [5:47:46<1:00:58,  2.10it/s] 84%|████████▍ | 40321/48008 [5:47:46<1:01:08,  2.10it/s] 84%|████████▍ | 40322/48008 [5:47:47<58:48,  2.18it/s]   84%|████████▍ | 40323/48008 [5:47:47<59:29,  2.15it/s] 84%|████████▍ | 40324/48008 [5:47:48<1:02:09,  2.06it/s] 84%|████████▍ | 40325/48008 [5:47:48<1:01:57,  2.07it/s] 84%|████████▍ | 40326/48008 [5:47:49<1:01:52,  2.07it/s] 84%|████████▍ | 40327/48008 [5:47:49<1:01:39,  2.08it/s] 84%|████████▍ | 40328/48008 [5:47:50<1:02:18,  2.05it/s] 84%|████████▍ | 40329/48008 [5:47:50<1:03:05,  2.03it/s] 84%|████████▍ | 40330/48008 [5:47:51<1:32:14,  1.39it/s] 84%|████████▍ | 40331/48008 [5:47:52<1:23:01,  1.54it/s] 84%|████████▍ | 40332/48008 [5:47:52<1:16:31,  1.67it/s] 84%|████████▍ | 40333/48008 [5:47:53<1:41:22,  1.26it/s] 84%|████████▍ | 40334/48008 [5:47:54<1:29:17,  1.43it/s] 84%|████████▍ | 40335/48008 [5:47:54<1:18:27,  1.63it/s] 84%|████████▍ | 40336/48008 [5:47:55<1:13:27,  1.74it/s] 84%|████████▍ | 40337/48008 [5:47:55<1:09:48,  1.83it/s] 84%|████████▍ | 40338/48008 [5:47:56<1:08:07,  1.88it/s] 84%|████████▍ | 40339/48008 [5:47:56<1:03:25,  2.02it/s] 84%|████████▍ | 40340/48008 [5:47:57<1:03:36,  2.01it/s] 84%|████████▍ | 40341/48008 [5:47:57<1:03:03,  2.03it/s] 84%|████████▍ | 40342/48008 [5:47:58<1:03:27,  2.01it/s] 84%|████████▍ | 40343/48008 [5:47:58<1:00:18,  2.12it/s] 84%|████████▍ | 40344/48008 [5:47:59<1:01:43,  2.07it/s] 84%|████████▍ | 40345/48008 [5:47:59<57:50,  2.21it/s]   84%|████████▍ | 40346/48008 [5:48:00<1:28:13,  1.45it/s] 84%|████████▍ | 40347/48008 [5:48:01<1:27:26,  1.46it/s] 84%|████████▍ | 40348/48008 [5:48:01<1:20:19,  1.59it/s] 84%|████████▍ | 40349/48008 [5:48:02<1:16:00,  1.68it/s] 84%|████████▍ | 40350/48008 [5:48:02<1:12:28,  1.76it/s]                                                         {'loss': 4.2833, 'grad_norm': 0.09476710110902786, 'learning_rate': 3.1907182136310616e-05, 'epoch': 0.84}
 84%|████████▍ | 40350/48008 [5:48:02<1:12:28,  1.76it/s] 84%|████████▍ | 40351/48008 [5:48:03<1:16:28,  1.67it/s] 84%|████████▍ | 40352/48008 [5:48:04<1:09:27,  1.84it/s] 84%|████████▍ | 40353/48008 [5:48:04<1:07:02,  1.90it/s] 84%|████████▍ | 40354/48008 [5:48:05<1:05:10,  1.96it/s] 84%|████████▍ | 40355/48008 [5:48:05<1:04:41,  1.97it/s] 84%|████████▍ | 40356/48008 [5:48:05<1:01:11,  2.08it/s] 84%|████████▍ | 40357/48008 [5:48:06<1:01:08,  2.09it/s] 84%|████████▍ | 40358/48008 [5:48:06<58:37,  2.17it/s]   84%|████████▍ | 40359/48008 [5:48:07<59:31,  2.14it/s] 84%|████████▍ | 40360/48008 [5:48:07<1:00:17,  2.11it/s] 84%|████████▍ | 40361/48008 [5:48:08<58:16,  2.19it/s]   84%|████████▍ | 40362/48008 [5:48:08<59:13,  2.15it/s] 84%|████████▍ | 40363/48008 [5:48:09<1:00:46,  2.10it/s] 84%|████████▍ | 40364/48008 [5:48:09<1:00:56,  2.09it/s] 84%|████████▍ | 40365/48008 [5:48:10<1:02:04,  2.05it/s] 84%|████████▍ | 40366/48008 [5:48:10<1:04:01,  1.99it/s] 84%|████████▍ | 40367/48008 [5:48:11<1:04:34,  1.97it/s] 84%|████████▍ | 40368/48008 [5:48:12<1:33:20,  1.36it/s] 84%|████████▍ | 40369/48008 [5:48:12<1:23:45,  1.52it/s] 84%|████████▍ | 40370/48008 [5:48:13<1:18:34,  1.62it/s] 84%|████████▍ | 40371/48008 [5:48:13<1:13:16,  1.74it/s] 84%|████████▍ | 40372/48008 [5:48:14<1:07:13,  1.89it/s] 84%|████████▍ | 40373/48008 [5:48:14<1:05:27,  1.94it/s] 84%|████████▍ | 40374/48008 [5:48:15<1:04:19,  1.98it/s] 84%|████████▍ | 40375/48008 [5:48:15<1:03:28,  2.00it/s] 84%|████████▍ | 40376/48008 [5:48:16<1:02:35,  2.03it/s] 84%|████████▍ | 40377/48008 [5:48:16<1:03:07,  2.01it/s] 84%|████████▍ | 40378/48008 [5:48:17<1:02:29,  2.03it/s] 84%|████████▍ | 40379/48008 [5:48:17<1:02:53,  2.02it/s] 84%|████████▍ | 40380/48008 [5:48:18<1:02:26,  2.04it/s] 84%|████████▍ | 40381/48008 [5:48:18<59:38,  2.13it/s]   84%|████████▍ | 40382/48008 [5:48:19<1:00:01,  2.12it/s] 84%|████████▍ | 40383/48008 [5:48:19<1:00:21,  2.11it/s] 84%|████████▍ | 40384/48008 [5:48:20<58:08,  2.19it/s]   84%|████████▍ | 40385/48008 [5:48:20<1:00:32,  2.10it/s] 84%|████████▍ | 40386/48008 [5:48:21<58:02,  2.19it/s]   84%|████████▍ | 40387/48008 [5:48:21<59:43,  2.13it/s] 84%|████████▍ | 40388/48008 [5:48:22<1:00:11,  2.11it/s] 84%|████████▍ | 40389/48008 [5:48:22<1:01:13,  2.07it/s] 84%|████████▍ | 40390/48008 [5:48:23<1:02:44,  2.02it/s] 84%|████████▍ | 40391/48008 [5:48:23<1:09:28,  1.83it/s] 84%|████████▍ | 40392/48008 [5:48:24<1:06:54,  1.90it/s] 84%|████████▍ | 40393/48008 [5:48:24<1:05:11,  1.95it/s] 84%|████████▍ | 40394/48008 [5:48:25<1:04:00,  1.98it/s] 84%|████████▍ | 40395/48008 [5:48:25<1:04:07,  1.98it/s] 84%|████████▍ | 40396/48008 [5:48:26<1:03:06,  2.01it/s] 84%|████████▍ | 40397/48008 [5:48:26<59:55,  2.12it/s]   84%|████████▍ | 40398/48008 [5:48:27<1:00:17,  2.10it/s] 84%|████████▍ | 40399/48008 [5:48:27<1:01:29,  2.06it/s] 84%|████████▍ | 40400/48008 [5:48:28<1:03:28,  2.00it/s]                                                         {'loss': 4.238, 'grad_norm': 0.10660553723573685, 'learning_rate': 3.169888351941343e-05, 'epoch': 0.84}
 84%|████████▍ | 40400/48008 [5:48:28<1:03:28,  2.00it/s] 84%|████████▍ | 40401/48008 [5:48:28<1:02:47,  2.02it/s] 84%|████████▍ | 40402/48008 [5:48:29<1:02:17,  2.03it/s] 84%|████████▍ | 40403/48008 [5:48:29<1:02:40,  2.02it/s] 84%|████████▍ | 40404/48008 [5:48:30<1:02:20,  2.03it/s] 84%|████████▍ | 40405/48008 [5:48:30<59:22,  2.13it/s]   84%|████████▍ | 40406/48008 [5:48:30<59:53,  2.12it/s] 84%|████████▍ | 40407/48008 [5:48:31<1:01:08,  2.07it/s] 84%|████████▍ | 40408/48008 [5:48:31<1:02:00,  2.04it/s] 84%|████████▍ | 40409/48008 [5:48:32<1:01:36,  2.06it/s] 84%|████████▍ | 40410/48008 [5:48:32<1:02:55,  2.01it/s] 84%|████████▍ | 40411/48008 [5:48:33<1:02:10,  2.04it/s] 84%|████████▍ | 40412/48008 [5:48:33<1:03:24,  2.00it/s] 84%|████████▍ | 40413/48008 [5:48:34<1:17:55,  1.62it/s] 84%|████████▍ | 40414/48008 [5:48:35<1:10:28,  1.80it/s] 84%|████████▍ | 40415/48008 [5:48:36<1:36:44,  1.31it/s] 84%|████████▍ | 40416/48008 [5:48:37<1:26:40,  1.46it/s] 84%|████████▍ | 40417/48008 [5:48:37<1:19:49,  1.59it/s] 84%|████████▍ | 40418/48008 [5:48:37<1:11:38,  1.77it/s] 84%|████████▍ | 40419/48008 [5:48:38<1:08:25,  1.85it/s] 84%|████████▍ | 40420/48008 [5:48:38<1:06:02,  1.92it/s] 84%|████████▍ | 40421/48008 [5:48:39<1:06:38,  1.90it/s] 84%|████████▍ | 40422/48008 [5:48:39<1:04:51,  1.95it/s] 84%|████████▍ | 40423/48008 [5:48:40<1:04:58,  1.95it/s] 84%|████████▍ | 40424/48008 [5:48:40<1:05:50,  1.92it/s] 84%|████████▍ | 40425/48008 [5:48:41<1:01:49,  2.04it/s] 84%|████████▍ | 40426/48008 [5:48:41<1:03:01,  2.01it/s] 84%|████████▍ | 40427/48008 [5:48:43<1:31:34,  1.38it/s] 84%|████████▍ | 40428/48008 [5:48:43<1:22:13,  1.54it/s] 84%|████████▍ | 40429/48008 [5:48:44<1:36:27,  1.31it/s] 84%|████████▍ | 40430/48008 [5:48:45<1:25:46,  1.47it/s] 84%|████████▍ | 40431/48008 [5:48:45<1:19:19,  1.59it/s] 84%|████████▍ | 40432/48008 [5:48:46<1:14:37,  1.69it/s] 84%|████████▍ | 40433/48008 [5:48:46<1:12:44,  1.74it/s] 84%|████████▍ | 40434/48008 [5:48:47<1:09:01,  1.83it/s] 84%|████████▍ | 40435/48008 [5:48:47<1:06:37,  1.89it/s] 84%|████████▍ | 40436/48008 [5:48:48<1:04:46,  1.95it/s] 84%|████████▍ | 40437/48008 [5:48:48<1:03:24,  1.99it/s] 84%|████████▍ | 40438/48008 [5:48:49<1:04:07,  1.97it/s] 84%|████████▍ | 40439/48008 [5:48:49<1:03:00,  2.00it/s] 84%|████████▍ | 40440/48008 [5:48:50<1:03:09,  2.00it/s] 84%|████████▍ | 40441/48008 [5:48:50<1:03:05,  2.00it/s] 84%|████████▍ | 40442/48008 [5:48:51<1:02:18,  2.02it/s] 84%|████████▍ | 40443/48008 [5:48:51<59:16,  2.13it/s]   84%|████████▍ | 40444/48008 [5:48:52<1:01:00,  2.07it/s] 84%|████████▍ | 40445/48008 [5:48:52<1:01:05,  2.06it/s] 84%|████████▍ | 40446/48008 [5:48:52<58:29,  2.15it/s]   84%|████████▍ | 40447/48008 [5:48:53<59:05,  2.13it/s] 84%|████████▍ | 40448/48008 [5:48:53<59:43,  2.11it/s] 84%|████████▍ | 40449/48008 [5:48:54<59:54,  2.10it/s] 84%|████████▍ | 40450/48008 [5:48:54<1:00:04,  2.10it/s]                                                         {'loss': 4.2588, 'grad_norm': 0.09232275933027267, 'learning_rate': 3.149058490251625e-05, 'epoch': 0.84} 84%|████████▍ | 40450/48008 [5:48:54<1:00:04,  2.10it/s]
 84%|████████▍ | 40451/48008 [5:48:55<1:01:20,  2.05it/s] 84%|████████▍ | 40452/48008 [5:48:55<58:40,  2.15it/s]   84%|████████▍ | 40453/48008 [5:48:56<59:56,  2.10it/s] 84%|████████▍ | 40454/48008 [5:48:57<1:29:32,  1.41it/s] 84%|████████▍ | 40455/48008 [5:48:58<1:22:11,  1.53it/s] 84%|████████▍ | 40456/48008 [5:48:58<1:17:14,  1.63it/s] 84%|████████▍ | 40457/48008 [5:48:59<1:13:33,  1.71it/s] 84%|████████▍ | 40458/48008 [5:48:59<1:06:59,  1.88it/s] 84%|████████▍ | 40459/48008 [5:49:00<1:07:15,  1.87it/s] 84%|████████▍ | 40460/48008 [5:49:00<1:05:05,  1.93it/s] 84%|████████▍ | 40461/48008 [5:49:00<1:03:37,  1.98it/s] 84%|████████▍ | 40462/48008 [5:49:01<1:00:12,  2.09it/s] 84%|████████▍ | 40463/48008 [5:49:01<1:00:13,  2.09it/s] 84%|████████▍ | 40464/48008 [5:49:02<1:00:20,  2.08it/s] 84%|████████▍ | 40465/48008 [5:49:02<58:03,  2.17it/s]   84%|████████▍ | 40466/48008 [5:49:03<58:52,  2.14it/s] 84%|████████▍ | 40467/48008 [5:49:03<1:01:40,  2.04it/s] 84%|████████▍ | 40468/48008 [5:49:04<1:01:23,  2.05it/s] 84%|████████▍ | 40469/48008 [5:49:04<1:01:02,  2.06it/s] 84%|████████▍ | 40470/48008 [5:49:05<1:01:39,  2.04it/s] 84%|████████▍ | 40471/48008 [5:49:05<1:01:57,  2.03it/s] 84%|████████▍ | 40472/48008 [5:49:07<1:30:32,  1.39it/s] 84%|████████▍ | 40473/48008 [5:49:07<1:21:28,  1.54it/s] 84%|████████▍ | 40474/48008 [5:49:08<1:16:02,  1.65it/s] 84%|████████▍ | 40475/48008 [5:49:08<1:08:49,  1.82it/s] 84%|████████▍ | 40476/48008 [5:49:08<1:06:16,  1.89it/s] 84%|████████▍ | 40477/48008 [5:49:09<1:05:12,  1.93it/s] 84%|████████▍ | 40478/48008 [5:49:09<1:03:48,  1.97it/s] 84%|████████▍ | 40479/48008 [5:49:10<1:02:48,  2.00it/s] 84%|████████▍ | 40480/48008 [5:49:10<1:02:09,  2.02it/s] 84%|████████▍ | 40481/48008 [5:49:11<1:02:27,  2.01it/s] 84%|████████▍ | 40482/48008 [5:49:11<1:01:45,  2.03it/s] 84%|████████▍ | 40483/48008 [5:49:12<1:08:34,  1.83it/s] 84%|████████▍ | 40484/48008 [5:49:13<1:06:07,  1.90it/s] 84%|████████▍ | 40485/48008 [5:49:13<1:05:12,  1.92it/s] 84%|████████▍ | 40486/48008 [5:49:14<1:04:32,  1.94it/s] 84%|████████▍ | 40487/48008 [5:49:14<1:03:13,  1.98it/s] 84%|████████▍ | 40488/48008 [5:49:14<1:02:20,  2.01it/s] 84%|████████▍ | 40489/48008 [5:49:15<1:01:38,  2.03it/s] 84%|████████▍ | 40490/48008 [5:49:15<1:01:22,  2.04it/s] 84%|████████▍ | 40491/48008 [5:49:16<1:01:46,  2.03it/s] 84%|████████▍ | 40492/48008 [5:49:16<1:02:46,  2.00it/s] 84%|████████▍ | 40493/48008 [5:49:17<1:02:56,  1.99it/s] 84%|████████▍ | 40494/48008 [5:49:17<1:02:52,  1.99it/s] 84%|████████▍ | 40495/48008 [5:49:18<1:02:06,  2.02it/s] 84%|████████▍ | 40496/48008 [5:49:18<1:03:03,  1.99it/s] 84%|████████▍ | 40497/48008 [5:49:19<1:17:05,  1.62it/s] 84%|████████▍ | 40498/48008 [5:49:20<1:12:01,  1.74it/s] 84%|████████▍ | 40499/48008 [5:49:20<1:05:56,  1.90it/s] 84%|████████▍ | 40500/48008 [5:49:21<1:01:46,  2.03it/s]                                                         {'loss': 4.2146, 'grad_norm': 0.11778359115123749, 'learning_rate': 3.128228628561907e-05, 'epoch': 0.84}
 84%|████████▍ | 40500/48008 [5:49:21<1:01:46,  2.03it/s] 84%|████████▍ | 40501/48008 [5:49:21<1:08:28,  1.83it/s] 84%|████████▍ | 40502/48008 [5:49:22<1:06:51,  1.87it/s] 84%|████████▍ | 40503/48008 [5:49:22<1:02:21,  2.01it/s] 84%|████████▍ | 40504/48008 [5:49:23<1:03:12,  1.98it/s] 84%|████████▍ | 40505/48008 [5:49:23<1:02:21,  2.01it/s] 84%|████████▍ | 40506/48008 [5:49:24<1:01:44,  2.03it/s] 84%|████████▍ | 40507/48008 [5:49:24<58:53,  2.12it/s]   84%|████████▍ | 40508/48008 [5:49:25<1:00:40,  2.06it/s] 84%|████████▍ | 40509/48008 [5:49:25<1:00:27,  2.07it/s] 84%|████████▍ | 40510/48008 [5:49:26<1:00:08,  2.08it/s] 84%|████████▍ | 40511/48008 [5:49:26<1:00:01,  2.08it/s] 84%|████████▍ | 40512/48008 [5:49:27<1:01:00,  2.05it/s] 84%|████████▍ | 40513/48008 [5:49:27<1:01:24,  2.03it/s] 84%|████████▍ | 40514/48008 [5:49:28<1:02:34,  2.00it/s] 84%|████████▍ | 40515/48008 [5:49:28<1:03:14,  1.97it/s] 84%|████████▍ | 40516/48008 [5:49:29<1:03:04,  1.98it/s] 84%|████████▍ | 40517/48008 [5:49:29<1:02:51,  1.99it/s] 84%|████████▍ | 40518/48008 [5:49:30<1:01:58,  2.01it/s] 84%|████████▍ | 40519/48008 [5:49:30<1:01:20,  2.03it/s] 84%|████████▍ | 40520/48008 [5:49:31<1:00:45,  2.05it/s] 84%|████████▍ | 40521/48008 [5:49:31<58:05,  2.15it/s]   84%|████████▍ | 40522/48008 [5:49:31<56:09,  2.22it/s] 84%|████████▍ | 40523/48008 [5:49:32<58:35,  2.13it/s] 84%|████████▍ | 40524/48008 [5:49:32<56:37,  2.20it/s] 84%|████████▍ | 40525/48008 [5:49:33<55:18,  2.25it/s] 84%|████████▍ | 40526/48008 [5:49:33<56:46,  2.20it/s] 84%|████████▍ | 40527/48008 [5:49:34<57:48,  2.16it/s] 84%|████████▍ | 40528/48008 [5:49:34<58:29,  2.13it/s] 84%|████████▍ | 40529/48008 [5:49:35<58:59,  2.11it/s] 84%|████████▍ | 40530/48008 [5:49:35<1:00:34,  2.06it/s] 84%|████████▍ | 40531/48008 [5:49:36<57:58,  2.15it/s]   84%|████████▍ | 40532/48008 [5:49:36<58:28,  2.13it/s] 84%|████████▍ | 40533/48008 [5:49:37<58:56,  2.11it/s] 84%|████████▍ | 40534/48008 [5:49:37<1:00:33,  2.06it/s] 84%|████████▍ | 40535/48008 [5:49:38<1:00:28,  2.06it/s] 84%|████████▍ | 40536/48008 [5:49:38<1:01:44,  2.02it/s] 84%|████████▍ | 40537/48008 [5:49:39<1:02:09,  2.00it/s] 84%|████████▍ | 40538/48008 [5:49:39<1:01:23,  2.03it/s] 84%|████████▍ | 40539/48008 [5:49:40<1:00:51,  2.05it/s] 84%|████████▍ | 40540/48008 [5:49:40<58:03,  2.14it/s]   84%|████████▍ | 40541/48008 [5:49:40<56:08,  2.22it/s] 84%|████████▍ | 40542/48008 [5:49:41<57:12,  2.17it/s] 84%|████████▍ | 40543/48008 [5:49:41<58:48,  2.12it/s] 84%|████████▍ | 40544/48008 [5:49:42<59:59,  2.07it/s] 84%|████████▍ | 40545/48008 [5:49:42<1:01:14,  2.03it/s] 84%|████████▍ | 40546/48008 [5:49:43<1:00:57,  2.04it/s] 84%|████████▍ | 40547/48008 [5:49:43<1:01:29,  2.02it/s] 84%|████████▍ | 40548/48008 [5:49:44<1:15:38,  1.64it/s] 84%|████████▍ | 40549/48008 [5:49:45<1:10:50,  1.75it/s] 84%|████████▍ | 40550/48008 [5:49:45<1:08:21,  1.82it/s]                                                         {'loss': 4.2074, 'grad_norm': 0.10169630497694016, 'learning_rate': 3.1073987668721885e-05, 'epoch': 0.84}
 84%|████████▍ | 40550/48008 [5:49:45<1:08:21,  1.82it/s] 84%|████████▍ | 40551/48008 [5:49:46<1:03:21,  1.96it/s] 84%|████████▍ | 40552/48008 [5:49:46<1:03:08,  1.97it/s] 84%|████████▍ | 40553/48008 [5:49:47<1:03:31,  1.96it/s] 84%|████████▍ | 40554/48008 [5:49:47<59:57,  2.07it/s]   84%|████████▍ | 40555/48008 [5:49:48<57:15,  2.17it/s] 84%|████████▍ | 40556/48008 [5:49:48<59:03,  2.10it/s] 84%|████████▍ | 40557/48008 [5:49:49<1:00:33,  2.05it/s] 84%|████████▍ | 40558/48008 [5:49:49<57:55,  2.14it/s]   84%|████████▍ | 40559/48008 [5:49:50<1:00:32,  2.05it/s] 84%|████████▍ | 40560/48008 [5:49:50<1:00:14,  2.06it/s] 84%|████████▍ | 40561/48008 [5:49:50<1:00:01,  2.07it/s] 84%|████████▍ | 40562/48008 [5:49:51<57:25,  2.16it/s]   84%|████████▍ | 40563/48008 [5:49:51<57:58,  2.14it/s] 84%|████████▍ | 40564/48008 [5:49:52<59:32,  2.08it/s] 84%|████████▍ | 40565/48008 [5:49:52<1:00:23,  2.05it/s] 84%|████████▍ | 40566/48008 [5:49:53<57:43,  2.15it/s]   85%|████████▍ | 40567/48008 [5:49:53<1:05:29,  1.89it/s] 85%|████████▍ | 40568/48008 [5:49:54<1:03:48,  1.94it/s] 85%|████████▍ | 40569/48008 [5:49:54<1:04:02,  1.94it/s] 85%|████████▍ | 40570/48008 [5:49:55<1:03:30,  1.95it/s] 85%|████████▍ | 40571/48008 [5:49:55<1:03:01,  1.97it/s] 85%|████████▍ | 40572/48008 [5:49:56<59:33,  2.08it/s]   85%|████████▍ | 40573/48008 [5:49:57<1:06:44,  1.86it/s] 85%|████████▍ | 40574/48008 [5:49:57<1:05:28,  1.89it/s] 85%|████████▍ | 40575/48008 [5:49:58<1:03:36,  1.95it/s] 85%|████████▍ | 40576/48008 [5:49:58<1:04:26,  1.92it/s] 85%|████████▍ | 40577/48008 [5:49:59<1:03:01,  1.96it/s] 85%|████████▍ | 40578/48008 [5:49:59<1:01:52,  2.00it/s] 85%|████████▍ | 40579/48008 [5:50:00<1:15:42,  1.64it/s] 85%|████████▍ | 40580/48008 [5:50:00<1:10:51,  1.75it/s] 85%|████████▍ | 40581/48008 [5:50:01<1:07:20,  1.84it/s] 85%|████████▍ | 40582/48008 [5:50:01<1:06:23,  1.86it/s] 85%|████████▍ | 40583/48008 [5:50:02<1:04:14,  1.93it/s] 85%|████████▍ | 40584/48008 [5:50:02<1:02:47,  1.97it/s] 85%|████████▍ | 40585/48008 [5:50:03<1:03:20,  1.95it/s] 85%|████████▍ | 40586/48008 [5:50:03<1:02:12,  1.99it/s] 85%|████████▍ | 40587/48008 [5:50:04<1:02:48,  1.97it/s] 85%|████████▍ | 40588/48008 [5:50:04<1:02:00,  1.99it/s] 85%|████████▍ | 40589/48008 [5:50:05<58:51,  2.10it/s]   85%|████████▍ | 40590/48008 [5:50:05<59:04,  2.09it/s] 85%|████████▍ | 40591/48008 [5:50:06<59:16,  2.09it/s] 85%|████████▍ | 40592/48008 [5:50:06<59:18,  2.08it/s] 85%|████████▍ | 40593/48008 [5:50:07<1:06:36,  1.86it/s] 85%|████████▍ | 40594/48008 [5:50:07<1:05:32,  1.89it/s] 85%|████████▍ | 40595/48008 [5:50:08<1:03:40,  1.94it/s] 85%|████████▍ | 40596/48008 [5:50:08<1:02:22,  1.98it/s] 85%|████████▍ | 40597/48008 [5:50:09<1:02:29,  1.98it/s] 85%|████████▍ | 40598/48008 [5:50:10<1:08:37,  1.80it/s] 85%|████████▍ | 40599/48008 [5:50:10<1:05:56,  1.87it/s] 85%|████████▍ | 40600/48008 [5:50:10<1:01:40,  2.00it/s]                                                         {'loss': 4.2266, 'grad_norm': 0.10643509775400162, 'learning_rate': 3.0865689051824696e-05, 'epoch': 0.85}
 85%|████████▍ | 40600/48008 [5:50:10<1:01:40,  2.00it/s] 85%|████████▍ | 40601/48008 [5:50:11<58:42,  2.10it/s]   85%|████████▍ | 40602/48008 [5:50:11<59:54,  2.06it/s] 85%|████████▍ | 40603/48008 [5:50:12<1:01:12,  2.02it/s] 85%|████████▍ | 40604/48008 [5:50:12<1:00:41,  2.03it/s] 85%|████████▍ | 40605/48008 [5:50:13<1:02:30,  1.97it/s] 85%|████████▍ | 40606/48008 [5:50:13<1:02:22,  1.98it/s] 85%|████████▍ | 40607/48008 [5:50:14<1:02:22,  1.98it/s] 85%|████████▍ | 40608/48008 [5:50:14<1:01:42,  2.00it/s] 85%|████████▍ | 40609/48008 [5:50:15<1:03:11,  1.95it/s] 85%|████████▍ | 40610/48008 [5:50:16<1:30:44,  1.36it/s] 85%|████████▍ | 40611/48008 [5:50:17<1:21:14,  1.52it/s] 85%|████████▍ | 40612/48008 [5:50:17<1:12:12,  1.71it/s] 85%|████████▍ | 40613/48008 [5:50:18<1:09:56,  1.76it/s] 85%|████████▍ | 40614/48008 [5:50:18<1:06:46,  1.85it/s] 85%|████████▍ | 40615/48008 [5:50:19<1:02:07,  1.98it/s] 85%|████████▍ | 40616/48008 [5:50:19<1:01:17,  2.01it/s] 85%|████████▍ | 40617/48008 [5:50:19<58:19,  2.11it/s]   85%|████████▍ | 40618/48008 [5:50:20<59:30,  2.07it/s] 85%|████████▍ | 40619/48008 [5:50:20<56:56,  2.16it/s] 85%|████████▍ | 40620/48008 [5:50:21<59:11,  2.08it/s] 85%|████████▍ | 40621/48008 [5:50:21<59:09,  2.08it/s] 85%|████████▍ | 40622/48008 [5:50:22<59:13,  2.08it/s] 85%|████████▍ | 40623/48008 [5:50:22<1:00:29,  2.03it/s] 85%|████████▍ | 40624/48008 [5:50:23<1:00:11,  2.04it/s] 85%|████████▍ | 40625/48008 [5:50:24<1:28:39,  1.39it/s] 85%|████████▍ | 40626/48008 [5:50:25<1:19:48,  1.54it/s] 85%|████████▍ | 40627/48008 [5:50:25<1:13:45,  1.67it/s] 85%|████████▍ | 40628/48008 [5:50:26<1:10:09,  1.75it/s] 85%|████████▍ | 40629/48008 [5:50:26<1:08:10,  1.80it/s] 85%|████████▍ | 40630/48008 [5:50:27<1:06:49,  1.84it/s] 85%|████████▍ | 40631/48008 [5:50:27<1:11:34,  1.72it/s] 85%|████████▍ | 40632/48008 [5:50:28<1:10:05,  1.75it/s] 85%|████████▍ | 40633/48008 [5:50:28<1:04:31,  1.91it/s] 85%|████████▍ | 40634/48008 [5:50:29<1:02:52,  1.95it/s] 85%|████████▍ | 40635/48008 [5:50:29<1:02:36,  1.96it/s] 85%|████████▍ | 40636/48008 [5:50:30<59:18,  2.07it/s]   85%|████████▍ | 40637/48008 [5:50:30<59:15,  2.07it/s] 85%|████████▍ | 40638/48008 [5:50:31<56:38,  2.17it/s] 85%|████████▍ | 40639/48008 [5:50:31<58:35,  2.10it/s] 85%|████████▍ | 40640/48008 [5:50:32<1:13:10,  1.68it/s] 85%|████████▍ | 40641/48008 [5:50:32<1:08:45,  1.79it/s] 85%|████████▍ | 40642/48008 [5:50:33<1:05:43,  1.87it/s] 85%|████████▍ | 40643/48008 [5:50:33<1:03:41,  1.93it/s] 85%|████████▍ | 40644/48008 [5:50:34<1:04:25,  1.91it/s] 85%|████████▍ | 40645/48008 [5:50:34<1:02:52,  1.95it/s] 85%|████████▍ | 40646/48008 [5:50:35<1:01:50,  1.98it/s] 85%|████████▍ | 40647/48008 [5:50:36<1:08:02,  1.80it/s] 85%|████████▍ | 40648/48008 [5:50:36<1:06:52,  1.83it/s] 85%|████████▍ | 40649/48008 [5:50:36<1:02:04,  1.98it/s] 85%|████████▍ | 40650/48008 [5:50:37<1:02:39,  1.96it/s]                                                         {'loss': 4.2412, 'grad_norm': 0.09603256732225418, 'learning_rate': 3.065739043492751e-05, 'epoch': 0.85}
 85%|████████▍ | 40650/48008 [5:50:37<1:02:39,  1.96it/s] 85%|████████▍ | 40651/48008 [5:50:37<1:01:43,  1.99it/s] 85%|████████▍ | 40652/48008 [5:50:38<58:16,  2.10it/s]   85%|████████▍ | 40653/48008 [5:50:38<1:00:44,  2.02it/s] 85%|████████▍ | 40654/48008 [5:50:39<1:01:03,  2.01it/s] 85%|████████▍ | 40655/48008 [5:50:39<1:01:16,  2.00it/s] 85%|████████▍ | 40656/48008 [5:50:40<1:01:24,  2.00it/s] 85%|████████▍ | 40657/48008 [5:50:40<58:16,  2.10it/s]   85%|████████▍ | 40658/48008 [5:50:41<56:03,  2.19it/s] 85%|████████▍ | 40659/48008 [5:50:41<56:58,  2.15it/s] 85%|████████▍ | 40660/48008 [5:50:42<58:18,  2.10it/s] 85%|████████▍ | 40661/48008 [5:50:42<59:33,  2.06it/s] 85%|████████▍ | 40662/48008 [5:50:43<1:00:12,  2.03it/s] 85%|████████▍ | 40663/48008 [5:50:43<1:01:06,  2.00it/s] 85%|████████▍ | 40664/48008 [5:50:44<1:01:18,  2.00it/s] 85%|████████▍ | 40665/48008 [5:50:44<58:15,  2.10it/s]   85%|████████▍ | 40666/48008 [5:50:45<58:15,  2.10it/s] 85%|████████▍ | 40667/48008 [5:50:46<1:13:11,  1.67it/s] 85%|████████▍ | 40668/48008 [5:50:46<1:08:53,  1.78it/s] 85%|████████▍ | 40669/48008 [5:50:47<1:05:51,  1.86it/s] 85%|████████▍ | 40670/48008 [5:50:47<1:03:43,  1.92it/s] 85%|████████▍ | 40671/48008 [5:50:48<1:03:36,  1.92it/s] 85%|████████▍ | 40672/48008 [5:50:48<1:02:11,  1.97it/s] 85%|████████▍ | 40673/48008 [5:50:49<1:02:42,  1.95it/s] 85%|████████▍ | 40674/48008 [5:50:49<59:13,  2.06it/s]   85%|████████▍ | 40675/48008 [5:50:49<59:57,  2.04it/s] 85%|████████▍ | 40676/48008 [5:50:50<1:01:14,  2.00it/s] 85%|████████▍ | 40677/48008 [5:50:50<56:50,  2.15it/s]   85%|████████▍ | 40678/48008 [5:50:51<57:31,  2.12it/s] 85%|████████▍ | 40679/48008 [5:50:51<57:57,  2.11it/s] 85%|████████▍ | 40680/48008 [5:50:52<58:21,  2.09it/s] 85%|████████▍ | 40681/48008 [5:50:52<58:28,  2.09it/s] 85%|████████▍ | 40682/48008 [5:50:53<58:30,  2.09it/s] 85%|████████▍ | 40683/48008 [5:50:53<1:00:36,  2.01it/s] 85%|████████▍ | 40684/48008 [5:50:54<57:40,  2.12it/s]   85%|████████▍ | 40685/48008 [5:50:54<1:00:00,  2.03it/s] 85%|████████▍ | 40686/48008 [5:50:55<1:06:52,  1.82it/s] 85%|████████▍ | 40687/48008 [5:50:55<1:02:05,  1.97it/s] 85%|████████▍ | 40688/48008 [5:50:56<1:02:05,  1.96it/s] 85%|████████▍ | 40689/48008 [5:50:56<58:35,  2.08it/s]   85%|████████▍ | 40690/48008 [5:50:57<59:21,  2.05it/s] 85%|████████▍ | 40691/48008 [5:50:57<59:16,  2.06it/s] 85%|████████▍ | 40692/48008 [5:50:58<56:43,  2.15it/s] 85%|████████▍ | 40693/48008 [5:50:58<55:03,  2.21it/s] 85%|████████▍ | 40694/48008 [5:50:59<57:30,  2.12it/s] 85%|████████▍ | 40695/48008 [5:50:59<55:35,  2.19it/s] 85%|████████▍ | 40696/48008 [5:50:59<54:10,  2.25it/s] 85%|████████▍ | 40697/48008 [5:51:00<56:28,  2.16it/s] 85%|████████▍ | 40698/48008 [5:51:00<54:40,  2.23it/s] 85%|████████▍ | 40699/48008 [5:51:01<55:41,  2.19it/s] 85%|████████▍ | 40700/48008 [5:51:01<57:12,  2.13it/s]                                                       {'loss': 4.1956, 'grad_norm': 0.1050640195608139, 'learning_rate': 3.0449091818030327e-05, 'epoch': 0.85} 85%|████████▍ | 40700/48008 [5:51:01<57:12,  2.13it/s]
 85%|████████▍ | 40701/48008 [5:51:02<57:45,  2.11it/s] 85%|████████▍ | 40702/48008 [5:51:02<1:00:13,  2.02it/s] 85%|████████▍ | 40703/48008 [5:51:03<59:51,  2.03it/s]   85%|████████▍ | 40704/48008 [5:51:03<59:24,  2.05it/s] 85%|████████▍ | 40705/48008 [5:51:04<1:00:41,  2.01it/s] 85%|████████▍ | 40706/48008 [5:51:04<1:02:17,  1.95it/s] 85%|████████▍ | 40707/48008 [5:51:05<1:08:06,  1.79it/s] 85%|████████▍ | 40708/48008 [5:51:06<1:05:16,  1.86it/s] 85%|████████▍ | 40709/48008 [5:51:06<1:03:15,  1.92it/s] 85%|████████▍ | 40710/48008 [5:51:07<1:01:50,  1.97it/s] 85%|████████▍ | 40711/48008 [5:51:07<1:01:00,  1.99it/s] 85%|████████▍ | 40712/48008 [5:51:08<1:00:10,  2.02it/s] 85%|████████▍ | 40713/48008 [5:51:08<1:00:31,  2.01it/s] 85%|████████▍ | 40714/48008 [5:51:08<59:53,  2.03it/s]   85%|████████▍ | 40715/48008 [5:51:09<1:06:38,  1.82it/s] 85%|████████▍ | 40716/48008 [5:51:10<1:04:18,  1.89it/s] 85%|████████▍ | 40717/48008 [5:51:10<1:02:32,  1.94it/s] 85%|████████▍ | 40718/48008 [5:51:11<1:03:26,  1.92it/s] 85%|████████▍ | 40719/48008 [5:51:11<1:03:57,  1.90it/s] 85%|████████▍ | 40720/48008 [5:51:12<1:02:16,  1.95it/s] 85%|████████▍ | 40721/48008 [5:51:12<1:02:41,  1.94it/s] 85%|████████▍ | 40722/48008 [5:51:13<58:54,  2.06it/s]   85%|████████▍ | 40723/48008 [5:51:13<58:49,  2.06it/s] 85%|████████▍ | 40724/48008 [5:51:14<1:00:01,  2.02it/s] 85%|████████▍ | 40725/48008 [5:51:14<1:00:27,  2.01it/s] 85%|████████▍ | 40726/48008 [5:51:15<1:00:35,  2.00it/s] 85%|████████▍ | 40727/48008 [5:51:15<1:02:05,  1.95it/s] 85%|████████▍ | 40728/48008 [5:51:16<1:01:49,  1.96it/s] 85%|████████▍ | 40729/48008 [5:51:16<1:00:46,  2.00it/s] 85%|████████▍ | 40730/48008 [5:51:17<1:00:57,  1.99it/s] 85%|████████▍ | 40731/48008 [5:51:17<57:46,  2.10it/s]   85%|████████▍ | 40732/48008 [5:51:18<57:57,  2.09it/s] 85%|████████▍ | 40733/48008 [5:51:18<58:08,  2.09it/s] 85%|████████▍ | 40734/48008 [5:51:19<59:03,  2.05it/s] 85%|████████▍ | 40735/48008 [5:51:19<1:00:25,  2.01it/s] 85%|████████▍ | 40736/48008 [5:51:20<1:00:49,  1.99it/s] 85%|████████▍ | 40737/48008 [5:51:21<1:28:01,  1.38it/s] 85%|████████▍ | 40738/48008 [5:51:21<1:20:39,  1.50it/s] 85%|████████▍ | 40739/48008 [5:51:22<1:14:01,  1.64it/s] 85%|████████▍ | 40740/48008 [5:51:22<1:10:04,  1.73it/s] 85%|████████▍ | 40741/48008 [5:51:23<1:06:29,  1.82it/s] 85%|████████▍ | 40742/48008 [5:51:23<1:06:07,  1.83it/s] 85%|████████▍ | 40743/48008 [5:51:24<1:03:50,  1.90it/s] 85%|████████▍ | 40744/48008 [5:51:24<1:02:07,  1.95it/s] 85%|████████▍ | 40745/48008 [5:51:25<1:00:59,  1.98it/s] 85%|████████▍ | 40746/48008 [5:51:25<1:00:13,  2.01it/s] 85%|████████▍ | 40747/48008 [5:51:26<59:46,  2.02it/s]   85%|████████▍ | 40748/48008 [5:51:26<57:01,  2.12it/s] 85%|████████▍ | 40749/48008 [5:51:27<58:12,  2.08it/s] 85%|████████▍ | 40750/48008 [5:51:27<55:47,  2.17it/s]                                                       {'loss': 4.2971, 'grad_norm': 0.10526315122842789, 'learning_rate': 3.0240793201133145e-05, 'epoch': 0.85}
 85%|████████▍ | 40750/48008 [5:51:27<55:47,  2.17it/s] 85%|████████▍ | 40751/48008 [5:51:28<56:23,  2.14it/s] 85%|████████▍ | 40752/48008 [5:51:28<57:51,  2.09it/s] 85%|████████▍ | 40753/48008 [5:51:29<58:41,  2.06it/s] 85%|████████▍ | 40754/48008 [5:51:29<58:38,  2.06it/s] 85%|████████▍ | 40755/48008 [5:51:30<59:20,  2.04it/s] 85%|████████▍ | 40756/48008 [5:51:30<1:00:57,  1.98it/s] 85%|████████▍ | 40757/48008 [5:51:31<1:00:47,  1.99it/s] 85%|████████▍ | 40758/48008 [5:51:31<59:45,  2.02it/s]   85%|████████▍ | 40759/48008 [5:51:32<1:00:43,  1.99it/s] 85%|████████▍ | 40760/48008 [5:51:32<1:00:51,  1.98it/s] 85%|████████▍ | 40761/48008 [5:51:33<1:00:02,  2.01it/s] 85%|████████▍ | 40762/48008 [5:51:33<1:00:12,  2.01it/s] 85%|████████▍ | 40763/48008 [5:51:34<59:41,  2.02it/s]   85%|████████▍ | 40764/48008 [5:51:34<1:00:04,  2.01it/s] 85%|████████▍ | 40765/48008 [5:51:35<1:00:31,  1.99it/s] 85%|████████▍ | 40766/48008 [5:51:35<1:00:31,  1.99it/s] 85%|████████▍ | 40767/48008 [5:51:36<1:06:43,  1.81it/s] 85%|████████▍ | 40768/48008 [5:51:36<1:04:13,  1.88it/s] 85%|████████▍ | 40769/48008 [5:51:37<1:04:17,  1.88it/s] 85%|████████▍ | 40770/48008 [5:51:37<1:00:01,  2.01it/s] 85%|████████▍ | 40771/48008 [5:51:38<59:30,  2.03it/s]   85%|████████▍ | 40772/48008 [5:51:38<56:46,  2.12it/s] 85%|████████▍ | 40773/48008 [5:51:39<58:03,  2.08it/s] 85%|████████▍ | 40774/48008 [5:51:39<58:07,  2.07it/s] 85%|████████▍ | 40775/48008 [5:51:40<57:53,  2.08it/s] 85%|████████▍ | 40776/48008 [5:51:40<58:03,  2.08it/s] 85%|████████▍ | 40777/48008 [5:51:40<55:46,  2.16it/s] 85%|████████▍ | 40778/48008 [5:51:41<56:30,  2.13it/s] 85%|████████▍ | 40779/48008 [5:51:41<54:36,  2.21it/s] 85%|████████▍ | 40780/48008 [5:51:42<55:31,  2.17it/s] 85%|████████▍ | 40781/48008 [5:51:42<56:08,  2.15it/s] 85%|████████▍ | 40782/48008 [5:51:43<56:33,  2.13it/s] 85%|████████▍ | 40783/48008 [5:51:43<57:00,  2.11it/s] 85%|████████▍ | 40784/48008 [5:51:44<58:33,  2.06it/s] 85%|████████▍ | 40785/48008 [5:51:44<59:39,  2.02it/s] 85%|████████▍ | 40786/48008 [5:51:45<59:59,  2.01it/s] 85%|████████▍ | 40787/48008 [5:51:45<59:26,  2.02it/s] 85%|████████▍ | 40788/48008 [5:51:46<59:48,  2.01it/s] 85%|████████▍ | 40789/48008 [5:51:46<1:00:30,  1.99it/s] 85%|████████▍ | 40790/48008 [5:51:47<1:00:27,  1.99it/s] 85%|████████▍ | 40791/48008 [5:51:47<59:45,  2.01it/s]   85%|████████▍ | 40792/48008 [5:51:48<1:00:02,  2.00it/s] 85%|████████▍ | 40793/48008 [5:51:48<55:48,  2.15it/s]   85%|████████▍ | 40794/48008 [5:51:49<57:51,  2.08it/s] 85%|████████▍ | 40795/48008 [5:51:49<59:16,  2.03it/s] 85%|████████▍ | 40796/48008 [5:51:50<58:51,  2.04it/s] 85%|████████▍ | 40797/48008 [5:51:50<58:36,  2.05it/s] 85%|████████▍ | 40798/48008 [5:51:51<56:05,  2.14it/s] 85%|████████▍ | 40799/48008 [5:51:51<56:38,  2.12it/s] 85%|████████▍ | 40800/48008 [5:51:52<57:06,  2.10it/s]                                                       {'loss': 4.2593, 'grad_norm': 0.09765558689832687, 'learning_rate': 3.003249458423596e-05, 'epoch': 0.85}
 85%|████████▍ | 40800/48008 [5:51:52<57:06,  2.10it/s] 85%|████████▍ | 40801/48008 [5:51:52<57:26,  2.09it/s] 85%|████████▍ | 40802/48008 [5:51:53<59:05,  2.03it/s] 85%|████████▍ | 40803/48008 [5:51:53<58:44,  2.04it/s] 85%|████████▍ | 40804/48008 [5:51:54<58:38,  2.05it/s] 85%|████████▍ | 40805/48008 [5:51:54<58:28,  2.05it/s] 85%|████████▍ | 40806/48008 [5:51:55<59:34,  2.01it/s] 85%|████████▌ | 40807/48008 [5:51:55<56:45,  2.11it/s] 85%|████████▌ | 40808/48008 [5:51:55<56:56,  2.11it/s] 85%|████████▌ | 40809/48008 [5:51:56<58:27,  2.05it/s] 85%|████████▌ | 40810/48008 [5:51:56<55:44,  2.15it/s] 85%|████████▌ | 40811/48008 [5:51:57<57:00,  2.10it/s] 85%|████████▌ | 40812/48008 [5:51:57<57:21,  2.09it/s] 85%|████████▌ | 40813/48008 [5:51:58<58:56,  2.03it/s] 85%|████████▌ | 40814/48008 [5:51:58<59:23,  2.02it/s] 85%|████████▌ | 40815/48008 [5:51:59<58:57,  2.03it/s] 85%|████████▌ | 40816/48008 [5:51:59<59:26,  2.02it/s] 85%|████████▌ | 40817/48008 [5:52:00<1:00:47,  1.97it/s] 85%|████████▌ | 40818/48008 [5:52:00<59:53,  2.00it/s]   85%|████████▌ | 40819/48008 [5:52:01<1:06:18,  1.81it/s] 85%|████████▌ | 40820/48008 [5:52:02<1:03:36,  1.88it/s] 85%|████████▌ | 40821/48008 [5:52:02<1:02:43,  1.91it/s] 85%|████████▌ | 40822/48008 [5:52:03<1:01:58,  1.93it/s] 85%|████████▌ | 40823/48008 [5:52:03<1:02:03,  1.93it/s] 85%|████████▌ | 40824/48008 [5:52:04<1:00:50,  1.97it/s] 85%|████████▌ | 40825/48008 [5:52:04<59:49,  2.00it/s]   85%|████████▌ | 40826/48008 [5:52:05<1:00:41,  1.97it/s] 85%|████████▌ | 40827/48008 [5:52:05<57:24,  2.08it/s]   85%|████████▌ | 40828/48008 [5:52:06<1:04:32,  1.85it/s] 85%|████████▌ | 40829/48008 [5:52:06<1:03:40,  1.88it/s] 85%|████████▌ | 40830/48008 [5:52:07<1:02:52,  1.90it/s] 85%|████████▌ | 40831/48008 [5:52:07<58:56,  2.03it/s]   85%|████████▌ | 40832/48008 [5:52:08<58:30,  2.04it/s] 85%|████████▌ | 40833/48008 [5:52:08<55:55,  2.14it/s] 85%|████████▌ | 40834/48008 [5:52:08<54:08,  2.21it/s] 85%|████████▌ | 40835/48008 [5:52:09<56:05,  2.13it/s] 85%|████████▌ | 40836/48008 [5:52:09<56:48,  2.10it/s] 85%|████████▌ | 40837/48008 [5:52:10<58:15,  2.05it/s] 85%|████████▌ | 40838/48008 [5:52:10<55:37,  2.15it/s] 85%|████████▌ | 40839/48008 [5:52:11<56:21,  2.12it/s] 85%|████████▌ | 40840/48008 [5:52:11<58:10,  2.05it/s] 85%|████████▌ | 40841/48008 [5:52:12<59:30,  2.01it/s] 85%|████████▌ | 40842/48008 [5:52:12<59:42,  2.00it/s] 85%|████████▌ | 40843/48008 [5:52:13<59:05,  2.02it/s] 85%|████████▌ | 40844/48008 [5:52:13<1:00:50,  1.96it/s] 85%|████████▌ | 40845/48008 [5:52:14<1:14:10,  1.61it/s] 85%|████████▌ | 40846/48008 [5:52:15<1:11:09,  1.68it/s] 85%|████████▌ | 40847/48008 [5:52:15<1:04:43,  1.84it/s] 85%|████████▌ | 40848/48008 [5:52:16<1:09:21,  1.72it/s] 85%|████████▌ | 40849/48008 [5:52:16<1:06:58,  1.78it/s] 85%|████████▌ | 40850/48008 [5:52:17<1:04:49,  1.84it/s]                                                         {'loss': 4.2603, 'grad_norm': 0.105283722281456, 'learning_rate': 2.982419596733878e-05, 'epoch': 0.85} 85%|████████▌ | 40850/48008 [5:52:17<1:04:49,  1.84it/s]
 85%|████████▌ | 40851/48008 [5:52:17<1:02:48,  1.90it/s] 85%|████████▌ | 40852/48008 [5:52:18<58:51,  2.03it/s]   85%|████████▌ | 40853/48008 [5:52:18<59:14,  2.01it/s] 85%|████████▌ | 40854/48008 [5:52:20<1:26:02,  1.39it/s] 85%|████████▌ | 40855/48008 [5:52:20<1:18:53,  1.51it/s] 85%|████████▌ | 40856/48008 [5:52:21<1:12:25,  1.65it/s] 85%|████████▌ | 40857/48008 [5:52:21<1:09:56,  1.70it/s] 85%|████████▌ | 40858/48008 [5:52:22<1:06:57,  1.78it/s] 85%|████████▌ | 40859/48008 [5:52:22<1:04:39,  1.84it/s] 85%|████████▌ | 40860/48008 [5:52:23<1:00:13,  1.98it/s] 85%|████████▌ | 40861/48008 [5:52:23<59:17,  2.01it/s]   85%|████████▌ | 40862/48008 [5:52:24<59:58,  1.99it/s] 85%|████████▌ | 40863/48008 [5:52:24<59:00,  2.02it/s] 85%|████████▌ | 40864/48008 [5:52:25<58:32,  2.03it/s] 85%|████████▌ | 40865/48008 [5:52:25<58:14,  2.04it/s] 85%|████████▌ | 40866/48008 [5:52:26<57:49,  2.06it/s] 85%|████████▌ | 40867/48008 [5:52:26<57:47,  2.06it/s] 85%|████████▌ | 40868/48008 [5:52:27<59:06,  2.01it/s] 85%|████████▌ | 40869/48008 [5:52:27<58:36,  2.03it/s] 85%|████████▌ | 40870/48008 [5:52:27<58:20,  2.04it/s] 85%|████████▌ | 40871/48008 [5:52:28<58:40,  2.03it/s] 85%|████████▌ | 40872/48008 [5:52:28<55:56,  2.13it/s] 85%|████████▌ | 40873/48008 [5:52:29<56:24,  2.11it/s] 85%|████████▌ | 40874/48008 [5:52:29<57:31,  2.07it/s] 85%|████████▌ | 40875/48008 [5:52:30<57:27,  2.07it/s] 85%|████████▌ | 40876/48008 [5:52:30<58:34,  2.03it/s] 85%|████████▌ | 40877/48008 [5:52:32<1:25:31,  1.39it/s] 85%|████████▌ | 40878/48008 [5:52:32<1:23:54,  1.42it/s] 85%|████████▌ | 40879/48008 [5:52:33<1:15:49,  1.57it/s] 85%|████████▌ | 40880/48008 [5:52:33<1:10:14,  1.69it/s] 85%|████████▌ | 40881/48008 [5:52:34<1:07:11,  1.77it/s] 85%|████████▌ | 40882/48008 [5:52:34<1:05:39,  1.81it/s] 85%|████████▌ | 40883/48008 [5:52:35<1:03:13,  1.88it/s] 85%|████████▌ | 40884/48008 [5:52:35<1:01:23,  1.93it/s] 85%|████████▌ | 40885/48008 [5:52:36<1:01:38,  1.93it/s] 85%|████████▌ | 40886/48008 [5:52:36<1:00:15,  1.97it/s] 85%|████████▌ | 40887/48008 [5:52:37<1:00:38,  1.96it/s] 85%|████████▌ | 40888/48008 [5:52:37<1:00:39,  1.96it/s] 85%|████████▌ | 40889/48008 [5:52:38<1:01:04,  1.94it/s] 85%|████████▌ | 40890/48008 [5:52:38<57:23,  2.07it/s]   85%|████████▌ | 40891/48008 [5:52:39<57:11,  2.07it/s] 85%|████████▌ | 40892/48008 [5:52:39<58:31,  2.03it/s] 85%|████████▌ | 40893/48008 [5:52:40<1:12:10,  1.64it/s] 85%|████████▌ | 40894/48008 [5:52:41<1:05:16,  1.82it/s] 85%|████████▌ | 40895/48008 [5:52:41<1:02:53,  1.89it/s] 85%|████████▌ | 40896/48008 [5:52:42<1:03:06,  1.88it/s] 85%|████████▌ | 40897/48008 [5:52:42<59:04,  2.01it/s]   85%|████████▌ | 40898/48008 [5:52:42<59:30,  1.99it/s] 85%|████████▌ | 40899/48008 [5:52:43<56:33,  2.09it/s] 85%|████████▌ | 40900/48008 [5:52:43<56:52,  2.08it/s]                                                       {'loss': 4.2996, 'grad_norm': 0.09994051605463028, 'learning_rate': 2.9615897350441597e-05, 'epoch': 0.85}
 85%|████████▌ | 40900/48008 [5:52:43<56:52,  2.08it/s] 85%|████████▌ | 40901/48008 [5:52:44<56:51,  2.08it/s] 85%|████████▌ | 40902/48008 [5:52:44<54:34,  2.17it/s] 85%|████████▌ | 40903/48008 [5:52:45<55:14,  2.14it/s] 85%|████████▌ | 40904/48008 [5:52:45<55:45,  2.12it/s] 85%|████████▌ | 40905/48008 [5:52:46<53:41,  2.20it/s] 85%|████████▌ | 40906/48008 [5:52:46<56:40,  2.09it/s] 85%|████████▌ | 40907/48008 [5:52:47<56:33,  2.09it/s] 85%|████████▌ | 40908/48008 [5:52:47<56:34,  2.09it/s] 85%|████████▌ | 40909/48008 [5:52:48<1:03:24,  1.87it/s] 85%|████████▌ | 40910/48008 [5:52:48<59:11,  2.00it/s]   85%|████████▌ | 40911/48008 [5:52:49<59:26,  1.99it/s] 85%|████████▌ | 40912/48008 [5:52:49<58:41,  2.02it/s] 85%|████████▌ | 40913/48008 [5:52:50<58:11,  2.03it/s] 85%|████████▌ | 40914/48008 [5:52:50<57:55,  2.04it/s] 85%|████████▌ | 40915/48008 [5:52:51<58:29,  2.02it/s] 85%|████████▌ | 40916/48008 [5:52:51<58:08,  2.03it/s] 85%|████████▌ | 40917/48008 [5:52:52<1:04:24,  1.83it/s] 85%|████████▌ | 40918/48008 [5:52:53<1:08:53,  1.72it/s] 85%|████████▌ | 40919/48008 [5:52:53<1:05:07,  1.81it/s] 85%|████████▌ | 40920/48008 [5:52:53<1:02:34,  1.89it/s] 85%|████████▌ | 40921/48008 [5:52:54<1:00:48,  1.94it/s] 85%|████████▌ | 40922/48008 [5:52:54<59:46,  1.98it/s]   85%|████████▌ | 40923/48008 [5:52:55<58:55,  2.00it/s] 85%|████████▌ | 40924/48008 [5:52:55<55:57,  2.11it/s] 85%|████████▌ | 40925/48008 [5:52:56<57:28,  2.05it/s] 85%|████████▌ | 40926/48008 [5:52:56<58:10,  2.03it/s] 85%|████████▌ | 40927/48008 [5:52:57<57:45,  2.04it/s] 85%|████████▌ | 40928/48008 [5:52:57<58:43,  2.01it/s] 85%|████████▌ | 40929/48008 [5:52:58<1:12:27,  1.63it/s] 85%|████████▌ | 40930/48008 [5:52:59<1:09:12,  1.70it/s] 85%|████████▌ | 40931/48008 [5:52:59<1:05:34,  1.80it/s] 85%|████████▌ | 40932/48008 [5:53:00<1:03:41,  1.85it/s] 85%|████████▌ | 40933/48008 [5:53:00<1:01:45,  1.91it/s] 85%|████████▌ | 40934/48008 [5:53:01<1:06:59,  1.76it/s] 85%|████████▌ | 40935/48008 [5:53:02<1:10:41,  1.67it/s] 85%|████████▌ | 40936/48008 [5:53:02<1:07:17,  1.75it/s] 85%|████████▌ | 40937/48008 [5:53:03<1:03:53,  1.84it/s] 85%|████████▌ | 40938/48008 [5:53:03<1:01:47,  1.91it/s] 85%|████████▌ | 40939/48008 [5:53:03<57:49,  2.04it/s]   85%|████████▌ | 40940/48008 [5:53:04<55:10,  2.13it/s] 85%|████████▌ | 40941/48008 [5:53:04<55:31,  2.12it/s] 85%|████████▌ | 40942/48008 [5:53:05<53:38,  2.20it/s] 85%|████████▌ | 40943/48008 [5:53:05<54:35,  2.16it/s] 85%|████████▌ | 40944/48008 [5:53:06<56:00,  2.10it/s] 85%|████████▌ | 40945/48008 [5:53:06<56:20,  2.09it/s] 85%|████████▌ | 40946/48008 [5:53:07<57:15,  2.06it/s] 85%|████████▌ | 40947/48008 [5:53:07<57:01,  2.06it/s] 85%|████████▌ | 40948/48008 [5:53:08<57:02,  2.06it/s] 85%|████████▌ | 40949/48008 [5:53:08<56:44,  2.07it/s] 85%|████████▌ | 40950/48008 [5:53:09<57:27,  2.05it/s]                                                       {'loss': 4.2629, 'grad_norm': 0.10290289670228958, 'learning_rate': 2.940759873354441e-05, 'epoch': 0.85} 85%|████████▌ | 40950/48008 [5:53:09<57:27,  2.05it/s]
 85%|████████▌ | 40951/48008 [5:53:09<57:27,  2.05it/s] 85%|████████▌ | 40952/48008 [5:53:10<54:57,  2.14it/s] 85%|████████▌ | 40953/48008 [5:53:10<55:39,  2.11it/s] 85%|████████▌ | 40954/48008 [5:53:11<57:16,  2.05it/s] 85%|████████▌ | 40955/48008 [5:53:11<57:15,  2.05it/s] 85%|████████▌ | 40956/48008 [5:53:12<57:50,  2.03it/s] 85%|████████▌ | 40957/48008 [5:53:12<57:33,  2.04it/s] 85%|████████▌ | 40958/48008 [5:53:13<57:16,  2.05it/s] 85%|████████▌ | 40959/48008 [5:53:13<58:57,  1.99it/s] 85%|████████▌ | 40960/48008 [5:53:14<56:00,  2.10it/s] 85%|████████▌ | 40961/48008 [5:53:14<57:03,  2.06it/s] 85%|████████▌ | 40962/48008 [5:53:15<56:51,  2.07it/s] 85%|████████▌ | 40963/48008 [5:53:15<1:03:53,  1.84it/s] 85%|████████▌ | 40964/48008 [5:53:16<1:01:36,  1.91it/s] 85%|████████▌ | 40965/48008 [5:53:16<1:00:46,  1.93it/s] 85%|████████▌ | 40966/48008 [5:53:17<59:43,  1.97it/s]   85%|████████▌ | 40967/48008 [5:53:17<59:19,  1.98it/s] 85%|████████▌ | 40968/48008 [5:53:18<1:00:43,  1.93it/s] 85%|████████▌ | 40969/48008 [5:53:18<59:33,  1.97it/s]   85%|████████▌ | 40970/48008 [5:53:19<56:14,  2.09it/s] 85%|████████▌ | 40971/48008 [5:53:19<56:14,  2.09it/s] 85%|████████▌ | 40972/48008 [5:53:20<56:19,  2.08it/s] 85%|████████▌ | 40973/48008 [5:53:20<57:00,  2.06it/s] 85%|████████▌ | 40974/48008 [5:53:20<54:33,  2.15it/s] 85%|████████▌ | 40975/48008 [5:53:21<55:04,  2.13it/s] 85%|████████▌ | 40976/48008 [5:53:22<56:56,  2.06it/s] 85%|████████▌ | 40977/48008 [5:53:22<58:50,  1.99it/s] 85%|████████▌ | 40978/48008 [5:53:22<55:51,  2.10it/s] 85%|████████▌ | 40979/48008 [5:53:23<56:12,  2.08it/s] 85%|████████▌ | 40980/48008 [5:53:23<56:13,  2.08it/s] 85%|████████▌ | 40981/48008 [5:53:24<57:16,  2.04it/s] 85%|████████▌ | 40982/48008 [5:53:24<56:53,  2.06it/s] 85%|████████▌ | 40983/48008 [5:53:25<56:40,  2.07it/s] 85%|████████▌ | 40984/48008 [5:53:25<56:32,  2.07it/s] 85%|████████▌ | 40985/48008 [5:53:26<56:46,  2.06it/s] 85%|████████▌ | 40986/48008 [5:53:26<56:54,  2.06it/s] 85%|████████▌ | 40987/48008 [5:53:27<57:27,  2.04it/s] 85%|████████▌ | 40988/48008 [5:53:27<58:00,  2.02it/s] 85%|████████▌ | 40989/48008 [5:53:28<55:25,  2.11it/s] 85%|████████▌ | 40990/48008 [5:53:29<1:09:32,  1.68it/s] 85%|████████▌ | 40991/48008 [5:53:29<1:06:50,  1.75it/s] 85%|████████▌ | 40992/48008 [5:53:30<1:04:24,  1.82it/s] 85%|████████▌ | 40993/48008 [5:53:30<1:04:23,  1.82it/s] 85%|████████▌ | 40994/48008 [5:53:31<1:02:16,  1.88it/s] 85%|████████▌ | 40995/48008 [5:53:32<1:27:14,  1.34it/s] 85%|████████▌ | 40996/48008 [5:53:32<1:18:13,  1.49it/s] 85%|████████▌ | 40997/48008 [5:53:33<1:09:18,  1.69it/s] 85%|████████▌ | 40998/48008 [5:53:33<1:06:08,  1.77it/s] 85%|████████▌ | 40999/48008 [5:53:34<1:03:25,  1.84it/s] 85%|████████▌ | 41000/48008 [5:53:34<1:01:22,  1.90it/s]                                                         {'loss': 4.2314, 'grad_norm': 0.10553330183029175, 'learning_rate': 2.9199300116647228e-05, 'epoch': 0.85}
 85%|████████▌ | 41000/48008 [5:53:34<1:01:22,  1.90it/s] 85%|████████▌ | 41001/48008 [5:53:35<1:00:35,  1.93it/s] 85%|████████▌ | 41002/48008 [5:53:35<59:20,  1.97it/s]   85%|████████▌ | 41003/48008 [5:53:36<59:15,  1.97it/s] 85%|████████▌ | 41004/48008 [5:53:36<58:12,  2.01it/s] 85%|████████▌ | 41005/48008 [5:53:37<57:53,  2.02it/s] 85%|████████▌ | 41006/48008 [5:53:37<59:35,  1.96it/s] 85%|████████▌ | 41007/48008 [5:53:38<56:17,  2.07it/s] 85%|████████▌ | 41008/48008 [5:53:38<57:48,  2.02it/s] 85%|████████▌ | 41009/48008 [5:53:39<1:04:12,  1.82it/s] 85%|████████▌ | 41010/48008 [5:53:39<1:02:44,  1.86it/s] 85%|████████▌ | 41011/48008 [5:53:40<58:24,  2.00it/s]   85%|████████▌ | 41012/48008 [5:53:40<58:52,  1.98it/s] 85%|████████▌ | 41013/48008 [5:53:41<58:05,  2.01it/s] 85%|████████▌ | 41014/48008 [5:53:42<1:24:13,  1.38it/s] 85%|████████▌ | 41015/48008 [5:53:43<1:15:39,  1.54it/s] 85%|████████▌ | 41016/48008 [5:53:43<1:09:57,  1.67it/s] 85%|████████▌ | 41017/48008 [5:53:44<1:06:03,  1.76it/s] 85%|████████▌ | 41018/48008 [5:53:44<1:04:35,  1.80it/s] 85%|████████▌ | 41019/48008 [5:53:45<1:15:48,  1.54it/s] 85%|████████▌ | 41020/48008 [5:53:46<1:10:40,  1.65it/s] 85%|████████▌ | 41021/48008 [5:53:46<1:06:08,  1.76it/s] 85%|████████▌ | 41022/48008 [5:53:46<1:03:07,  1.84it/s] 85%|████████▌ | 41023/48008 [5:53:47<1:01:42,  1.89it/s] 85%|████████▌ | 41024/48008 [5:53:47<1:01:04,  1.91it/s] 85%|████████▌ | 41025/48008 [5:53:49<1:27:00,  1.34it/s] 85%|████████▌ | 41026/48008 [5:53:49<1:20:06,  1.45it/s] 85%|████████▌ | 41027/48008 [5:53:50<1:10:32,  1.65it/s] 85%|████████▌ | 41028/48008 [5:53:50<1:06:49,  1.74it/s] 85%|████████▌ | 41029/48008 [5:53:51<1:03:36,  1.83it/s] 85%|████████▌ | 41030/48008 [5:53:51<1:02:13,  1.87it/s] 85%|████████▌ | 41031/48008 [5:53:52<1:00:32,  1.92it/s] 85%|████████▌ | 41032/48008 [5:53:52<59:59,  1.94it/s]   85%|████████▌ | 41033/48008 [5:53:53<58:52,  1.97it/s] 85%|████████▌ | 41034/48008 [5:53:53<58:00,  2.00it/s] 85%|████████▌ | 41035/48008 [5:53:54<59:21,  1.96it/s] 85%|████████▌ | 41036/48008 [5:53:54<59:41,  1.95it/s] 85%|████████▌ | 41037/48008 [5:53:55<1:12:25,  1.60it/s] 85%|████████▌ | 41038/48008 [5:53:56<1:07:31,  1.72it/s] 85%|████████▌ | 41039/48008 [5:53:56<1:05:43,  1.77it/s] 85%|████████▌ | 41040/48008 [5:53:57<1:03:00,  1.84it/s] 85%|████████▌ | 41041/48008 [5:53:58<1:27:37,  1.33it/s] 85%|████████▌ | 41042/48008 [5:53:58<1:18:46,  1.47it/s] 85%|████████▌ | 41043/48008 [5:53:59<1:11:55,  1.61it/s] 85%|████████▌ | 41044/48008 [5:53:59<1:08:25,  1.70it/s] 85%|████████▌ | 41045/48008 [5:54:00<1:04:40,  1.79it/s] 85%|████████▌ | 41046/48008 [5:54:00<1:02:11,  1.87it/s] 86%|████████▌ | 41047/48008 [5:54:01<1:00:24,  1.92it/s] 86%|████████▌ | 41048/48008 [5:54:01<1:00:45,  1.91it/s] 86%|████████▌ | 41049/48008 [5:54:02<59:33,  1.95it/s]   86%|████████▌ | 41050/48008 [5:54:03<1:25:09,  1.36it/s]{'loss': 4.2686, 'grad_norm': 0.094741590321064, 'learning_rate': 2.8991001499750042e-05, 'epoch': 0.86}                                                          86%|████████▌ | 41050/48008 [5:54:03<1:25:09,  1.36it/s]
 86%|████████▌ | 41051/48008 [5:54:04<1:16:40,  1.51it/s] 86%|████████▌ | 41052/48008 [5:54:04<1:10:33,  1.64it/s] 86%|████████▌ | 41053/48008 [5:54:05<1:06:13,  1.75it/s] 86%|████████▌ | 41054/48008 [5:54:05<1:02:54,  1.84it/s] 86%|████████▌ | 41055/48008 [5:54:06<1:01:48,  1.87it/s] 86%|████████▌ | 41056/48008 [5:54:06<1:00:54,  1.90it/s] 86%|████████▌ | 41057/48008 [5:54:07<1:01:29,  1.88it/s] 86%|████████▌ | 41058/48008 [5:54:07<59:41,  1.94it/s]   86%|████████▌ | 41059/48008 [5:54:08<58:29,  1.98it/s] 86%|████████▌ | 41060/48008 [5:54:08<58:18,  1.99it/s] 86%|████████▌ | 41061/48008 [5:54:09<57:32,  2.01it/s] 86%|████████▌ | 41062/48008 [5:54:09<1:04:00,  1.81it/s] 86%|████████▌ | 41063/48008 [5:54:10<1:01:48,  1.87it/s] 86%|████████▌ | 41064/48008 [5:54:10<1:00:01,  1.93it/s] 86%|████████▌ | 41065/48008 [5:54:11<58:46,  1.97it/s]   86%|████████▌ | 41066/48008 [5:54:11<57:56,  2.00it/s] 86%|████████▌ | 41067/48008 [5:54:12<57:59,  1.99it/s] 86%|████████▌ | 41068/48008 [5:54:12<58:25,  1.98it/s] 86%|████████▌ | 41069/48008 [5:54:13<58:44,  1.97it/s] 86%|████████▌ | 41070/48008 [5:54:13<1:04:33,  1.79it/s] 86%|████████▌ | 41071/48008 [5:54:14<1:08:54,  1.68it/s] 86%|████████▌ | 41072/48008 [5:54:15<1:05:52,  1.75it/s] 86%|████████▌ | 41073/48008 [5:54:15<1:00:31,  1.91it/s] 86%|████████▌ | 41074/48008 [5:54:15<1:00:25,  1.91it/s] 86%|████████▌ | 41075/48008 [5:54:16<55:33,  2.08it/s]   86%|████████▌ | 41076/48008 [5:54:16<55:35,  2.08it/s] 86%|████████▌ | 41077/48008 [5:54:17<55:40,  2.07it/s] 86%|████████▌ | 41078/48008 [5:54:18<1:15:04,  1.54it/s] 86%|████████▌ | 41079/48008 [5:54:18<1:09:19,  1.67it/s] 86%|████████▌ | 41080/48008 [5:54:19<1:05:27,  1.76it/s] 86%|████████▌ | 41081/48008 [5:54:19<1:04:53,  1.78it/s] 86%|████████▌ | 41082/48008 [5:54:20<1:02:10,  1.86it/s] 86%|████████▌ | 41083/48008 [5:54:20<1:00:14,  1.92it/s] 86%|████████▌ | 41084/48008 [5:54:21<59:28,  1.94it/s]   86%|████████▌ | 41085/48008 [5:54:21<58:23,  1.98it/s] 86%|████████▌ | 41086/48008 [5:54:22<1:11:39,  1.61it/s] 86%|████████▌ | 41087/48008 [5:54:23<1:07:33,  1.71it/s] 86%|████████▌ | 41088/48008 [5:54:23<1:03:52,  1.81it/s] 86%|████████▌ | 41089/48008 [5:54:24<1:01:17,  1.88it/s] 86%|████████▌ | 41090/48008 [5:54:24<1:06:13,  1.74it/s] 86%|████████▌ | 41091/48008 [5:54:25<1:03:00,  1.83it/s] 86%|████████▌ | 41092/48008 [5:54:25<1:00:41,  1.90it/s] 86%|████████▌ | 41093/48008 [5:54:26<59:12,  1.95it/s]   86%|████████▌ | 41094/48008 [5:54:26<58:05,  1.98it/s] 86%|████████▌ | 41095/48008 [5:54:27<57:11,  2.01it/s] 86%|████████▌ | 41096/48008 [5:54:27<56:30,  2.04it/s] 86%|████████▌ | 41097/48008 [5:54:28<57:45,  1.99it/s] 86%|████████▌ | 41098/48008 [5:54:28<58:29,  1.97it/s] 86%|████████▌ | 41099/48008 [5:54:29<58:17,  1.98it/s] 86%|████████▌ | 41100/48008 [5:54:29<55:10,  2.09it/s]                                                       {'loss': 4.2506, 'grad_norm': 0.11161495000123978, 'learning_rate': 2.8782702882852856e-05, 'epoch': 0.86}
 86%|████████▌ | 41100/48008 [5:54:29<55:10,  2.09it/s] 86%|████████▌ | 41101/48008 [5:54:30<57:24,  2.01it/s] 86%|████████▌ | 41102/48008 [5:54:30<56:57,  2.02it/s] 86%|████████▌ | 41103/48008 [5:54:31<57:15,  2.01it/s] 86%|████████▌ | 41104/48008 [5:54:31<56:45,  2.03it/s] 86%|████████▌ | 41105/48008 [5:54:32<56:16,  2.04it/s] 86%|████████▌ | 41106/48008 [5:54:32<1:02:46,  1.83it/s] 86%|████████▌ | 41107/48008 [5:54:33<1:00:40,  1.90it/s] 86%|████████▌ | 41108/48008 [5:54:33<57:00,  2.02it/s]   86%|████████▌ | 41109/48008 [5:54:34<56:17,  2.04it/s] 86%|████████▌ | 41110/48008 [5:54:34<53:45,  2.14it/s] 86%|████████▌ | 41111/48008 [5:54:35<51:48,  2.22it/s] 86%|████████▌ | 41112/48008 [5:54:35<52:42,  2.18it/s] 86%|████████▌ | 41113/48008 [5:54:35<51:18,  2.24it/s] 86%|████████▌ | 41114/48008 [5:54:36<53:42,  2.14it/s] 86%|████████▌ | 41115/48008 [5:54:37<54:59,  2.09it/s] 86%|████████▌ | 41116/48008 [5:54:37<56:34,  2.03it/s] 86%|████████▌ | 41117/48008 [5:54:38<56:07,  2.05it/s] 86%|████████▌ | 41118/48008 [5:54:38<1:09:28,  1.65it/s] 86%|████████▌ | 41119/48008 [5:54:39<1:02:53,  1.83it/s] 86%|████████▌ | 41120/48008 [5:54:39<1:07:19,  1.71it/s] 86%|████████▌ | 41121/48008 [5:54:40<1:03:43,  1.80it/s] 86%|████████▌ | 41122/48008 [5:54:40<1:01:18,  1.87it/s] 86%|████████▌ | 41123/48008 [5:54:41<57:31,  1.99it/s]   86%|████████▌ | 41124/48008 [5:54:41<54:37,  2.10it/s] 86%|████████▌ | 41125/48008 [5:54:42<55:22,  2.07it/s] 86%|████████▌ | 41126/48008 [5:54:42<56:04,  2.05it/s] 86%|████████▌ | 41127/48008 [5:54:43<55:38,  2.06it/s] 86%|████████▌ | 41128/48008 [5:54:43<55:29,  2.07it/s] 86%|████████▌ | 41129/48008 [5:54:44<53:18,  2.15it/s] 86%|████████▌ | 41130/48008 [5:54:45<1:20:37,  1.42it/s] 86%|████████▌ | 41131/48008 [5:54:46<1:39:55,  1.15it/s] 86%|████████▌ | 41132/48008 [5:54:47<1:27:28,  1.31it/s] 86%|████████▌ | 41133/48008 [5:54:47<1:18:00,  1.47it/s] 86%|████████▌ | 41134/48008 [5:54:48<1:12:00,  1.59it/s] 86%|████████▌ | 41135/48008 [5:54:48<1:06:53,  1.71it/s] 86%|████████▌ | 41136/48008 [5:54:49<1:04:11,  1.78it/s] 86%|████████▌ | 41137/48008 [5:54:49<59:20,  1.93it/s]   86%|████████▌ | 41138/48008 [5:54:50<58:02,  1.97it/s] 86%|████████▌ | 41139/48008 [5:54:50<54:59,  2.08it/s] 86%|████████▌ | 41140/48008 [5:54:50<55:08,  2.08it/s] 86%|████████▌ | 41141/48008 [5:54:51<54:59,  2.08it/s] 86%|████████▌ | 41142/48008 [5:54:51<55:11,  2.07it/s] 86%|████████▌ | 41143/48008 [5:54:52<55:11,  2.07it/s] 86%|████████▌ | 41144/48008 [5:54:52<57:01,  2.01it/s] 86%|████████▌ | 41145/48008 [5:54:53<56:30,  2.02it/s] 86%|████████▌ | 41146/48008 [5:54:53<56:12,  2.03it/s] 86%|████████▌ | 41147/48008 [5:54:54<56:28,  2.02it/s] 86%|████████▌ | 41148/48008 [5:54:54<56:51,  2.01it/s] 86%|████████▌ | 41149/48008 [5:54:55<1:02:58,  1.82it/s] 86%|████████▌ | 41150/48008 [5:54:56<1:14:19,  1.54it/s]                                                         {'loss': 4.2338, 'grad_norm': 0.09013296663761139, 'learning_rate': 2.8574404265955673e-05, 'epoch': 0.86}
 86%|████████▌ | 41150/48008 [5:54:56<1:14:19,  1.54it/s] 86%|████████▌ | 41151/48008 [5:54:56<1:08:25,  1.67it/s] 86%|████████▌ | 41152/48008 [5:54:57<1:04:30,  1.77it/s] 86%|████████▌ | 41153/48008 [5:54:57<1:01:27,  1.86it/s] 86%|████████▌ | 41154/48008 [5:54:58<1:00:20,  1.89it/s] 86%|████████▌ | 41155/48008 [5:54:58<1:00:06,  1.90it/s] 86%|████████▌ | 41156/48008 [5:54:59<59:15,  1.93it/s]   86%|████████▌ | 41157/48008 [5:54:59<55:48,  2.05it/s] 86%|████████▌ | 41158/48008 [5:55:00<53:19,  2.14it/s] 86%|████████▌ | 41159/48008 [5:55:00<54:50,  2.08it/s] 86%|████████▌ | 41160/48008 [5:55:01<54:56,  2.08it/s] 86%|████████▌ | 41161/48008 [5:55:01<55:38,  2.05it/s] 86%|████████▌ | 41162/48008 [5:55:02<56:17,  2.03it/s] 86%|████████▌ | 41163/48008 [5:55:02<58:03,  1.96it/s] 86%|████████▌ | 41164/48008 [5:55:03<59:09,  1.93it/s] 86%|████████▌ | 41165/48008 [5:55:03<59:57,  1.90it/s] 86%|████████▌ | 41166/48008 [5:55:04<56:21,  2.02it/s] 86%|████████▌ | 41167/48008 [5:55:04<56:37,  2.01it/s] 86%|████████▌ | 41168/48008 [5:55:05<53:51,  2.12it/s] 86%|████████▌ | 41169/48008 [5:55:05<53:58,  2.11it/s] 86%|████████▌ | 41170/48008 [5:55:06<54:20,  2.10it/s] 86%|████████▌ | 41171/48008 [5:55:06<52:17,  2.18it/s] 86%|████████▌ | 41172/48008 [5:55:07<55:02,  2.07it/s] 86%|████████▌ | 41173/48008 [5:55:07<54:51,  2.08it/s] 86%|████████▌ | 41174/48008 [5:55:08<1:01:28,  1.85it/s] 86%|████████▌ | 41175/48008 [5:55:08<1:00:28,  1.88it/s] 86%|████████▌ | 41176/48008 [5:55:09<59:00,  1.93it/s]   86%|████████▌ | 41177/48008 [5:55:09<55:49,  2.04it/s] 86%|████████▌ | 41178/48008 [5:55:10<55:50,  2.04it/s] 86%|████████▌ | 41179/48008 [5:55:10<55:21,  2.06it/s] 86%|████████▌ | 41180/48008 [5:55:11<52:53,  2.15it/s] 86%|████████▌ | 41181/48008 [5:55:11<50:08,  2.27it/s] 86%|████████▌ | 41182/48008 [5:55:11<49:28,  2.30it/s] 86%|████████▌ | 41183/48008 [5:55:12<48:45,  2.33it/s] 86%|████████▌ | 41184/48008 [5:55:12<48:27,  2.35it/s] 86%|████████▌ | 41185/48008 [5:55:13<48:16,  2.36it/s] 86%|████████▌ | 41186/48008 [5:55:13<50:19,  2.26it/s] 86%|████████▌ | 41187/48008 [5:55:14<51:28,  2.21it/s] 86%|████████▌ | 41188/48008 [5:55:15<1:05:56,  1.72it/s] 86%|████████▌ | 41189/48008 [5:55:15<1:03:22,  1.79it/s] 86%|████████▌ | 41190/48008 [5:55:16<1:01:44,  1.84it/s] 86%|████████▌ | 41191/48008 [5:55:16<1:00:58,  1.86it/s] 86%|████████▌ | 41192/48008 [5:55:17<57:00,  1.99it/s]   86%|████████▌ | 41193/48008 [5:55:17<56:16,  2.02it/s] 86%|████████▌ | 41194/48008 [5:55:18<1:02:22,  1.82it/s] 86%|████████▌ | 41195/48008 [5:55:18<57:46,  1.97it/s]   86%|████████▌ | 41196/48008 [5:55:19<57:40,  1.97it/s] 86%|████████▌ | 41197/48008 [5:55:19<58:08,  1.95it/s] 86%|████████▌ | 41198/48008 [5:55:20<57:17,  1.98it/s] 86%|████████▌ | 41199/48008 [5:55:20<56:24,  2.01it/s] 86%|████████▌ | 41200/48008 [5:55:21<56:53,  1.99it/s]                                                       {'loss': 4.2323, 'grad_norm': 0.19110262393951416, 'learning_rate': 2.8366105649058494e-05, 'epoch': 0.86}
 86%|████████▌ | 41200/48008 [5:55:21<56:53,  1.99it/s] 86%|████████▌ | 41201/48008 [5:55:21<56:20,  2.01it/s] 86%|████████▌ | 41202/48008 [5:55:22<57:14,  1.98it/s] 86%|████████▌ | 41203/48008 [5:55:22<58:31,  1.94it/s] 86%|████████▌ | 41204/48008 [5:55:23<58:01,  1.95it/s] 86%|████████▌ | 41205/48008 [5:55:23<58:11,  1.95it/s] 86%|████████▌ | 41206/48008 [5:55:24<57:07,  1.98it/s] 86%|████████▌ | 41207/48008 [5:55:24<54:16,  2.09it/s] 86%|████████▌ | 41208/48008 [5:55:25<55:17,  2.05it/s] 86%|████████▌ | 41209/48008 [5:55:25<53:06,  2.13it/s] 86%|████████▌ | 41210/48008 [5:55:25<53:34,  2.12it/s] 86%|████████▌ | 41211/48008 [5:55:26<53:50,  2.10it/s] 86%|████████▌ | 41212/48008 [5:55:26<55:17,  2.05it/s] 86%|████████▌ | 41213/48008 [5:55:27<57:00,  1.99it/s] 86%|████████▌ | 41214/48008 [5:55:28<57:07,  1.98it/s] 86%|████████▌ | 41215/48008 [5:55:28<56:24,  2.01it/s] 86%|████████▌ | 41216/48008 [5:55:29<1:02:24,  1.81it/s] 86%|████████▌ | 41217/48008 [5:55:29<1:01:04,  1.85it/s] 86%|████████▌ | 41218/48008 [5:55:30<1:25:33,  1.32it/s] 86%|████████▌ | 41219/48008 [5:55:31<1:16:28,  1.48it/s] 86%|████████▌ | 41220/48008 [5:55:31<1:10:41,  1.60it/s] 86%|████████▌ | 41221/48008 [5:55:32<1:07:06,  1.69it/s] 86%|████████▌ | 41222/48008 [5:55:32<1:03:09,  1.79it/s] 86%|████████▌ | 41223/48008 [5:55:33<1:01:18,  1.84it/s] 86%|████████▌ | 41224/48008 [5:55:33<59:13,  1.91it/s]   86%|████████▌ | 41225/48008 [5:55:34<58:43,  1.93it/s] 86%|████████▌ | 41226/48008 [5:55:35<1:10:39,  1.60it/s] 86%|████████▌ | 41227/48008 [5:55:35<1:05:49,  1.72it/s] 86%|████████▌ | 41228/48008 [5:55:36<1:03:08,  1.79it/s] 86%|████████▌ | 41229/48008 [5:55:36<1:00:29,  1.87it/s] 86%|████████▌ | 41230/48008 [5:55:37<1:00:29,  1.87it/s] 86%|████████▌ | 41231/48008 [5:55:37<58:47,  1.92it/s]   86%|████████▌ | 41232/48008 [5:55:38<1:04:12,  1.76it/s] 86%|████████▌ | 41233/48008 [5:55:38<1:02:01,  1.82it/s] 86%|████████▌ | 41234/48008 [5:55:39<1:01:43,  1.83it/s] 86%|████████▌ | 41235/48008 [5:55:40<59:37,  1.89it/s]   86%|████████▌ | 41236/48008 [5:55:40<58:07,  1.94it/s] 86%|████████▌ | 41237/48008 [5:55:40<56:49,  1.99it/s] 86%|████████▌ | 41238/48008 [5:55:41<56:07,  2.01it/s] 86%|████████▌ | 41239/48008 [5:55:41<55:32,  2.03it/s] 86%|████████▌ | 41240/48008 [5:55:42<53:04,  2.13it/s] 86%|████████▌ | 41241/48008 [5:55:42<53:27,  2.11it/s] 86%|████████▌ | 41242/48008 [5:55:44<1:24:20,  1.34it/s] 86%|████████▌ | 41243/48008 [5:55:44<1:15:21,  1.50it/s] 86%|████████▌ | 41244/48008 [5:55:45<1:10:13,  1.61it/s] 86%|████████▌ | 41245/48008 [5:55:45<1:05:32,  1.72it/s] 86%|████████▌ | 41246/48008 [5:55:46<59:55,  1.88it/s]   86%|████████▌ | 41247/48008 [5:55:46<58:09,  1.94it/s] 86%|████████▌ | 41248/48008 [5:55:47<1:27:27,  1.29it/s] 86%|████████▌ | 41249/48008 [5:55:48<1:18:08,  1.44it/s] 86%|████████▌ | 41250/48008 [5:55:49<1:24:08,  1.34it/s]                                                         {'loss': 4.3149, 'grad_norm': 0.10069076716899872, 'learning_rate': 2.8157807032161308e-05, 'epoch': 0.86}
 86%|████████▌ | 41250/48008 [5:55:49<1:24:08,  1.34it/s] 86%|████████▌ | 41251/48008 [5:55:49<1:15:49,  1.49it/s] 86%|████████▌ | 41252/48008 [5:55:50<1:10:01,  1.61it/s] 86%|████████▌ | 41253/48008 [5:55:50<1:05:17,  1.72it/s] 86%|████████▌ | 41254/48008 [5:55:52<1:29:47,  1.25it/s] 86%|████████▌ | 41255/48008 [5:55:53<1:45:17,  1.07it/s] 86%|████████▌ | 41256/48008 [5:55:53<1:30:04,  1.25it/s] 86%|████████▌ | 41257/48008 [5:55:54<1:17:06,  1.46it/s] 86%|████████▌ | 41258/48008 [5:55:54<1:10:20,  1.60it/s] 86%|████████▌ | 41259/48008 [5:55:55<1:03:06,  1.78it/s] 86%|████████▌ | 41260/48008 [5:55:55<1:00:14,  1.87it/s] 86%|████████▌ | 41261/48008 [5:55:56<58:15,  1.93it/s]   86%|████████▌ | 41262/48008 [5:55:56<57:06,  1.97it/s] 86%|████████▌ | 41263/48008 [5:55:57<1:09:43,  1.61it/s] 86%|████████▌ | 41264/48008 [5:55:58<1:06:20,  1.69it/s] 86%|████████▌ | 41265/48008 [5:55:58<1:03:32,  1.77it/s] 86%|████████▌ | 41266/48008 [5:55:59<1:00:38,  1.85it/s] 86%|████████▌ | 41267/48008 [5:55:59<1:00:36,  1.85it/s] 86%|████████▌ | 41268/48008 [5:56:00<58:40,  1.91it/s]   86%|████████▌ | 41269/48008 [5:56:00<57:16,  1.96it/s] 86%|████████▌ | 41270/48008 [5:56:01<56:23,  1.99it/s] 86%|████████▌ | 41271/48008 [5:56:01<55:41,  2.02it/s] 86%|████████▌ | 41272/48008 [5:56:02<1:15:37,  1.48it/s] 86%|████████▌ | 41273/48008 [5:56:03<1:09:07,  1.62it/s] 86%|████████▌ | 41274/48008 [5:56:03<1:04:34,  1.74it/s] 86%|████████▌ | 41275/48008 [5:56:04<1:03:20,  1.77it/s] 86%|████████▌ | 41276/48008 [5:56:04<1:00:32,  1.85it/s] 86%|████████▌ | 41277/48008 [5:56:05<58:39,  1.91it/s]   86%|████████▌ | 41278/48008 [5:56:05<57:17,  1.96it/s] 86%|████████▌ | 41279/48008 [5:56:05<54:10,  2.07it/s] 86%|████████▌ | 41280/48008 [5:56:06<54:13,  2.07it/s] 86%|████████▌ | 41281/48008 [5:56:06<54:55,  2.04it/s] 86%|████████▌ | 41282/48008 [5:56:07<54:43,  2.05it/s] 86%|████████▌ | 41283/48008 [5:56:07<54:27,  2.06it/s] 86%|████████▌ | 41284/48008 [5:56:08<54:25,  2.06it/s] 86%|████████▌ | 41285/48008 [5:56:08<54:28,  2.06it/s] 86%|████████▌ | 41286/48008 [5:56:09<54:57,  2.04it/s] 86%|████████▌ | 41287/48008 [5:56:09<54:40,  2.05it/s] 86%|████████▌ | 41288/48008 [5:56:10<52:24,  2.14it/s] 86%|████████▌ | 41289/48008 [5:56:10<54:16,  2.06it/s] 86%|████████▌ | 41290/48008 [5:56:11<54:13,  2.06it/s] 86%|████████▌ | 41291/48008 [5:56:11<55:01,  2.03it/s] 86%|████████▌ | 41292/48008 [5:56:12<52:32,  2.13it/s] 86%|████████▌ | 41293/48008 [5:56:12<52:59,  2.11it/s] 86%|████████▌ | 41294/48008 [5:56:13<55:19,  2.02it/s] 86%|████████▌ | 41295/48008 [5:56:13<55:45,  2.01it/s] 86%|████████▌ | 41296/48008 [5:56:14<55:52,  2.00it/s] 86%|████████▌ | 41297/48008 [5:56:14<55:21,  2.02it/s] 86%|████████▌ | 41298/48008 [5:56:15<52:48,  2.12it/s] 86%|████████▌ | 41299/48008 [5:56:15<53:49,  2.08it/s] 86%|████████▌ | 41300/48008 [5:56:16<1:19:33,  1.41it/s]                                                         {'loss': 4.2243, 'grad_norm': 0.09145596623420715, 'learning_rate': 2.7949508415264126e-05, 'epoch': 0.86} 86%|████████▌ | 41300/48008 [5:56:16<1:19:33,  1.41it/s]
 86%|████████▌ | 41301/48008 [5:56:17<1:09:39,  1.60it/s] 86%|████████▌ | 41302/48008 [5:56:17<1:05:35,  1.70it/s] 86%|████████▌ | 41303/48008 [5:56:18<1:04:07,  1.74it/s] 86%|████████▌ | 41304/48008 [5:56:18<1:01:02,  1.83it/s] 86%|████████▌ | 41305/48008 [5:56:19<58:57,  1.90it/s]   86%|████████▌ | 41306/48008 [5:56:19<55:09,  2.03it/s] 86%|████████▌ | 41307/48008 [5:56:20<55:50,  2.00it/s] 86%|████████▌ | 41308/48008 [5:56:20<56:32,  1.97it/s] 86%|████████▌ | 41309/48008 [5:56:21<55:48,  2.00it/s] 86%|████████▌ | 41310/48008 [5:56:21<55:50,  2.00it/s] 86%|████████▌ | 41311/48008 [5:56:22<56:37,  1.97it/s] 86%|████████▌ | 41312/48008 [5:56:22<56:21,  1.98it/s] 86%|████████▌ | 41313/48008 [5:56:23<57:33,  1.94it/s] 86%|████████▌ | 41314/48008 [5:56:23<56:20,  1.98it/s] 86%|████████▌ | 41315/48008 [5:56:24<56:11,  1.99it/s] 86%|████████▌ | 41316/48008 [5:56:24<56:38,  1.97it/s] 86%|████████▌ | 41317/48008 [5:56:25<53:35,  2.08it/s] 86%|████████▌ | 41318/48008 [5:56:25<53:40,  2.08it/s] 86%|████████▌ | 41319/48008 [5:56:26<51:29,  2.16it/s] 86%|████████▌ | 41320/48008 [5:56:26<52:50,  2.11it/s] 86%|████████▌ | 41321/48008 [5:56:27<53:52,  2.07it/s] 86%|████████▌ | 41322/48008 [5:56:27<53:34,  2.08it/s] 86%|████████▌ | 41323/48008 [5:56:28<51:26,  2.17it/s] 86%|████████▌ | 41324/48008 [5:56:28<52:50,  2.11it/s] 86%|████████▌ | 41325/48008 [5:56:28<50:50,  2.19it/s] 86%|████████▌ | 41326/48008 [5:56:29<52:51,  2.11it/s] 86%|████████▌ | 41327/48008 [5:56:30<1:06:07,  1.68it/s] 86%|████████▌ | 41328/48008 [5:56:30<1:03:03,  1.77it/s] 86%|████████▌ | 41329/48008 [5:56:31<1:02:04,  1.79it/s] 86%|████████▌ | 41330/48008 [5:56:31<1:01:20,  1.81it/s] 86%|████████▌ | 41331/48008 [5:56:32<58:56,  1.89it/s]   86%|████████▌ | 41332/48008 [5:56:32<55:08,  2.02it/s] 86%|████████▌ | 41333/48008 [5:56:33<54:41,  2.03it/s] 86%|████████▌ | 41334/48008 [5:56:33<54:16,  2.05it/s] 86%|████████▌ | 41335/48008 [5:56:34<54:03,  2.06it/s] 86%|████████▌ | 41336/48008 [5:56:34<54:49,  2.03it/s] 86%|████████▌ | 41337/48008 [5:56:35<55:09,  2.02it/s] 86%|████████▌ | 41338/48008 [5:56:35<55:24,  2.01it/s] 86%|████████▌ | 41339/48008 [5:56:36<55:32,  2.00it/s] 86%|████████▌ | 41340/48008 [5:56:36<52:43,  2.11it/s] 86%|████████▌ | 41341/48008 [5:56:37<52:57,  2.10it/s] 86%|████████▌ | 41342/48008 [5:56:37<54:22,  2.04it/s] 86%|████████▌ | 41343/48008 [5:56:38<54:09,  2.05it/s] 86%|████████▌ | 41344/48008 [5:56:38<53:53,  2.06it/s] 86%|████████▌ | 41345/48008 [5:56:39<53:52,  2.06it/s] 86%|████████▌ | 41346/48008 [5:56:39<53:52,  2.06it/s] 86%|████████▌ | 41347/48008 [5:56:40<54:38,  2.03it/s] 86%|████████▌ | 41348/48008 [5:56:40<55:37,  2.00it/s] 86%|████████▌ | 41349/48008 [5:56:41<56:54,  1.95it/s] 86%|████████▌ | 41350/48008 [5:56:41<56:27,  1.97it/s]                                                       {'loss': 4.2468, 'grad_norm': 0.09239634871482849, 'learning_rate': 2.774120979836694e-05, 'epoch': 0.86}
 86%|████████▌ | 41350/48008 [5:56:41<56:27,  1.97it/s] 86%|████████▌ | 41351/48008 [5:56:42<56:21,  1.97it/s] 86%|████████▌ | 41352/48008 [5:56:42<53:17,  2.08it/s] 86%|████████▌ | 41353/48008 [5:56:43<53:15,  2.08it/s] 86%|████████▌ | 41354/48008 [5:56:43<54:09,  2.05it/s] 86%|████████▌ | 41355/48008 [5:56:44<53:50,  2.06it/s] 86%|████████▌ | 41356/48008 [5:56:44<53:44,  2.06it/s] 86%|████████▌ | 41357/48008 [5:56:45<54:11,  2.05it/s] 86%|████████▌ | 41358/48008 [5:56:45<54:50,  2.02it/s] 86%|████████▌ | 41359/48008 [5:56:46<54:59,  2.01it/s] 86%|████████▌ | 41360/48008 [5:56:46<55:09,  2.01it/s] 86%|████████▌ | 41361/48008 [5:56:47<54:38,  2.03it/s] 86%|████████▌ | 41362/48008 [5:56:47<55:06,  2.01it/s] 86%|████████▌ | 41363/48008 [5:56:48<54:29,  2.03it/s] 86%|████████▌ | 41364/48008 [5:56:48<54:49,  2.02it/s] 86%|████████▌ | 41365/48008 [5:56:48<52:12,  2.12it/s] 86%|████████▌ | 41366/48008 [5:56:49<52:32,  2.11it/s] 86%|████████▌ | 41367/48008 [5:56:49<52:39,  2.10it/s] 86%|████████▌ | 41368/48008 [5:56:50<52:52,  2.09it/s] 86%|████████▌ | 41369/48008 [5:56:50<50:48,  2.18it/s] 86%|████████▌ | 41370/48008 [5:56:51<51:36,  2.14it/s] 86%|████████▌ | 41371/48008 [5:56:52<58:25,  1.89it/s] 86%|████████▌ | 41372/48008 [5:56:52<57:45,  1.91it/s] 86%|████████▌ | 41373/48008 [5:56:52<54:11,  2.04it/s] 86%|████████▌ | 41374/48008 [5:56:53<55:52,  1.98it/s] 86%|████████▌ | 41375/48008 [5:56:53<55:01,  2.01it/s] 86%|████████▌ | 41376/48008 [5:56:54<55:15,  2.00it/s] 86%|████████▌ | 41377/48008 [5:56:54<54:36,  2.02it/s] 86%|████████▌ | 41378/48008 [5:56:55<54:18,  2.03it/s] 86%|████████▌ | 41379/48008 [5:56:55<54:47,  2.02it/s] 86%|████████▌ | 41380/48008 [5:56:56<52:12,  2.12it/s] 86%|████████▌ | 41381/48008 [5:56:57<58:45,  1.88it/s] 86%|████████▌ | 41382/48008 [5:56:57<57:09,  1.93it/s] 86%|████████▌ | 41383/48008 [5:56:57<53:53,  2.05it/s] 86%|████████▌ | 41384/48008 [5:56:59<1:19:20,  1.39it/s] 86%|████████▌ | 41385/48008 [5:56:59<1:12:15,  1.53it/s] 86%|████████▌ | 41386/48008 [5:57:00<1:04:18,  1.72it/s] 86%|████████▌ | 41387/48008 [5:57:00<58:50,  1.88it/s]   86%|████████▌ | 41388/48008 [5:57:01<59:11,  1.86it/s] 86%|████████▌ | 41389/48008 [5:57:01<58:10,  1.90it/s] 86%|████████▌ | 41390/48008 [5:57:01<54:35,  2.02it/s] 86%|████████▌ | 41391/48008 [5:57:02<54:08,  2.04it/s] 86%|████████▌ | 41392/48008 [5:57:03<55:46,  1.98it/s] 86%|████████▌ | 41393/48008 [5:57:03<55:00,  2.00it/s] 86%|████████▌ | 41394/48008 [5:57:03<52:14,  2.11it/s] 86%|████████▌ | 41395/48008 [5:57:04<50:18,  2.19it/s] 86%|████████▌ | 41396/48008 [5:57:04<51:51,  2.12it/s] 86%|████████▌ | 41397/48008 [5:57:05<50:05,  2.20it/s] 86%|████████▌ | 41398/48008 [5:57:05<52:47,  2.09it/s] 86%|████████▌ | 41399/48008 [5:57:06<52:54,  2.08it/s] 86%|████████▌ | 41400/48008 [5:57:06<50:50,  2.17it/s]                                                       {'loss': 4.2289, 'grad_norm': 0.10591153055429459, 'learning_rate': 2.7532911181469757e-05, 'epoch': 0.86}
 86%|████████▌ | 41400/48008 [5:57:06<50:50,  2.17it/s] 86%|████████▌ | 41401/48008 [5:57:07<49:27,  2.23it/s] 86%|████████▌ | 41402/48008 [5:57:07<51:12,  2.15it/s] 86%|████████▌ | 41403/48008 [5:57:08<52:31,  2.10it/s] 86%|████████▌ | 41404/48008 [5:57:08<52:42,  2.09it/s] 86%|████████▌ | 41405/48008 [5:57:09<53:38,  2.05it/s] 86%|████████▌ | 41406/48008 [5:57:09<53:33,  2.05it/s] 86%|████████▋ | 41407/48008 [5:57:10<53:59,  2.04it/s] 86%|████████▋ | 41408/48008 [5:57:10<53:45,  2.05it/s] 86%|████████▋ | 41409/48008 [5:57:11<54:37,  2.01it/s] 86%|████████▋ | 41410/48008 [5:57:11<54:40,  2.01it/s] 86%|████████▋ | 41411/48008 [5:57:12<54:06,  2.03it/s] 86%|████████▋ | 41412/48008 [5:57:12<53:45,  2.04it/s] 86%|████████▋ | 41413/48008 [5:57:13<54:10,  2.03it/s] 86%|████████▋ | 41414/48008 [5:57:13<53:54,  2.04it/s] 86%|████████▋ | 41415/48008 [5:57:14<55:40,  1.97it/s] 86%|████████▋ | 41416/48008 [5:57:14<54:43,  2.01it/s] 86%|████████▋ | 41417/48008 [5:57:15<1:19:46,  1.38it/s] 86%|████████▋ | 41418/48008 [5:57:16<1:11:41,  1.53it/s] 86%|████████▋ | 41419/48008 [5:57:16<1:06:06,  1.66it/s] 86%|████████▋ | 41420/48008 [5:57:17<1:15:17,  1.46it/s] 86%|████████▋ | 41421/48008 [5:57:18<1:09:51,  1.57it/s] 86%|████████▋ | 41422/48008 [5:57:18<1:04:47,  1.69it/s] 86%|████████▋ | 41423/48008 [5:57:19<1:01:17,  1.79it/s] 86%|████████▋ | 41424/48008 [5:57:19<58:53,  1.86it/s]   86%|████████▋ | 41425/48008 [5:57:20<57:12,  1.92it/s] 86%|████████▋ | 41426/48008 [5:57:20<53:44,  2.04it/s] 86%|████████▋ | 41427/48008 [5:57:21<54:17,  2.02it/s] 86%|████████▋ | 41428/48008 [5:57:21<53:55,  2.03it/s] 86%|████████▋ | 41429/48008 [5:57:22<54:50,  2.00it/s] 86%|████████▋ | 41430/48008 [5:57:22<55:00,  1.99it/s] 86%|████████▋ | 41431/48008 [5:57:23<54:22,  2.02it/s] 86%|████████▋ | 41432/48008 [5:57:23<54:00,  2.03it/s] 86%|████████▋ | 41433/48008 [5:57:24<54:14,  2.02it/s] 86%|████████▋ | 41434/48008 [5:57:24<53:48,  2.04it/s] 86%|████████▋ | 41435/48008 [5:57:24<53:15,  2.06it/s] 86%|████████▋ | 41436/48008 [5:57:25<50:58,  2.15it/s] 86%|████████▋ | 41437/48008 [5:57:25<52:16,  2.10it/s] 86%|████████▋ | 41438/48008 [5:57:27<1:17:56,  1.41it/s] 86%|████████▋ | 41439/48008 [5:57:27<1:10:26,  1.55it/s] 86%|████████▋ | 41440/48008 [5:57:28<1:02:51,  1.74it/s] 86%|████████▋ | 41441/48008 [5:57:29<1:25:24,  1.28it/s] 86%|████████▋ | 41442/48008 [5:57:29<1:17:36,  1.41it/s] 86%|████████▋ | 41443/48008 [5:57:30<1:07:58,  1.61it/s] 86%|████████▋ | 41444/48008 [5:57:30<1:03:20,  1.73it/s] 86%|████████▋ | 41445/48008 [5:57:31<1:06:36,  1.64it/s] 86%|████████▋ | 41446/48008 [5:57:31<1:00:16,  1.81it/s] 86%|████████▋ | 41447/48008 [5:57:33<1:23:30,  1.31it/s] 86%|████████▋ | 41448/48008 [5:57:33<1:15:02,  1.46it/s] 86%|████████▋ | 41449/48008 [5:57:34<1:08:24,  1.60it/s] 86%|████████▋ | 41450/48008 [5:57:34<1:04:35,  1.69it/s]                                                         {'loss': 4.2864, 'grad_norm': 0.09715427458286285, 'learning_rate': 2.732461256457257e-05, 'epoch': 0.86}
 86%|████████▋ | 41450/48008 [5:57:34<1:04:35,  1.69it/s] 86%|████████▋ | 41451/48008 [5:57:35<1:02:25,  1.75it/s] 86%|████████▋ | 41452/48008 [5:57:35<57:17,  1.91it/s]   86%|████████▋ | 41453/48008 [5:57:36<57:11,  1.91it/s] 86%|████████▋ | 41454/48008 [5:57:36<53:44,  2.03it/s] 86%|████████▋ | 41455/48008 [5:57:37<54:46,  1.99it/s] 86%|████████▋ | 41456/48008 [5:57:37<54:01,  2.02it/s] 86%|████████▋ | 41457/48008 [5:57:37<54:18,  2.01it/s] 86%|████████▋ | 41458/48008 [5:57:38<54:36,  2.00it/s] 86%|████████▋ | 41459/48008 [5:57:39<54:52,  1.99it/s] 86%|████████▋ | 41460/48008 [5:57:39<51:59,  2.10it/s] 86%|████████▋ | 41461/48008 [5:57:39<49:53,  2.19it/s] 86%|████████▋ | 41462/48008 [5:57:40<50:48,  2.15it/s] 86%|████████▋ | 41463/48008 [5:57:40<51:11,  2.13it/s] 86%|████████▋ | 41464/48008 [5:57:41<52:19,  2.08it/s] 86%|████████▋ | 41465/48008 [5:57:41<52:25,  2.08it/s] 86%|████████▋ | 41466/48008 [5:57:42<54:27,  2.00it/s] 86%|████████▋ | 41467/48008 [5:57:42<55:16,  1.97it/s] 86%|████████▋ | 41468/48008 [5:57:43<55:13,  1.97it/s] 86%|████████▋ | 41469/48008 [5:57:43<54:21,  2.00it/s] 86%|████████▋ | 41470/48008 [5:57:44<51:40,  2.11it/s] 86%|████████▋ | 41471/48008 [5:57:44<51:49,  2.10it/s] 86%|████████▋ | 41472/48008 [5:57:45<49:57,  2.18it/s] 86%|████████▋ | 41473/48008 [5:57:45<50:33,  2.15it/s] 86%|████████▋ | 41474/48008 [5:57:46<52:57,  2.06it/s] 86%|████████▋ | 41475/48008 [5:57:46<52:50,  2.06it/s] 86%|████████▋ | 41476/48008 [5:57:47<52:46,  2.06it/s] 86%|████████▋ | 41477/48008 [5:57:47<52:43,  2.06it/s] 86%|████████▋ | 41478/48008 [5:57:48<53:20,  2.04it/s] 86%|████████▋ | 41479/48008 [5:57:48<59:17,  1.84it/s] 86%|████████▋ | 41480/48008 [5:57:49<55:06,  1.97it/s] 86%|████████▋ | 41481/48008 [5:57:49<52:11,  2.08it/s] 86%|████████▋ | 41482/48008 [5:57:50<52:01,  2.09it/s] 86%|████████▋ | 41483/48008 [5:57:50<52:11,  2.08it/s] 86%|████████▋ | 41484/48008 [5:57:51<52:09,  2.08it/s] 86%|████████▋ | 41485/48008 [5:57:51<52:15,  2.08it/s] 86%|████████▋ | 41486/48008 [5:57:52<58:35,  1.86it/s] 86%|████████▋ | 41487/48008 [5:57:52<57:27,  1.89it/s] 86%|████████▋ | 41488/48008 [5:57:53<56:41,  1.92it/s] 86%|████████▋ | 41489/48008 [5:57:53<55:22,  1.96it/s] 86%|████████▋ | 41490/48008 [5:57:54<54:18,  2.00it/s] 86%|████████▋ | 41491/48008 [5:57:54<54:58,  1.98it/s] 86%|████████▋ | 41492/48008 [5:57:55<54:04,  2.01it/s] 86%|████████▋ | 41493/48008 [5:57:56<1:06:36,  1.63it/s] 86%|████████▋ | 41494/48008 [5:57:56<1:00:07,  1.81it/s] 86%|████████▋ | 41495/48008 [5:57:56<57:47,  1.88it/s]   86%|████████▋ | 41496/48008 [5:57:57<58:07,  1.87it/s] 86%|████████▋ | 41497/48008 [5:57:58<57:09,  1.90it/s] 86%|████████▋ | 41498/48008 [5:57:58<55:45,  1.95it/s] 86%|████████▋ | 41499/48008 [5:57:58<54:42,  1.98it/s] 86%|████████▋ | 41500/48008 [5:57:59<55:21,  1.96it/s]                                                       {'loss': 4.1901, 'grad_norm': 0.11311672627925873, 'learning_rate': 2.7116313947675388e-05, 'epoch': 0.86} 86%|████████▋ | 41500/48008 [5:57:59<55:21,  1.96it/s]
 86%|████████▋ | 41501/48008 [5:58:00<56:23,  1.92it/s] 86%|████████▋ | 41502/48008 [5:58:00<55:02,  1.97it/s] 86%|████████▋ | 41503/48008 [5:58:01<56:01,  1.94it/s] 86%|████████▋ | 41504/48008 [5:58:01<55:36,  1.95it/s] 86%|████████▋ | 41505/48008 [5:58:01<52:22,  2.07it/s] 86%|████████▋ | 41506/48008 [5:58:02<52:12,  2.08it/s] 86%|████████▋ | 41507/48008 [5:58:02<53:25,  2.03it/s] 86%|████████▋ | 41508/48008 [5:58:03<53:46,  2.01it/s] 86%|████████▋ | 41509/48008 [5:58:03<53:14,  2.03it/s] 86%|████████▋ | 41510/48008 [5:58:04<52:54,  2.05it/s] 86%|████████▋ | 41511/48008 [5:58:04<52:44,  2.05it/s] 86%|████████▋ | 41512/48008 [5:58:05<53:17,  2.03it/s] 86%|████████▋ | 41513/48008 [5:58:05<53:49,  2.01it/s] 86%|████████▋ | 41514/48008 [5:58:06<51:16,  2.11it/s] 86%|████████▋ | 41515/48008 [5:58:06<51:34,  2.10it/s] 86%|████████▋ | 41516/48008 [5:58:07<51:40,  2.09it/s] 86%|████████▋ | 41517/48008 [5:58:07<52:58,  2.04it/s] 86%|████████▋ | 41518/48008 [5:58:08<53:31,  2.02it/s] 86%|████████▋ | 41519/48008 [5:58:08<54:57,  1.97it/s] 86%|████████▋ | 41520/48008 [5:58:09<54:09,  2.00it/s] 86%|████████▋ | 41521/48008 [5:58:09<53:25,  2.02it/s] 86%|████████▋ | 41522/48008 [5:58:10<59:26,  1.82it/s] 86%|████████▋ | 41523/48008 [5:58:11<58:02,  1.86it/s] 86%|████████▋ | 41524/48008 [5:58:11<56:28,  1.91it/s] 86%|████████▋ | 41525/48008 [5:58:12<55:12,  1.96it/s] 86%|████████▋ | 41526/48008 [5:58:12<1:00:41,  1.78it/s] 87%|████████▋ | 41527/48008 [5:58:13<58:18,  1.85it/s]   87%|████████▋ | 41528/48008 [5:58:13<58:16,  1.85it/s] 87%|████████▋ | 41529/48008 [5:58:14<56:19,  1.92it/s] 87%|████████▋ | 41530/48008 [5:58:14<52:56,  2.04it/s] 87%|████████▋ | 41531/48008 [5:58:15<52:36,  2.05it/s] 87%|████████▋ | 41532/48008 [5:58:15<53:04,  2.03it/s] 87%|████████▋ | 41533/48008 [5:58:16<52:45,  2.05it/s] 87%|████████▋ | 41534/48008 [5:58:16<52:29,  2.06it/s] 87%|████████▋ | 41535/48008 [5:58:17<52:17,  2.06it/s] 87%|████████▋ | 41536/48008 [5:58:17<50:09,  2.15it/s] 87%|████████▋ | 41537/48008 [5:58:17<50:38,  2.13it/s] 87%|████████▋ | 41538/48008 [5:58:18<51:08,  2.11it/s] 87%|████████▋ | 41539/48008 [5:58:18<51:27,  2.10it/s] 87%|████████▋ | 41540/48008 [5:58:19<51:22,  2.10it/s] 87%|████████▋ | 41541/48008 [5:58:19<51:21,  2.10it/s] 87%|████████▋ | 41542/48008 [5:58:20<51:29,  2.09it/s] 87%|████████▋ | 41543/48008 [5:58:20<49:28,  2.18it/s] 87%|████████▋ | 41544/48008 [5:58:21<50:14,  2.14it/s] 87%|████████▋ | 41545/48008 [5:58:21<50:49,  2.12it/s] 87%|████████▋ | 41546/48008 [5:58:22<49:02,  2.20it/s] 87%|████████▋ | 41547/48008 [5:58:22<47:41,  2.26it/s] 87%|████████▋ | 41548/48008 [5:58:23<49:35,  2.17it/s] 87%|████████▋ | 41549/48008 [5:58:23<50:16,  2.14it/s] 87%|████████▋ | 41550/48008 [5:58:23<48:37,  2.21it/s]                                                       {'loss': 4.2262, 'grad_norm': 0.10403013974428177, 'learning_rate': 2.6908015330778202e-05, 'epoch': 0.87} 87%|████████▋ | 41550/48008 [5:58:23<48:37,  2.21it/s]
 87%|████████▋ | 41551/48008 [5:58:24<50:32,  2.13it/s] 87%|████████▋ | 41552/48008 [5:58:24<51:03,  2.11it/s] 87%|████████▋ | 41553/48008 [5:58:25<49:06,  2.19it/s] 87%|████████▋ | 41554/48008 [5:58:25<50:42,  2.12it/s] 87%|████████▋ | 41555/48008 [5:58:26<48:57,  2.20it/s] 87%|████████▋ | 41556/48008 [5:58:26<50:35,  2.13it/s] 87%|████████▋ | 41557/48008 [5:58:27<48:46,  2.20it/s] 87%|████████▋ | 41558/48008 [5:58:27<49:35,  2.17it/s] 87%|████████▋ | 41559/48008 [5:58:28<1:02:49,  1.71it/s] 87%|████████▋ | 41560/48008 [5:58:28<57:24,  1.87it/s]   87%|████████▋ | 41561/48008 [5:58:29<53:37,  2.00it/s] 87%|████████▋ | 41562/48008 [5:58:29<54:19,  1.98it/s] 87%|████████▋ | 41563/48008 [5:58:30<54:20,  1.98it/s] 87%|████████▋ | 41564/48008 [5:58:30<53:38,  2.00it/s] 87%|████████▋ | 41565/48008 [5:58:31<52:58,  2.03it/s] 87%|████████▋ | 41566/48008 [5:58:31<52:33,  2.04it/s] 87%|████████▋ | 41567/48008 [5:58:32<52:26,  2.05it/s] 87%|████████▋ | 41568/48008 [5:58:33<58:16,  1.84it/s] 87%|████████▋ | 41569/48008 [5:58:33<54:15,  1.98it/s] 87%|████████▋ | 41570/48008 [5:58:33<53:24,  2.01it/s] 87%|████████▋ | 41571/48008 [5:58:34<52:46,  2.03it/s] 87%|████████▋ | 41572/48008 [5:58:34<53:14,  2.01it/s] 87%|████████▋ | 41573/48008 [5:58:35<53:58,  1.99it/s] 87%|████████▋ | 41574/48008 [5:58:35<54:22,  1.97it/s] 87%|████████▋ | 41575/48008 [5:58:36<53:35,  2.00it/s] 87%|████████▋ | 41576/48008 [5:58:37<1:17:59,  1.37it/s] 87%|████████▋ | 41577/48008 [5:58:38<1:12:04,  1.49it/s] 87%|████████▋ | 41578/48008 [5:58:38<1:05:56,  1.63it/s] 87%|████████▋ | 41579/48008 [5:58:39<1:01:46,  1.73it/s] 87%|████████▋ | 41580/48008 [5:58:39<58:35,  1.83it/s]   87%|████████▋ | 41581/48008 [5:58:40<56:22,  1.90it/s] 87%|████████▋ | 41582/48008 [5:58:40<52:57,  2.02it/s] 87%|████████▋ | 41583/48008 [5:58:40<50:30,  2.12it/s] 87%|████████▋ | 41584/48008 [5:58:41<51:56,  2.06it/s] 87%|████████▋ | 41585/48008 [5:58:41<51:41,  2.07it/s] 87%|████████▋ | 41586/48008 [5:58:42<51:42,  2.07it/s] 87%|████████▋ | 41587/48008 [5:58:42<52:21,  2.04it/s] 87%|████████▋ | 41588/48008 [5:58:43<53:24,  2.00it/s] 87%|████████▋ | 41589/48008 [5:58:44<53:29,  2.00it/s] 87%|████████▋ | 41590/48008 [5:58:44<59:00,  1.81it/s] 87%|████████▋ | 41591/48008 [5:58:45<57:37,  1.86it/s] 87%|████████▋ | 41592/48008 [5:58:45<55:41,  1.92it/s] 87%|████████▋ | 41593/48008 [5:58:46<54:25,  1.96it/s] 87%|████████▋ | 41594/48008 [5:58:46<53:27,  2.00it/s] 87%|████████▋ | 41595/48008 [5:58:47<52:56,  2.02it/s] 87%|████████▋ | 41596/48008 [5:58:47<52:30,  2.04it/s] 87%|████████▋ | 41597/48008 [5:58:48<1:05:04,  1.64it/s] 87%|████████▋ | 41598/48008 [5:58:49<1:02:40,  1.70it/s] 87%|████████▋ | 41599/48008 [5:58:49<1:12:10,  1.48it/s] 87%|████████▋ | 41600/48008 [5:58:50<1:05:52,  1.62it/s]                                                         {'loss': 4.2951, 'grad_norm': 0.10478804260492325, 'learning_rate': 2.6699716713881023e-05, 'epoch': 0.87}
 87%|████████▋ | 41600/48008 [5:58:50<1:05:52,  1.62it/s] 87%|████████▋ | 41601/48008 [5:58:50<1:02:54,  1.70it/s] 87%|████████▋ | 41602/48008 [5:58:51<59:30,  1.79it/s]   87%|████████▋ | 41603/48008 [5:58:51<57:09,  1.87it/s] 87%|████████▋ | 41604/48008 [5:58:52<55:12,  1.93it/s] 87%|████████▋ | 41605/48008 [5:58:52<54:54,  1.94it/s] 87%|████████▋ | 41606/48008 [5:58:53<53:46,  1.98it/s] 87%|████████▋ | 41607/48008 [5:58:53<54:14,  1.97it/s] 87%|████████▋ | 41608/48008 [5:58:54<54:49,  1.95it/s] 87%|████████▋ | 41609/48008 [5:58:54<53:47,  1.98it/s] 87%|████████▋ | 41610/48008 [5:58:55<53:01,  2.01it/s] 87%|████████▋ | 41611/48008 [5:58:55<50:26,  2.11it/s] 87%|████████▋ | 41612/48008 [5:58:56<52:02,  2.05it/s] 87%|████████▋ | 41613/48008 [5:58:56<51:43,  2.06it/s] 87%|████████▋ | 41614/48008 [5:58:57<49:24,  2.16it/s] 87%|████████▋ | 41615/48008 [5:58:57<47:51,  2.23it/s] 87%|████████▋ | 41616/48008 [5:58:58<48:47,  2.18it/s] 87%|████████▋ | 41617/48008 [5:58:58<50:09,  2.12it/s] 87%|████████▋ | 41618/48008 [5:58:59<51:25,  2.07it/s] 87%|████████▋ | 41619/48008 [5:58:59<51:24,  2.07it/s] 87%|████████▋ | 41620/48008 [5:59:00<52:10,  2.04it/s] 87%|████████▋ | 41621/48008 [5:59:00<58:03,  1.83it/s] 87%|████████▋ | 41622/48008 [5:59:01<56:05,  1.90it/s] 87%|████████▋ | 41623/48008 [5:59:01<54:31,  1.95it/s] 87%|████████▋ | 41624/48008 [5:59:02<54:08,  1.97it/s] 87%|████████▋ | 41625/48008 [5:59:03<1:05:46,  1.62it/s] 87%|████████▋ | 41626/48008 [5:59:03<1:01:22,  1.73it/s] 87%|████████▋ | 41627/48008 [5:59:04<59:09,  1.80it/s]   87%|████████▋ | 41628/48008 [5:59:04<1:09:35,  1.53it/s] 87%|████████▋ | 41629/48008 [5:59:05<1:04:51,  1.64it/s] 87%|████████▋ | 41630/48008 [5:59:05<1:00:45,  1.75it/s] 87%|████████▋ | 41631/48008 [5:59:06<59:44,  1.78it/s]   87%|████████▋ | 41632/48008 [5:59:07<1:10:01,  1.52it/s] 87%|████████▋ | 41633/48008 [5:59:07<1:04:29,  1.65it/s] 87%|████████▋ | 41634/48008 [5:59:08<1:00:21,  1.76it/s] 87%|████████▋ | 41635/48008 [5:59:08<57:27,  1.85it/s]   87%|████████▋ | 41636/48008 [5:59:09<55:33,  1.91it/s] 87%|████████▋ | 41637/48008 [5:59:09<54:18,  1.96it/s] 87%|████████▋ | 41638/48008 [5:59:10<51:24,  2.07it/s] 87%|████████▋ | 41639/48008 [5:59:10<51:21,  2.07it/s] 87%|████████▋ | 41640/48008 [5:59:11<51:18,  2.07it/s] 87%|████████▋ | 41641/48008 [5:59:11<51:07,  2.08it/s] 87%|████████▋ | 41642/48008 [5:59:12<49:07,  2.16it/s] 87%|████████▋ | 41643/48008 [5:59:12<49:48,  2.13it/s] 87%|████████▋ | 41644/48008 [5:59:13<50:14,  2.11it/s] 87%|████████▋ | 41645/48008 [5:59:14<1:14:47,  1.42it/s] 87%|████████▋ | 41646/48008 [5:59:14<1:07:47,  1.56it/s] 87%|████████▋ | 41647/48008 [5:59:15<1:02:41,  1.69it/s] 87%|████████▋ | 41648/48008 [5:59:15<59:47,  1.77it/s]   87%|████████▋ | 41649/48008 [5:59:16<1:03:10,  1.68it/s] 87%|████████▋ | 41650/48008 [5:59:16<1:00:18,  1.76it/s]                                                         {'loss': 4.2637, 'grad_norm': 0.09910834580659866, 'learning_rate': 2.649141809698384e-05, 'epoch': 0.87}
 87%|████████▋ | 41650/48008 [5:59:16<1:00:18,  1.76it/s] 87%|████████▋ | 41651/48008 [5:59:17<58:11,  1.82it/s]   87%|████████▋ | 41652/48008 [5:59:17<56:36,  1.87it/s] 87%|████████▋ | 41653/48008 [5:59:18<55:34,  1.91it/s] 87%|████████▋ | 41654/48008 [5:59:18<54:12,  1.95it/s] 87%|████████▋ | 41655/48008 [5:59:19<53:23,  1.98it/s] 87%|████████▋ | 41656/48008 [5:59:19<53:27,  1.98it/s] 87%|████████▋ | 41657/48008 [5:59:20<52:45,  2.01it/s] 87%|████████▋ | 41658/48008 [5:59:20<53:25,  1.98it/s] 87%|████████▋ | 41659/48008 [5:59:21<53:54,  1.96it/s] 87%|████████▋ | 41660/48008 [5:59:21<54:13,  1.95it/s] 87%|████████▋ | 41661/48008 [5:59:22<1:05:36,  1.61it/s] 87%|████████▋ | 41662/48008 [5:59:23<1:01:18,  1.73it/s] 87%|████████▋ | 41663/48008 [5:59:23<58:21,  1.81it/s]   87%|████████▋ | 41664/48008 [5:59:24<54:01,  1.96it/s] 87%|████████▋ | 41665/48008 [5:59:24<51:05,  2.07it/s] 87%|████████▋ | 41666/48008 [5:59:25<52:25,  2.02it/s] 87%|████████▋ | 41667/48008 [5:59:25<51:56,  2.03it/s] 87%|████████▋ | 41668/48008 [5:59:26<49:24,  2.14it/s] 87%|████████▋ | 41669/48008 [5:59:26<47:48,  2.21it/s] 87%|████████▋ | 41670/48008 [5:59:26<48:48,  2.16it/s] 87%|████████▋ | 41671/48008 [5:59:27<47:22,  2.23it/s] 87%|████████▋ | 41672/48008 [5:59:27<49:06,  2.15it/s] 87%|████████▋ | 41673/48008 [5:59:28<50:53,  2.07it/s] 87%|████████▋ | 41674/48008 [5:59:28<50:55,  2.07it/s] 87%|████████▋ | 41675/48008 [5:59:29<56:55,  1.85it/s] 87%|████████▋ | 41676/48008 [5:59:30<56:23,  1.87it/s] 87%|████████▋ | 41677/48008 [5:59:30<55:34,  1.90it/s] 87%|████████▋ | 41678/48008 [5:59:31<54:08,  1.95it/s] 87%|████████▋ | 41679/48008 [5:59:31<53:10,  1.98it/s] 87%|████████▋ | 41680/48008 [5:59:31<52:24,  2.01it/s] 87%|████████▋ | 41681/48008 [5:59:32<49:48,  2.12it/s] 87%|████████▋ | 41682/48008 [5:59:32<51:19,  2.05it/s] 87%|████████▋ | 41683/48008 [5:59:33<51:13,  2.06it/s] 87%|████████▋ | 41684/48008 [5:59:33<51:44,  2.04it/s] 87%|████████▋ | 41685/48008 [5:59:34<51:59,  2.03it/s] 87%|████████▋ | 41686/48008 [5:59:34<51:26,  2.05it/s] 87%|████████▋ | 41687/48008 [5:59:35<51:15,  2.06it/s] 87%|████████▋ | 41688/48008 [5:59:35<50:59,  2.07it/s] 87%|████████▋ | 41689/48008 [5:59:36<48:40,  2.16it/s] 87%|████████▋ | 41690/48008 [5:59:36<47:14,  2.23it/s] 87%|████████▋ | 41691/48008 [5:59:37<46:13,  2.28it/s] 87%|████████▋ | 41692/48008 [5:59:37<47:26,  2.22it/s] 87%|████████▋ | 41693/48008 [5:59:38<48:23,  2.17it/s] 87%|████████▋ | 41694/48008 [5:59:38<49:40,  2.12it/s] 87%|████████▋ | 41695/48008 [5:59:39<49:54,  2.11it/s] 87%|████████▋ | 41696/48008 [5:59:39<50:00,  2.10it/s] 87%|████████▋ | 41697/48008 [5:59:40<50:18,  2.09it/s] 87%|████████▋ | 41698/48008 [5:59:40<48:10,  2.18it/s] 87%|████████▋ | 41699/48008 [5:59:40<48:47,  2.16it/s] 87%|████████▋ | 41700/48008 [5:59:41<49:28,  2.13it/s]                                                       {'loss': 4.2331, 'grad_norm': 0.10594779998064041, 'learning_rate': 2.6283119480086654e-05, 'epoch': 0.87}
 87%|████████▋ | 41700/48008 [5:59:41<49:28,  2.13it/s] 87%|████████▋ | 41701/48008 [5:59:41<50:55,  2.06it/s] 87%|████████▋ | 41702/48008 [5:59:42<52:32,  2.00it/s] 87%|████████▋ | 41703/48008 [5:59:42<52:03,  2.02it/s] 87%|████████▋ | 41704/48008 [5:59:43<52:20,  2.01it/s] 87%|████████▋ | 41705/48008 [5:59:43<53:32,  1.96it/s] 87%|████████▋ | 41706/48008 [5:59:44<52:40,  1.99it/s] 87%|████████▋ | 41707/48008 [5:59:44<50:04,  2.10it/s] 87%|████████▋ | 41708/48008 [5:59:45<50:18,  2.09it/s] 87%|████████▋ | 41709/48008 [5:59:45<51:05,  2.06it/s] 87%|████████▋ | 41710/48008 [5:59:46<51:34,  2.04it/s] 87%|████████▋ | 41711/48008 [5:59:47<57:25,  1.83it/s] 87%|████████▋ | 41712/48008 [5:59:47<56:34,  1.85it/s] 87%|████████▋ | 41713/48008 [5:59:48<56:08,  1.87it/s] 87%|████████▋ | 41714/48008 [5:59:48<52:25,  2.00it/s] 87%|████████▋ | 41715/48008 [5:59:49<57:50,  1.81it/s] 87%|████████▋ | 41716/48008 [5:59:49<55:43,  1.88it/s] 87%|████████▋ | 41717/48008 [5:59:50<52:06,  2.01it/s] 87%|████████▋ | 41718/48008 [5:59:50<51:31,  2.03it/s] 87%|████████▋ | 41719/48008 [5:59:50<49:04,  2.14it/s] 87%|████████▋ | 41720/48008 [5:59:51<49:23,  2.12it/s] 87%|████████▋ | 41721/48008 [5:59:51<50:29,  2.08it/s] 87%|████████▋ | 41722/48008 [5:59:52<51:44,  2.02it/s] 87%|████████▋ | 41723/48008 [5:59:52<52:10,  2.01it/s] 87%|████████▋ | 41724/48008 [5:59:53<51:40,  2.03it/s] 87%|████████▋ | 41725/48008 [5:59:53<53:08,  1.97it/s] 87%|████████▋ | 41726/48008 [5:59:54<52:16,  2.00it/s] 87%|████████▋ | 41727/48008 [5:59:54<49:37,  2.11it/s] 87%|████████▋ | 41728/48008 [5:59:55<49:55,  2.10it/s] 87%|████████▋ | 41729/48008 [5:59:56<1:02:31,  1.67it/s] 87%|████████▋ | 41730/48008 [5:59:56<1:00:36,  1.73it/s] 87%|████████▋ | 41731/48008 [5:59:57<1:09:59,  1.49it/s] 87%|████████▋ | 41732/48008 [5:59:58<1:02:03,  1.69it/s] 87%|████████▋ | 41733/48008 [5:59:58<58:33,  1.79it/s]   87%|████████▋ | 41734/48008 [5:59:59<58:03,  1.80it/s] 87%|████████▋ | 41735/48008 [5:59:59<57:03,  1.83it/s] 87%|████████▋ | 41736/48008 [6:00:00<55:06,  1.90it/s] 87%|████████▋ | 41737/48008 [6:00:00<1:06:11,  1.58it/s] 87%|████████▋ | 41738/48008 [6:00:01<1:01:23,  1.70it/s] 87%|████████▋ | 41739/48008 [6:00:02<1:03:58,  1.63it/s] 87%|████████▋ | 41740/48008 [6:00:02<1:01:08,  1.71it/s] 87%|████████▋ | 41741/48008 [6:00:03<59:37,  1.75it/s]   87%|████████▋ | 41742/48008 [6:00:03<57:31,  1.82it/s] 87%|████████▋ | 41743/48008 [6:00:04<55:10,  1.89it/s] 87%|████████▋ | 41744/48008 [6:00:04<59:50,  1.74it/s] 87%|████████▋ | 41745/48008 [6:00:05<56:56,  1.83it/s] 87%|████████▋ | 41746/48008 [6:00:05<55:40,  1.87it/s] 87%|████████▋ | 41747/48008 [6:00:06<54:00,  1.93it/s] 87%|████████▋ | 41748/48008 [6:00:06<52:45,  1.98it/s] 87%|████████▋ | 41749/48008 [6:00:07<50:01,  2.09it/s] 87%|████████▋ | 41750/48008 [6:00:07<50:37,  2.06it/s]                                                       {'loss': 4.2843, 'grad_norm': 0.10777788609266281, 'learning_rate': 2.607482086318947e-05, 'epoch': 0.87}
 87%|████████▋ | 41750/48008 [6:00:07<50:37,  2.06it/s] 87%|████████▋ | 41751/48008 [6:00:08<50:31,  2.06it/s] 87%|████████▋ | 41752/48008 [6:00:08<50:25,  2.07it/s] 87%|████████▋ | 41753/48008 [6:00:09<1:14:24,  1.40it/s] 87%|████████▋ | 41754/48008 [6:00:10<1:07:54,  1.53it/s] 87%|████████▋ | 41755/48008 [6:00:10<1:03:26,  1.64it/s] 87%|████████▋ | 41756/48008 [6:00:11<59:24,  1.75it/s]   87%|████████▋ | 41757/48008 [6:00:11<57:45,  1.80it/s] 87%|████████▋ | 41758/48008 [6:00:12<55:35,  1.87it/s] 87%|████████▋ | 41759/48008 [6:00:12<52:02,  2.00it/s] 87%|████████▋ | 41760/48008 [6:00:13<52:01,  2.00it/s] 87%|████████▋ | 41761/48008 [6:00:13<51:18,  2.03it/s] 87%|████████▋ | 41762/48008 [6:00:14<50:58,  2.04it/s] 87%|████████▋ | 41763/48008 [6:00:14<50:48,  2.05it/s] 87%|████████▋ | 41764/48008 [6:00:15<50:37,  2.06it/s] 87%|████████▋ | 41765/48008 [6:00:15<50:28,  2.06it/s] 87%|████████▋ | 41766/48008 [6:00:16<50:59,  2.04it/s] 87%|████████▋ | 41767/48008 [6:00:16<50:40,  2.05it/s] 87%|████████▋ | 41768/48008 [6:00:17<51:43,  2.01it/s] 87%|████████▋ | 41769/48008 [6:00:17<51:14,  2.03it/s] 87%|████████▋ | 41770/48008 [6:00:18<51:29,  2.02it/s] 87%|████████▋ | 41771/48008 [6:00:18<48:58,  2.12it/s] 87%|████████▋ | 41772/48008 [6:00:19<49:13,  2.11it/s] 87%|████████▋ | 41773/48008 [6:00:19<50:14,  2.07it/s] 87%|████████▋ | 41774/48008 [6:00:20<1:14:22,  1.40it/s] 87%|████████▋ | 41775/48008 [6:00:21<1:04:56,  1.60it/s] 87%|████████▋ | 41776/48008 [6:00:21<1:00:21,  1.72it/s] 87%|████████▋ | 41777/48008 [6:00:22<57:12,  1.82it/s]   87%|████████▋ | 41778/48008 [6:00:22<52:59,  1.96it/s] 87%|████████▋ | 41779/48008 [6:00:23<52:44,  1.97it/s] 87%|████████▋ | 41780/48008 [6:00:23<53:16,  1.95it/s] 87%|████████▋ | 41781/48008 [6:00:24<52:52,  1.96it/s] 87%|████████▋ | 41782/48008 [6:00:24<50:05,  2.07it/s] 87%|████████▋ | 41783/48008 [6:00:25<50:04,  2.07it/s] 87%|████████▋ | 41784/48008 [6:00:25<50:09,  2.07it/s] 87%|████████▋ | 41785/48008 [6:00:26<50:45,  2.04it/s] 87%|████████▋ | 41786/48008 [6:00:26<48:20,  2.15it/s] 87%|████████▋ | 41787/48008 [6:00:26<46:48,  2.21it/s] 87%|████████▋ | 41788/48008 [6:00:27<48:50,  2.12it/s] 87%|████████▋ | 41789/48008 [6:00:27<49:44,  2.08it/s] 87%|████████▋ | 41790/48008 [6:00:28<47:45,  2.17it/s] 87%|████████▋ | 41791/48008 [6:00:28<48:23,  2.14it/s] 87%|████████▋ | 41792/48008 [6:00:29<49:30,  2.09it/s] 87%|████████▋ | 41793/48008 [6:00:29<47:33,  2.18it/s] 87%|████████▋ | 41794/48008 [6:00:30<48:59,  2.11it/s] 87%|████████▋ | 41795/48008 [6:00:30<49:18,  2.10it/s] 87%|████████▋ | 41796/48008 [6:00:31<47:22,  2.19it/s] 87%|████████▋ | 41797/48008 [6:00:31<48:52,  2.12it/s] 87%|████████▋ | 41798/48008 [6:00:32<50:28,  2.05it/s] 87%|████████▋ | 41799/48008 [6:00:32<52:11,  1.98it/s] 87%|████████▋ | 41800/48008 [6:00:33<1:03:55,  1.62it/s]                                                         {'loss': 4.2281, 'grad_norm': 0.09934836626052856, 'learning_rate': 2.5866522246292286e-05, 'epoch': 0.87} 87%|████████▋ | 41800/48008 [6:00:33<1:03:55,  1.62it/s]
 87%|████████▋ | 41801/48008 [6:00:34<59:38,  1.73it/s]   87%|████████▋ | 41802/48008 [6:00:34<57:27,  1.80it/s] 87%|████████▋ | 41803/48008 [6:00:35<55:51,  1.85it/s] 87%|████████▋ | 41804/48008 [6:00:35<51:56,  1.99it/s] 87%|████████▋ | 41805/48008 [6:00:36<52:24,  1.97it/s] 87%|████████▋ | 41806/48008 [6:00:36<53:30,  1.93it/s] 87%|████████▋ | 41807/48008 [6:00:37<52:22,  1.97it/s] 87%|████████▋ | 41808/48008 [6:00:37<52:46,  1.96it/s] 87%|████████▋ | 41809/48008 [6:00:38<51:53,  1.99it/s] 87%|████████▋ | 41810/48008 [6:00:38<49:05,  2.10it/s] 87%|████████▋ | 41811/48008 [6:00:38<49:19,  2.09it/s] 87%|████████▋ | 41812/48008 [6:00:39<49:22,  2.09it/s] 87%|████████▋ | 41813/48008 [6:00:39<50:29,  2.04it/s] 87%|████████▋ | 41814/48008 [6:00:40<51:26,  2.01it/s] 87%|████████▋ | 41815/48008 [6:00:40<48:57,  2.11it/s] 87%|████████▋ | 41816/48008 [6:00:41<49:45,  2.07it/s] 87%|████████▋ | 41817/48008 [6:00:41<49:41,  2.08it/s] 87%|████████▋ | 41818/48008 [6:00:42<50:20,  2.05it/s] 87%|████████▋ | 41819/48008 [6:00:42<50:03,  2.06it/s] 87%|████████▋ | 41820/48008 [6:00:44<1:13:59,  1.39it/s] 87%|████████▋ | 41821/48008 [6:00:44<1:07:43,  1.52it/s] 87%|████████▋ | 41822/48008 [6:00:45<1:02:15,  1.66it/s] 87%|████████▋ | 41823/48008 [6:00:45<56:24,  1.83it/s]   87%|████████▋ | 41824/48008 [6:00:46<54:25,  1.89it/s] 87%|████████▋ | 41825/48008 [6:00:46<54:48,  1.88it/s] 87%|████████▋ | 41826/48008 [6:00:47<54:15,  1.90it/s] 87%|████████▋ | 41827/48008 [6:00:47<53:03,  1.94it/s] 87%|████████▋ | 41828/48008 [6:00:48<52:03,  1.98it/s] 87%|████████▋ | 41829/48008 [6:00:48<52:23,  1.97it/s] 87%|████████▋ | 41830/48008 [6:00:49<53:26,  1.93it/s] 87%|████████▋ | 41831/48008 [6:00:49<52:18,  1.97it/s] 87%|████████▋ | 41832/48008 [6:00:50<51:21,  2.00it/s] 87%|████████▋ | 41833/48008 [6:00:50<50:46,  2.03it/s] 87%|████████▋ | 41834/48008 [6:00:51<50:18,  2.05it/s] 87%|████████▋ | 41835/48008 [6:00:51<50:50,  2.02it/s] 87%|████████▋ | 41836/48008 [6:00:52<50:27,  2.04it/s] 87%|████████▋ | 41837/48008 [6:00:52<50:11,  2.05it/s] 87%|████████▋ | 41838/48008 [6:00:52<50:05,  2.05it/s] 87%|████████▋ | 41839/48008 [6:00:53<51:09,  2.01it/s] 87%|████████▋ | 41840/48008 [6:00:54<50:47,  2.02it/s] 87%|████████▋ | 41841/48008 [6:00:54<50:30,  2.03it/s] 87%|████████▋ | 41842/48008 [6:00:55<1:02:23,  1.65it/s] 87%|████████▋ | 41843/48008 [6:00:55<58:38,  1.75it/s]   87%|████████▋ | 41844/48008 [6:00:56<53:54,  1.91it/s] 87%|████████▋ | 41845/48008 [6:00:56<53:42,  1.91it/s] 87%|████████▋ | 41846/48008 [6:00:57<52:21,  1.96it/s] 87%|████████▋ | 41847/48008 [6:00:57<48:24,  2.12it/s] 87%|████████▋ | 41848/48008 [6:00:58<1:12:21,  1.42it/s] 87%|████████▋ | 41849/48008 [6:00:59<1:03:23,  1.62it/s] 87%|████████▋ | 41850/48008 [6:00:59<1:00:16,  1.70it/s]                                                         {'loss': 4.2676, 'grad_norm': 0.10188250243663788, 'learning_rate': 2.56582236293951e-05, 'epoch': 0.87} 87%|████████▋ | 41850/48008 [6:00:59<1:00:16,  1.70it/s]
 87%|████████▋ | 41851/48008 [6:01:00<56:56,  1.80it/s]   87%|████████▋ | 41852/48008 [6:01:00<55:55,  1.83it/s] 87%|████████▋ | 41853/48008 [6:01:01<53:51,  1.90it/s] 87%|████████▋ | 41854/48008 [6:01:01<52:36,  1.95it/s] 87%|████████▋ | 41855/48008 [6:01:02<52:18,  1.96it/s] 87%|████████▋ | 41856/48008 [6:01:02<57:13,  1.79it/s] 87%|████████▋ | 41857/48008 [6:01:03<55:29,  1.85it/s] 87%|████████▋ | 41858/48008 [6:01:03<54:25,  1.88it/s] 87%|████████▋ | 41859/48008 [6:01:04<50:53,  2.01it/s] 87%|████████▋ | 41860/48008 [6:01:04<51:04,  2.01it/s] 87%|████████▋ | 41861/48008 [6:01:06<1:14:06,  1.38it/s] 87%|████████▋ | 41862/48008 [6:01:06<1:04:45,  1.58it/s] 87%|████████▋ | 41863/48008 [6:01:07<1:00:06,  1.70it/s] 87%|████████▋ | 41864/48008 [6:01:07<54:52,  1.87it/s]   87%|████████▋ | 41865/48008 [6:01:08<1:05:30,  1.56it/s] 87%|████████▋ | 41866/48008 [6:01:08<58:37,  1.75it/s]   87%|████████▋ | 41867/48008 [6:01:09<1:01:48,  1.66it/s] 87%|████████▋ | 41868/48008 [6:01:09<57:56,  1.77it/s]   87%|████████▋ | 41869/48008 [6:01:10<55:27,  1.85it/s] 87%|████████▋ | 41870/48008 [6:01:10<54:31,  1.88it/s] 87%|████████▋ | 41871/48008 [6:01:11<53:00,  1.93it/s] 87%|████████▋ | 41872/48008 [6:01:11<49:42,  2.06it/s] 87%|████████▋ | 41873/48008 [6:01:12<51:27,  1.99it/s] 87%|████████▋ | 41874/48008 [6:01:12<50:51,  2.01it/s] 87%|████████▋ | 41875/48008 [6:01:13<50:26,  2.03it/s] 87%|████████▋ | 41876/48008 [6:01:13<55:54,  1.83it/s] 87%|████████▋ | 41877/48008 [6:01:14<54:28,  1.88it/s] 87%|████████▋ | 41878/48008 [6:01:14<53:42,  1.90it/s] 87%|████████▋ | 41879/48008 [6:01:15<50:20,  2.03it/s] 87%|████████▋ | 41880/48008 [6:01:15<49:59,  2.04it/s] 87%|████████▋ | 41881/48008 [6:01:16<50:25,  2.03it/s] 87%|████████▋ | 41882/48008 [6:01:16<50:32,  2.02it/s] 87%|████████▋ | 41883/48008 [6:01:17<50:10,  2.03it/s] 87%|████████▋ | 41884/48008 [6:01:17<50:30,  2.02it/s] 87%|████████▋ | 41885/48008 [6:01:18<51:24,  1.99it/s] 87%|████████▋ | 41886/48008 [6:01:18<50:43,  2.01it/s] 87%|████████▋ | 41887/48008 [6:01:19<50:51,  2.01it/s] 87%|████████▋ | 41888/48008 [6:01:19<50:58,  2.00it/s] 87%|████████▋ | 41889/48008 [6:01:20<50:30,  2.02it/s] 87%|████████▋ | 41890/48008 [6:01:20<50:11,  2.03it/s] 87%|████████▋ | 41891/48008 [6:01:22<1:25:22,  1.19it/s] 87%|████████▋ | 41892/48008 [6:01:23<1:15:14,  1.35it/s] 87%|████████▋ | 41893/48008 [6:01:23<1:08:15,  1.49it/s] 87%|████████▋ | 41894/48008 [6:01:23<1:02:17,  1.64it/s] 87%|████████▋ | 41895/48008 [6:01:24<59:22,  1.72it/s]   87%|████████▋ | 41896/48008 [6:01:24<56:14,  1.81it/s] 87%|████████▋ | 41897/48008 [6:01:26<1:25:30,  1.19it/s] 87%|████████▋ | 41898/48008 [6:01:26<1:12:33,  1.40it/s] 87%|████████▋ | 41899/48008 [6:01:27<1:05:37,  1.55it/s] 87%|████████▋ | 41900/48008 [6:01:27<1:01:26,  1.66it/s]                                                         {'loss': 4.2635, 'grad_norm': 0.15893018245697021, 'learning_rate': 2.5449925012497917e-05, 'epoch': 0.87} 87%|████████▋ | 41900/48008 [6:01:27<1:01:26,  1.66it/s]
 87%|████████▋ | 41901/48008 [6:01:28<55:45,  1.83it/s]   87%|████████▋ | 41902/48008 [6:01:28<54:25,  1.87it/s] 87%|████████▋ | 41903/48008 [6:01:29<1:12:26,  1.40it/s] 87%|████████▋ | 41904/48008 [6:01:30<1:11:15,  1.43it/s] 87%|████████▋ | 41905/48008 [6:01:31<1:02:38,  1.62it/s] 87%|████████▋ | 41906/48008 [6:01:31<58:32,  1.74it/s]   87%|████████▋ | 41907/48008 [6:01:32<55:31,  1.83it/s] 87%|████████▋ | 41908/48008 [6:01:32<53:34,  1.90it/s] 87%|████████▋ | 41909/48008 [6:01:32<50:11,  2.03it/s] 87%|████████▋ | 41910/48008 [6:01:33<51:00,  1.99it/s] 87%|████████▋ | 41911/48008 [6:01:33<50:17,  2.02it/s] 87%|████████▋ | 41912/48008 [6:01:34<50:36,  2.01it/s] 87%|████████▋ | 41913/48008 [6:01:34<50:02,  2.03it/s] 87%|████████▋ | 41914/48008 [6:01:35<49:33,  2.05it/s] 87%|████████▋ | 41915/48008 [6:01:35<49:28,  2.05it/s] 87%|████████▋ | 41916/48008 [6:01:36<51:01,  1.99it/s] 87%|████████▋ | 41917/48008 [6:01:36<50:20,  2.02it/s] 87%|████████▋ | 41918/48008 [6:01:37<47:56,  2.12it/s] 87%|████████▋ | 41919/48008 [6:01:37<48:06,  2.11it/s] 87%|████████▋ | 41920/48008 [6:01:38<48:58,  2.07it/s] 87%|████████▋ | 41921/48008 [6:01:39<1:15:32,  1.34it/s] 87%|████████▋ | 41922/48008 [6:01:40<1:07:26,  1.50it/s] 87%|████████▋ | 41923/48008 [6:01:40<1:01:57,  1.64it/s] 87%|████████▋ | 41924/48008 [6:01:41<59:16,  1.71it/s]   87%|████████▋ | 41925/48008 [6:01:41<56:48,  1.78it/s] 87%|████████▋ | 41926/48008 [6:01:42<54:17,  1.87it/s] 87%|████████▋ | 41927/48008 [6:01:42<53:30,  1.89it/s] 87%|████████▋ | 41928/48008 [6:01:43<52:05,  1.95it/s] 87%|████████▋ | 41929/48008 [6:01:43<51:08,  1.98it/s] 87%|████████▋ | 41930/48008 [6:01:44<50:32,  2.00it/s] 87%|████████▋ | 41931/48008 [6:01:44<55:52,  1.81it/s] 87%|████████▋ | 41932/48008 [6:01:45<54:20,  1.86it/s] 87%|████████▋ | 41933/48008 [6:01:45<50:45,  1.99it/s] 87%|████████▋ | 41934/48008 [6:01:46<50:10,  2.02it/s] 87%|████████▋ | 41935/48008 [6:01:46<51:27,  1.97it/s] 87%|████████▋ | 41936/48008 [6:01:47<51:24,  1.97it/s] 87%|████████▋ | 41937/48008 [6:01:47<51:53,  1.95it/s] 87%|████████▋ | 41938/48008 [6:01:48<50:55,  1.99it/s] 87%|████████▋ | 41939/48008 [6:01:48<51:29,  1.96it/s] 87%|████████▋ | 41940/48008 [6:01:49<51:39,  1.96it/s] 87%|████████▋ | 41941/48008 [6:01:49<48:50,  2.07it/s] 87%|████████▋ | 41942/48008 [6:01:50<48:49,  2.07it/s] 87%|████████▋ | 41943/48008 [6:01:50<46:50,  2.16it/s] 87%|████████▋ | 41944/48008 [6:01:51<47:28,  2.13it/s] 87%|████████▋ | 41945/48008 [6:01:51<47:44,  2.12it/s] 87%|████████▋ | 41946/48008 [6:01:51<48:05,  2.10it/s] 87%|████████▋ | 41947/48008 [6:01:52<46:10,  2.19it/s] 87%|████████▋ | 41948/48008 [6:01:52<48:01,  2.10it/s] 87%|████████▋ | 41949/48008 [6:01:53<48:06,  2.10it/s] 87%|████████▋ | 41950/48008 [6:01:53<48:16,  2.09it/s]                                                       {'loss': 4.1962, 'grad_norm': 0.10333774983882904, 'learning_rate': 2.5241626395600738e-05, 'epoch': 0.87} 87%|████████▋ | 41950/48008 [6:01:53<48:16,  2.09it/s]
 87%|████████▋ | 41951/48008 [6:01:54<49:08,  2.05it/s] 87%|████████▋ | 41952/48008 [6:01:54<50:04,  2.02it/s] 87%|████████▋ | 41953/48008 [6:01:55<49:40,  2.03it/s] 87%|████████▋ | 41954/48008 [6:01:55<49:54,  2.02it/s] 87%|████████▋ | 41955/48008 [6:01:56<50:08,  2.01it/s] 87%|████████▋ | 41956/48008 [6:01:56<49:35,  2.03it/s] 87%|████████▋ | 41957/48008 [6:01:57<49:06,  2.05it/s] 87%|████████▋ | 41958/48008 [6:01:57<48:58,  2.06it/s] 87%|████████▋ | 41959/48008 [6:01:58<46:56,  2.15it/s] 87%|████████▋ | 41960/48008 [6:01:58<47:32,  2.12it/s] 87%|████████▋ | 41961/48008 [6:01:59<47:46,  2.11it/s] 87%|████████▋ | 41962/48008 [6:02:00<59:55,  1.68it/s] 87%|████████▋ | 41963/48008 [6:02:00<56:24,  1.79it/s] 87%|████████▋ | 41964/48008 [6:02:01<54:07,  1.86it/s] 87%|████████▋ | 41965/48008 [6:02:01<50:24,  2.00it/s] 87%|████████▋ | 41966/48008 [6:02:02<1:13:20,  1.37it/s] 87%|████████▋ | 41967/48008 [6:02:03<1:07:45,  1.49it/s] 87%|████████▋ | 41968/48008 [6:02:03<1:01:56,  1.62it/s] 87%|████████▋ | 41969/48008 [6:02:04<59:07,  1.70it/s]   87%|████████▋ | 41970/48008 [6:02:04<53:48,  1.87it/s] 87%|████████▋ | 41971/48008 [6:02:05<52:56,  1.90it/s] 87%|████████▋ | 41972/48008 [6:02:05<53:24,  1.88it/s] 87%|████████▋ | 41973/48008 [6:02:06<53:08,  1.89it/s] 87%|████████▋ | 41974/48008 [6:02:06<52:14,  1.93it/s] 87%|████████▋ | 41975/48008 [6:02:07<51:06,  1.97it/s] 87%|████████▋ | 41976/48008 [6:02:07<50:17,  2.00it/s] 87%|████████▋ | 41977/48008 [6:02:08<55:35,  1.81it/s] 87%|████████▋ | 41978/48008 [6:02:08<51:27,  1.95it/s] 87%|████████▋ | 41979/48008 [6:02:09<51:07,  1.97it/s] 87%|████████▋ | 41980/48008 [6:02:09<50:23,  1.99it/s] 87%|████████▋ | 41981/48008 [6:02:10<47:44,  2.10it/s] 87%|████████▋ | 41982/48008 [6:02:10<48:06,  2.09it/s] 87%|████████▋ | 41983/48008 [6:02:11<48:07,  2.09it/s] 87%|████████▋ | 41984/48008 [6:02:11<48:55,  2.05it/s] 87%|████████▋ | 41985/48008 [6:02:12<54:39,  1.84it/s] 87%|████████▋ | 41986/48008 [6:02:12<52:54,  1.90it/s] 87%|████████▋ | 41987/48008 [6:02:13<51:35,  1.95it/s] 87%|████████▋ | 41988/48008 [6:02:13<51:19,  1.95it/s] 87%|████████▋ | 41989/48008 [6:02:14<50:27,  1.99it/s] 87%|████████▋ | 41990/48008 [6:02:15<55:46,  1.80it/s] 87%|████████▋ | 41991/48008 [6:02:15<50:30,  1.99it/s] 87%|████████▋ | 41992/48008 [6:02:15<50:23,  1.99it/s] 87%|████████▋ | 41993/48008 [6:02:16<47:50,  2.10it/s] 87%|████████▋ | 41994/48008 [6:02:16<48:01,  2.09it/s] 87%|████████▋ | 41995/48008 [6:02:17<48:01,  2.09it/s] 87%|████████▋ | 41996/48008 [6:02:17<48:08,  2.08it/s] 87%|████████▋ | 41997/48008 [6:02:18<46:15,  2.17it/s] 87%|████████▋ | 41998/48008 [6:02:18<47:37,  2.10it/s] 87%|████████▋ | 41999/48008 [6:02:19<48:23,  2.07it/s] 87%|████████▋ | 42000/48008 [6:02:19<54:18,  1.84it/s]                                                       {'loss': 4.3037, 'grad_norm': 0.09879543632268906, 'learning_rate': 2.5033327778703552e-05, 'epoch': 0.87}
 87%|████████▋ | 42000/48008 [6:02:19<54:18,  1.84it/s] 87%|████████▋ | 42001/48008 [6:02:20<53:17,  1.88it/s] 87%|████████▋ | 42002/48008 [6:02:20<52:46,  1.90it/s] 87%|████████▋ | 42003/48008 [6:02:21<51:19,  1.95it/s] 87%|████████▋ | 42004/48008 [6:02:21<52:00,  1.92it/s] 87%|████████▋ | 42005/48008 [6:02:22<50:54,  1.97it/s] 87%|████████▋ | 42006/48008 [6:02:22<50:35,  1.98it/s] 88%|████████▊ | 42007/48008 [6:02:23<49:39,  2.01it/s] 88%|████████▊ | 42008/48008 [6:02:23<50:56,  1.96it/s] 88%|████████▊ | 42009/48008 [6:02:24<51:43,  1.93it/s] 88%|████████▊ | 42010/48008 [6:02:24<51:24,  1.94it/s] 88%|████████▊ | 42011/48008 [6:02:25<50:25,  1.98it/s] 88%|████████▊ | 42012/48008 [6:02:25<50:14,  1.99it/s] 88%|████████▊ | 42013/48008 [6:02:26<50:25,  1.98it/s] 88%|████████▊ | 42014/48008 [6:02:26<49:37,  2.01it/s] 88%|████████▊ | 42015/48008 [6:02:27<49:44,  2.01it/s] 88%|████████▊ | 42016/48008 [6:02:28<55:05,  1.81it/s] 88%|████████▊ | 42017/48008 [6:02:28<51:05,  1.95it/s] 88%|████████▊ | 42018/48008 [6:02:28<50:03,  1.99it/s] 88%|████████▊ | 42019/48008 [6:02:29<50:08,  1.99it/s] 88%|████████▊ | 42020/48008 [6:02:29<50:20,  1.98it/s] 88%|████████▊ | 42021/48008 [6:02:30<49:33,  2.01it/s] 88%|████████▊ | 42022/48008 [6:02:30<50:07,  1.99it/s] 88%|████████▊ | 42023/48008 [6:02:31<49:35,  2.01it/s] 88%|████████▊ | 42024/48008 [6:02:31<49:06,  2.03it/s] 88%|████████▊ | 42025/48008 [6:02:32<46:44,  2.13it/s] 88%|████████▊ | 42026/48008 [6:02:32<47:03,  2.12it/s] 88%|████████▊ | 42027/48008 [6:02:33<49:03,  2.03it/s] 88%|████████▊ | 42028/48008 [6:02:34<1:12:01,  1.38it/s] 88%|████████▊ | 42029/48008 [6:02:35<1:04:57,  1.53it/s] 88%|████████▊ | 42030/48008 [6:02:35<59:57,  1.66it/s]   88%|████████▊ | 42031/48008 [6:02:36<54:31,  1.83it/s] 88%|████████▊ | 42032/48008 [6:02:36<53:23,  1.87it/s] 88%|████████▊ | 42033/48008 [6:02:37<51:48,  1.92it/s] 88%|████████▊ | 42034/48008 [6:02:37<50:32,  1.97it/s] 88%|████████▊ | 42035/48008 [6:02:38<1:12:35,  1.37it/s] 88%|████████▊ | 42036/48008 [6:02:39<1:05:12,  1.53it/s] 88%|████████▊ | 42037/48008 [6:02:39<1:00:11,  1.65it/s] 88%|████████▊ | 42038/48008 [6:02:40<1:19:18,  1.25it/s] 88%|████████▊ | 42039/48008 [6:02:41<1:10:30,  1.41it/s] 88%|████████▊ | 42040/48008 [6:02:41<1:04:36,  1.54it/s] 88%|████████▊ | 42041/48008 [6:02:42<1:00:18,  1.65it/s] 88%|████████▊ | 42042/48008 [6:02:42<57:21,  1.73it/s]   88%|████████▊ | 42043/48008 [6:02:43<55:44,  1.78it/s] 88%|████████▊ | 42044/48008 [6:02:44<53:26,  1.86it/s] 88%|████████▊ | 42045/48008 [6:02:44<53:07,  1.87it/s] 88%|████████▊ | 42046/48008 [6:02:45<51:29,  1.93it/s] 88%|████████▊ | 42047/48008 [6:02:45<50:22,  1.97it/s] 88%|████████▊ | 42048/48008 [6:02:46<51:02,  1.95it/s] 88%|████████▊ | 42049/48008 [6:02:46<50:11,  1.98it/s] 88%|████████▊ | 42050/48008 [6:02:47<1:01:06,  1.63it/s]                                                         {'loss': 4.3213, 'grad_norm': 0.12167491018772125, 'learning_rate': 2.482502916180637e-05, 'epoch': 0.88}
 88%|████████▊ | 42050/48008 [6:02:47<1:01:06,  1.63it/s] 88%|████████▊ | 42051/48008 [6:02:47<55:20,  1.79it/s]   88%|████████▊ | 42052/48008 [6:02:48<53:08,  1.87it/s] 88%|████████▊ | 42053/48008 [6:02:48<51:35,  1.92it/s] 88%|████████▊ | 42054/48008 [6:02:49<50:34,  1.96it/s] 88%|████████▊ | 42055/48008 [6:02:50<1:01:38,  1.61it/s] 88%|████████▊ | 42056/48008 [6:02:50<57:39,  1.72it/s]   88%|████████▊ | 42057/48008 [6:02:51<55:27,  1.79it/s] 88%|████████▊ | 42058/48008 [6:02:51<53:19,  1.86it/s] 88%|████████▊ | 42059/48008 [6:02:52<52:40,  1.88it/s] 88%|████████▊ | 42060/48008 [6:02:52<51:17,  1.93it/s] 88%|████████▊ | 42061/48008 [6:02:53<48:14,  2.05it/s] 88%|████████▊ | 42062/48008 [6:02:53<53:49,  1.84it/s] 88%|████████▊ | 42063/48008 [6:02:54<50:07,  1.98it/s] 88%|████████▊ | 42064/48008 [6:02:54<49:29,  2.00it/s] 88%|████████▊ | 42065/48008 [6:02:55<47:06,  2.10it/s] 88%|████████▊ | 42066/48008 [6:02:55<47:27,  2.09it/s] 88%|████████▊ | 42067/48008 [6:02:56<48:21,  2.05it/s] 88%|████████▊ | 42068/48008 [6:02:56<48:11,  2.05it/s] 88%|████████▊ | 42069/48008 [6:02:56<46:08,  2.15it/s] 88%|████████▊ | 42070/48008 [6:02:57<58:34,  1.69it/s] 88%|████████▊ | 42071/48008 [6:02:58<55:25,  1.79it/s] 88%|████████▊ | 42072/48008 [6:02:58<51:18,  1.93it/s] 88%|████████▊ | 42073/48008 [6:02:59<50:23,  1.96it/s] 88%|████████▊ | 42074/48008 [6:02:59<50:54,  1.94it/s] 88%|████████▊ | 42075/48008 [6:03:00<48:03,  2.06it/s] 88%|████████▊ | 42076/48008 [6:03:00<48:06,  2.05it/s] 88%|████████▊ | 42077/48008 [6:03:01<48:41,  2.03it/s] 88%|████████▊ | 42078/48008 [6:03:01<46:32,  2.12it/s] 88%|████████▊ | 42079/48008 [6:03:02<47:30,  2.08it/s] 88%|████████▊ | 42080/48008 [6:03:02<45:37,  2.17it/s] 88%|████████▊ | 42081/48008 [6:03:03<57:59,  1.70it/s] 88%|████████▊ | 42082/48008 [6:03:03<55:49,  1.77it/s] 88%|████████▊ | 42083/48008 [6:03:04<53:30,  1.85it/s] 88%|████████▊ | 42084/48008 [6:03:04<48:46,  2.02it/s] 88%|████████▊ | 42085/48008 [6:03:05<49:59,  1.97it/s] 88%|████████▊ | 42086/48008 [6:03:05<49:16,  2.00it/s] 88%|████████▊ | 42087/48008 [6:03:06<50:36,  1.95it/s] 88%|████████▊ | 42088/48008 [6:03:06<49:46,  1.98it/s] 88%|████████▊ | 42089/48008 [6:03:07<50:08,  1.97it/s] 88%|████████▊ | 42090/48008 [6:03:07<50:35,  1.95it/s] 88%|████████▊ | 42091/48008 [6:03:08<51:00,  1.93it/s] 88%|████████▊ | 42092/48008 [6:03:08<50:10,  1.97it/s] 88%|████████▊ | 42093/48008 [6:03:09<50:15,  1.96it/s] 88%|████████▊ | 42094/48008 [6:03:10<1:12:01,  1.37it/s] 88%|████████▊ | 42095/48008 [6:03:11<1:05:50,  1.50it/s] 88%|████████▊ | 42096/48008 [6:03:11<1:00:25,  1.63it/s] 88%|████████▊ | 42097/48008 [6:03:12<57:15,  1.72it/s]   88%|████████▊ | 42098/48008 [6:03:12<52:20,  1.88it/s] 88%|████████▊ | 42099/48008 [6:03:12<49:00,  2.01it/s] 88%|████████▊ | 42100/48008 [6:03:13<49:16,  2.00it/s]                                                        88%|████████▊ | 42100/48008 [6:03:13<49:16,  2.00it/s]{'loss': 4.2491, 'grad_norm': 0.21770301461219788, 'learning_rate': 2.4616730544909183e-05, 'epoch': 0.88}
 88%|████████▊ | 42101/48008 [6:03:13<49:19,  2.00it/s] 88%|████████▊ | 42102/48008 [6:03:14<49:14,  2.00it/s] 88%|████████▊ | 42103/48008 [6:03:14<48:46,  2.02it/s] 88%|████████▊ | 42104/48008 [6:03:15<49:39,  1.98it/s] 88%|████████▊ | 42105/48008 [6:03:15<49:00,  2.01it/s] 88%|████████▊ | 42106/48008 [6:03:16<46:35,  2.11it/s] 88%|████████▊ | 42107/48008 [6:03:16<47:26,  2.07it/s] 88%|████████▊ | 42108/48008 [6:03:17<47:30,  2.07it/s] 88%|████████▊ | 42109/48008 [6:03:17<45:37,  2.15it/s] 88%|████████▊ | 42110/48008 [6:03:18<46:08,  2.13it/s] 88%|████████▊ | 42111/48008 [6:03:18<46:35,  2.11it/s] 88%|████████▊ | 42112/48008 [6:03:19<44:53,  2.19it/s] 88%|████████▊ | 42113/48008 [6:03:19<46:13,  2.13it/s] 88%|████████▊ | 42114/48008 [6:03:20<44:38,  2.20it/s] 88%|████████▊ | 42115/48008 [6:03:20<46:10,  2.13it/s] 88%|████████▊ | 42116/48008 [6:03:21<47:14,  2.08it/s] 88%|████████▊ | 42117/48008 [6:03:21<47:53,  2.05it/s] 88%|████████▊ | 42118/48008 [6:03:22<48:48,  2.01it/s] 88%|████████▊ | 42119/48008 [6:03:22<48:25,  2.03it/s] 88%|████████▊ | 42120/48008 [6:03:23<49:15,  1.99it/s] 88%|████████▊ | 42121/48008 [6:03:23<50:26,  1.94it/s] 88%|████████▊ | 42122/48008 [6:03:24<50:12,  1.95it/s] 88%|████████▊ | 42123/48008 [6:03:24<49:20,  1.99it/s] 88%|████████▊ | 42124/48008 [6:03:25<50:35,  1.94it/s] 88%|████████▊ | 42125/48008 [6:03:25<50:48,  1.93it/s] 88%|████████▊ | 42126/48008 [6:03:26<49:49,  1.97it/s] 88%|████████▊ | 42127/48008 [6:03:26<47:06,  2.08it/s] 88%|████████▊ | 42128/48008 [6:03:27<47:18,  2.07it/s] 88%|████████▊ | 42129/48008 [6:03:27<48:49,  2.01it/s] 88%|████████▊ | 42130/48008 [6:03:28<46:26,  2.11it/s] 88%|████████▊ | 42131/48008 [6:03:28<46:48,  2.09it/s] 88%|████████▊ | 42132/48008 [6:03:29<47:06,  2.08it/s] 88%|████████▊ | 42133/48008 [6:03:29<47:46,  2.05it/s] 88%|████████▊ | 42134/48008 [6:03:30<47:38,  2.05it/s] 88%|████████▊ | 42135/48008 [6:03:30<47:38,  2.05it/s] 88%|████████▊ | 42136/48008 [6:03:31<47:29,  2.06it/s] 88%|████████▊ | 42137/48008 [6:03:31<47:59,  2.04it/s] 88%|████████▊ | 42138/48008 [6:03:32<59:17,  1.65it/s] 88%|████████▊ | 42139/48008 [6:03:32<55:42,  1.76it/s] 88%|████████▊ | 42140/48008 [6:03:33<53:15,  1.84it/s] 88%|████████▊ | 42141/48008 [6:03:33<51:23,  1.90it/s] 88%|████████▊ | 42142/48008 [6:03:34<50:11,  1.95it/s] 88%|████████▊ | 42143/48008 [6:03:34<49:20,  1.98it/s] 88%|████████▊ | 42144/48008 [6:03:35<46:42,  2.09it/s] 88%|████████▊ | 42145/48008 [6:03:35<46:51,  2.09it/s] 88%|████████▊ | 42146/48008 [6:03:36<46:52,  2.08it/s] 88%|████████▊ | 42147/48008 [6:03:36<44:57,  2.17it/s] 88%|████████▊ | 42148/48008 [6:03:37<43:49,  2.23it/s] 88%|████████▊ | 42149/48008 [6:03:37<44:48,  2.18it/s] 88%|████████▊ | 42150/48008 [6:03:37<45:35,  2.14it/s]                                                       {'loss': 4.242, 'grad_norm': 0.36346009373664856, 'learning_rate': 2.4408431928012e-05, 'epoch': 0.88} 88%|████████▊ | 42150/48008 [6:03:38<45:35,  2.14it/s]
 88%|████████▊ | 42151/48008 [6:03:38<44:11,  2.21it/s] 88%|████████▊ | 42152/48008 [6:03:38<45:03,  2.17it/s] 88%|████████▊ | 42153/48008 [6:03:39<45:36,  2.14it/s] 88%|████████▊ | 42154/48008 [6:03:39<46:07,  2.12it/s] 88%|████████▊ | 42155/48008 [6:03:40<47:00,  2.07it/s] 88%|████████▊ | 42156/48008 [6:03:40<47:50,  2.04it/s] 88%|████████▊ | 42157/48008 [6:03:41<48:48,  2.00it/s] 88%|████████▊ | 42158/48008 [6:03:41<48:53,  1.99it/s] 88%|████████▊ | 42159/48008 [6:03:42<48:23,  2.01it/s] 88%|████████▊ | 42160/48008 [6:03:42<48:42,  2.00it/s] 88%|████████▊ | 42161/48008 [6:03:43<48:21,  2.01it/s] 88%|████████▊ | 42162/48008 [6:03:43<47:48,  2.04it/s] 88%|████████▊ | 42163/48008 [6:03:44<48:23,  2.01it/s] 88%|████████▊ | 42164/48008 [6:03:44<47:58,  2.03it/s] 88%|████████▊ | 42165/48008 [6:03:45<47:40,  2.04it/s] 88%|████████▊ | 42166/48008 [6:03:45<47:39,  2.04it/s] 88%|████████▊ | 42167/48008 [6:03:46<53:09,  1.83it/s] 88%|████████▊ | 42168/48008 [6:03:47<1:13:44,  1.32it/s] 88%|████████▊ | 42169/48008 [6:03:48<1:06:52,  1.46it/s] 88%|████████▊ | 42170/48008 [6:03:48<1:02:05,  1.57it/s] 88%|████████▊ | 42171/48008 [6:03:49<1:03:18,  1.54it/s] 88%|████████▊ | 42172/48008 [6:03:49<58:22,  1.67it/s]   88%|████████▊ | 42173/48008 [6:03:50<54:43,  1.78it/s] 88%|████████▊ | 42174/48008 [6:03:51<1:04:04,  1.52it/s] 88%|████████▊ | 42175/48008 [6:03:51<59:07,  1.64it/s]   88%|████████▊ | 42176/48008 [6:03:52<56:03,  1.73it/s] 88%|████████▊ | 42177/48008 [6:03:52<53:23,  1.82it/s] 88%|████████▊ | 42178/48008 [6:03:53<51:27,  1.89it/s] 88%|████████▊ | 42179/48008 [6:03:53<50:12,  1.94it/s] 88%|████████▊ | 42180/48008 [6:03:54<49:50,  1.95it/s] 88%|████████▊ | 42181/48008 [6:03:54<49:32,  1.96it/s] 88%|████████▊ | 42182/48008 [6:03:55<49:22,  1.97it/s] 88%|████████▊ | 42183/48008 [6:03:55<49:36,  1.96it/s] 88%|████████▊ | 42184/48008 [6:03:56<48:46,  1.99it/s] 88%|████████▊ | 42185/48008 [6:03:56<46:15,  2.10it/s] 88%|████████▊ | 42186/48008 [6:03:57<47:45,  2.03it/s] 88%|████████▊ | 42187/48008 [6:03:57<47:57,  2.02it/s] 88%|████████▊ | 42188/48008 [6:03:58<48:11,  2.01it/s] 88%|████████▊ | 42189/48008 [6:03:58<45:56,  2.11it/s] 88%|████████▊ | 42190/48008 [6:03:59<47:10,  2.06it/s] 88%|████████▊ | 42191/48008 [6:03:59<47:58,  2.02it/s] 88%|████████▊ | 42192/48008 [6:04:00<47:40,  2.03it/s] 88%|████████▊ | 42193/48008 [6:04:00<48:25,  2.00it/s] 88%|████████▊ | 42194/48008 [6:04:01<48:51,  1.98it/s] 88%|████████▊ | 42195/48008 [6:04:01<48:50,  1.98it/s] 88%|████████▊ | 42196/48008 [6:04:02<59:38,  1.62it/s] 88%|████████▊ | 42197/48008 [6:04:03<56:35,  1.71it/s] 88%|████████▊ | 42198/48008 [6:04:03<51:46,  1.87it/s] 88%|████████▊ | 42199/48008 [6:04:04<50:41,  1.91it/s] 88%|████████▊ | 42200/48008 [6:04:04<49:35,  1.95it/s]                                                       {'loss': 4.2452, 'grad_norm': 0.11019553244113922, 'learning_rate': 2.4200133311114814e-05, 'epoch': 0.88}
 88%|████████▊ | 42200/48008 [6:04:04<49:35,  1.95it/s] 88%|████████▊ | 42201/48008 [6:04:05<49:31,  1.95it/s] 88%|████████▊ | 42202/48008 [6:04:05<50:20,  1.92it/s] 88%|████████▊ | 42203/48008 [6:04:05<47:23,  2.04it/s] 88%|████████▊ | 42204/48008 [6:04:06<48:18,  2.00it/s] 88%|████████▊ | 42205/48008 [6:04:07<53:26,  1.81it/s] 88%|████████▊ | 42206/48008 [6:04:07<51:18,  1.88it/s] 88%|████████▊ | 42207/48008 [6:04:08<48:04,  2.01it/s] 88%|████████▊ | 42208/48008 [6:04:08<47:42,  2.03it/s] 88%|████████▊ | 42209/48008 [6:04:09<52:56,  1.83it/s] 88%|████████▊ | 42210/48008 [6:04:09<49:14,  1.96it/s] 88%|████████▊ | 42211/48008 [6:04:10<49:26,  1.95it/s] 88%|████████▊ | 42212/48008 [6:04:10<48:45,  1.98it/s] 88%|████████▊ | 42213/48008 [6:04:11<46:18,  2.09it/s] 88%|████████▊ | 42214/48008 [6:04:11<47:17,  2.04it/s] 88%|████████▊ | 42215/48008 [6:04:12<49:00,  1.97it/s] 88%|████████▊ | 42216/48008 [6:04:12<48:19,  2.00it/s] 88%|████████▊ | 42217/48008 [6:04:13<53:23,  1.81it/s] 88%|████████▊ | 42218/48008 [6:04:14<1:09:16,  1.39it/s] 88%|████████▊ | 42219/48008 [6:04:14<1:02:36,  1.54it/s] 88%|████████▊ | 42220/48008 [6:04:15<57:52,  1.67it/s]   88%|████████▊ | 42221/48008 [6:04:15<56:11,  1.72it/s] 88%|████████▊ | 42222/48008 [6:04:16<54:38,  1.76it/s] 88%|████████▊ | 42223/48008 [6:04:16<52:13,  1.85it/s] 88%|████████▊ | 42224/48008 [6:04:17<50:35,  1.91it/s] 88%|████████▊ | 42225/48008 [6:04:17<47:29,  2.03it/s] 88%|████████▊ | 42226/48008 [6:04:18<45:20,  2.13it/s] 88%|████████▊ | 42227/48008 [6:04:18<45:43,  2.11it/s] 88%|████████▊ | 42228/48008 [6:04:19<44:11,  2.18it/s] 88%|████████▊ | 42229/48008 [6:04:19<44:53,  2.15it/s] 88%|████████▊ | 42230/48008 [6:04:20<47:03,  2.05it/s] 88%|████████▊ | 42231/48008 [6:04:20<46:45,  2.06it/s] 88%|████████▊ | 42232/48008 [6:04:21<46:36,  2.07it/s] 88%|████████▊ | 42233/48008 [6:04:21<46:31,  2.07it/s] 88%|████████▊ | 42234/48008 [6:04:22<48:10,  2.00it/s] 88%|████████▊ | 42235/48008 [6:04:23<59:13,  1.62it/s] 88%|████████▊ | 42236/48008 [6:04:23<55:09,  1.74it/s] 88%|████████▊ | 42237/48008 [6:04:24<52:35,  1.83it/s] 88%|████████▊ | 42238/48008 [6:04:24<50:40,  1.90it/s] 88%|████████▊ | 42239/48008 [6:04:24<49:58,  1.92it/s] 88%|████████▊ | 42240/48008 [6:04:25<48:48,  1.97it/s] 88%|████████▊ | 42241/48008 [6:04:25<48:46,  1.97it/s] 88%|████████▊ | 42242/48008 [6:04:26<48:41,  1.97it/s] 88%|████████▊ | 42243/48008 [6:04:26<46:00,  2.09it/s] 88%|████████▊ | 42244/48008 [6:04:27<45:59,  2.09it/s] 88%|████████▊ | 42245/48008 [6:04:28<51:44,  1.86it/s] 88%|████████▊ | 42246/48008 [6:04:28<50:05,  1.92it/s] 88%|████████▊ | 42247/48008 [6:04:29<1:00:21,  1.59it/s] 88%|████████▊ | 42248/48008 [6:04:30<1:07:42,  1.42it/s] 88%|████████▊ | 42249/48008 [6:04:30<59:22,  1.62it/s]   88%|████████▊ | 42250/48008 [6:04:31<55:21,  1.73it/s]                                                       {'loss': 4.2064, 'grad_norm': 0.11057259142398834, 'learning_rate': 2.3991834694217632e-05, 'epoch': 0.88} 88%|████████▊ | 42250/48008 [6:04:31<55:21,  1.73it/s]
 88%|████████▊ | 42251/48008 [6:04:31<53:14,  1.80it/s] 88%|████████▊ | 42252/48008 [6:04:32<1:13:18,  1.31it/s] 88%|████████▊ | 42253/48008 [6:04:33<1:06:55,  1.43it/s] 88%|████████▊ | 42254/48008 [6:04:34<1:06:20,  1.45it/s] 88%|████████▊ | 42255/48008 [6:04:34<1:02:05,  1.54it/s] 88%|████████▊ | 42256/48008 [6:04:35<57:14,  1.67it/s]   88%|████████▊ | 42257/48008 [6:04:35<53:55,  1.78it/s] 88%|████████▊ | 42258/48008 [6:04:36<51:27,  1.86it/s] 88%|████████▊ | 42259/48008 [6:04:36<51:36,  1.86it/s] 88%|████████▊ | 42260/48008 [6:04:37<50:39,  1.89it/s] 88%|████████▊ | 42261/48008 [6:04:37<49:11,  1.95it/s] 88%|████████▊ | 42262/48008 [6:04:38<48:18,  1.98it/s] 88%|████████▊ | 42263/48008 [6:04:38<47:43,  2.01it/s] 88%|████████▊ | 42264/48008 [6:04:39<48:17,  1.98it/s] 88%|████████▊ | 42265/48008 [6:04:39<48:16,  1.98it/s] 88%|████████▊ | 42266/48008 [6:04:40<47:36,  2.01it/s] 88%|████████▊ | 42267/48008 [6:04:40<47:14,  2.03it/s] 88%|████████▊ | 42268/48008 [6:04:41<47:57,  1.99it/s] 88%|████████▊ | 42269/48008 [6:04:41<47:28,  2.01it/s] 88%|████████▊ | 42270/48008 [6:04:42<48:56,  1.95it/s] 88%|████████▊ | 42271/48008 [6:04:42<46:17,  2.07it/s] 88%|████████▊ | 42272/48008 [6:04:43<46:14,  2.07it/s] 88%|████████▊ | 42273/48008 [6:04:43<51:34,  1.85it/s] 88%|████████▊ | 42274/48008 [6:04:44<49:59,  1.91it/s] 88%|████████▊ | 42275/48008 [6:04:45<59:58,  1.59it/s] 88%|████████▊ | 42276/48008 [6:04:45<57:23,  1.66it/s] 88%|████████▊ | 42277/48008 [6:04:46<53:51,  1.77it/s] 88%|████████▊ | 42278/48008 [6:04:46<51:31,  1.85it/s] 88%|████████▊ | 42279/48008 [6:04:47<1:11:44,  1.33it/s] 88%|████████▊ | 42280/48008 [6:04:48<1:04:43,  1.48it/s] 88%|████████▊ | 42281/48008 [6:04:48<1:00:05,  1.59it/s] 88%|████████▊ | 42282/48008 [6:04:49<55:46,  1.71it/s]   88%|████████▊ | 42283/48008 [6:04:50<1:04:21,  1.48it/s] 88%|████████▊ | 42284/48008 [6:04:50<1:00:29,  1.58it/s] 88%|████████▊ | 42285/48008 [6:04:51<56:05,  1.70it/s]   88%|████████▊ | 42286/48008 [6:04:51<53:09,  1.79it/s] 88%|████████▊ | 42287/48008 [6:04:52<50:57,  1.87it/s] 88%|████████▊ | 42288/48008 [6:04:52<50:55,  1.87it/s] 88%|████████▊ | 42289/48008 [6:04:53<50:41,  1.88it/s] 88%|████████▊ | 42290/48008 [6:04:53<49:45,  1.92it/s] 88%|████████▊ | 42291/48008 [6:04:54<54:15,  1.76it/s] 88%|████████▊ | 42292/48008 [6:04:55<53:22,  1.78it/s] 88%|████████▊ | 42293/48008 [6:04:55<51:43,  1.84it/s] 88%|████████▊ | 42294/48008 [6:04:55<50:05,  1.90it/s] 88%|████████▊ | 42295/48008 [6:04:56<54:23,  1.75it/s] 88%|████████▊ | 42296/48008 [6:04:57<52:56,  1.80it/s] 88%|████████▊ | 42297/48008 [6:04:57<50:52,  1.87it/s] 88%|████████▊ | 42298/48008 [6:04:58<49:25,  1.93it/s] 88%|████████▊ | 42299/48008 [6:04:58<48:15,  1.97it/s] 88%|████████▊ | 42300/48008 [6:04:59<53:09,  1.79it/s]                                                       {'loss': 4.3098, 'grad_norm': 0.10065329074859619, 'learning_rate': 2.378353607732045e-05, 'epoch': 0.88}
 88%|████████▊ | 42300/48008 [6:04:59<53:09,  1.79it/s] 88%|████████▊ | 42301/48008 [6:04:59<49:12,  1.93it/s] 88%|████████▊ | 42302/48008 [6:05:00<53:37,  1.77it/s] 88%|████████▊ | 42303/48008 [6:05:00<51:57,  1.83it/s] 88%|████████▊ | 42304/48008 [6:05:01<50:54,  1.87it/s] 88%|████████▊ | 42305/48008 [6:05:01<49:21,  1.93it/s] 88%|████████▊ | 42306/48008 [6:05:02<48:12,  1.97it/s] 88%|████████▊ | 42307/48008 [6:05:02<45:40,  2.08it/s] 88%|████████▊ | 42308/48008 [6:05:03<45:34,  2.08it/s] 88%|████████▊ | 42309/48008 [6:05:03<46:37,  2.04it/s] 88%|████████▊ | 42310/48008 [6:05:04<46:28,  2.04it/s] 88%|████████▊ | 42311/48008 [6:05:04<48:01,  1.98it/s] 88%|████████▊ | 42312/48008 [6:05:05<47:57,  1.98it/s] 88%|████████▊ | 42313/48008 [6:05:05<47:56,  1.98it/s] 88%|████████▊ | 42314/48008 [6:05:06<48:51,  1.94it/s] 88%|████████▊ | 42315/48008 [6:05:06<48:30,  1.96it/s] 88%|████████▊ | 42316/48008 [6:05:07<48:52,  1.94it/s] 88%|████████▊ | 42317/48008 [6:05:07<48:37,  1.95it/s] 88%|████████▊ | 42318/48008 [6:05:08<47:49,  1.98it/s] 88%|████████▊ | 42319/48008 [6:05:08<47:10,  2.01it/s] 88%|████████▊ | 42320/48008 [6:05:09<44:53,  2.11it/s] 88%|████████▊ | 42321/48008 [6:05:09<45:01,  2.11it/s] 88%|████████▊ | 42322/48008 [6:05:10<45:44,  2.07it/s] 88%|████████▊ | 42323/48008 [6:05:10<45:33,  2.08it/s] 88%|████████▊ | 42324/48008 [6:05:11<43:47,  2.16it/s] 88%|████████▊ | 42325/48008 [6:05:11<45:02,  2.10it/s] 88%|████████▊ | 42326/48008 [6:05:12<45:17,  2.09it/s] 88%|████████▊ | 42327/48008 [6:05:12<46:33,  2.03it/s] 88%|████████▊ | 42328/48008 [6:05:13<47:03,  2.01it/s] 88%|████████▊ | 42329/48008 [6:05:13<47:16,  2.00it/s] 88%|████████▊ | 42330/48008 [6:05:14<47:52,  1.98it/s] 88%|████████▊ | 42331/48008 [6:05:14<45:23,  2.08it/s] 88%|████████▊ | 42332/48008 [6:05:15<45:22,  2.08it/s] 88%|████████▊ | 42333/48008 [6:05:15<43:41,  2.17it/s] 88%|████████▊ | 42334/48008 [6:05:16<44:17,  2.13it/s] 88%|████████▊ | 42335/48008 [6:05:16<44:42,  2.11it/s] 88%|████████▊ | 42336/48008 [6:05:16<43:09,  2.19it/s] 88%|████████▊ | 42337/48008 [6:05:17<44:27,  2.13it/s] 88%|████████▊ | 42338/48008 [6:05:17<44:41,  2.11it/s] 88%|████████▊ | 42339/48008 [6:05:18<45:01,  2.10it/s] 88%|████████▊ | 42340/48008 [6:05:18<45:50,  2.06it/s] 88%|████████▊ | 42341/48008 [6:05:19<46:18,  2.04it/s] 88%|████████▊ | 42342/48008 [6:05:19<45:59,  2.05it/s] 88%|████████▊ | 42343/48008 [6:05:20<45:48,  2.06it/s] 88%|████████▊ | 42344/48008 [6:05:20<46:47,  2.02it/s] 88%|████████▊ | 42345/48008 [6:05:21<46:29,  2.03it/s] 88%|████████▊ | 42346/48008 [6:05:21<46:59,  2.01it/s] 88%|████████▊ | 42347/48008 [6:05:22<46:34,  2.03it/s] 88%|████████▊ | 42348/48008 [6:05:22<46:50,  2.01it/s] 88%|████████▊ | 42349/48008 [6:05:23<46:32,  2.03it/s] 88%|████████▊ | 42350/48008 [6:05:23<46:23,  2.03it/s]                                                       {'loss': 4.2315, 'grad_norm': 0.16132676601409912, 'learning_rate': 2.3575237460423263e-05, 'epoch': 0.88}
 88%|████████▊ | 42350/48008 [6:05:23<46:23,  2.03it/s] 88%|████████▊ | 42351/48008 [6:05:24<44:24,  2.12it/s] 88%|████████▊ | 42352/48008 [6:05:24<45:15,  2.08it/s] 88%|████████▊ | 42353/48008 [6:05:25<43:34,  2.16it/s] 88%|████████▊ | 42354/48008 [6:05:25<44:13,  2.13it/s] 88%|████████▊ | 42355/48008 [6:05:26<42:49,  2.20it/s] 88%|████████▊ | 42356/48008 [6:05:26<43:31,  2.16it/s] 88%|████████▊ | 42357/48008 [6:05:27<44:13,  2.13it/s] 88%|████████▊ | 42358/48008 [6:05:27<44:41,  2.11it/s] 88%|████████▊ | 42359/48008 [6:05:27<43:04,  2.19it/s] 88%|████████▊ | 42360/48008 [6:05:29<1:05:39,  1.43it/s] 88%|████████▊ | 42361/48008 [6:05:29<1:00:36,  1.55it/s] 88%|████████▊ | 42362/48008 [6:05:30<55:58,  1.68it/s]   88%|████████▊ | 42363/48008 [6:05:30<52:52,  1.78it/s] 88%|████████▊ | 42364/48008 [6:05:31<50:42,  1.85it/s] 88%|████████▊ | 42365/48008 [6:05:31<49:08,  1.91it/s] 88%|████████▊ | 42366/48008 [6:05:32<47:49,  1.97it/s] 88%|████████▊ | 42367/48008 [6:05:32<46:53,  2.00it/s] 88%|████████▊ | 42368/48008 [6:05:33<47:16,  1.99it/s] 88%|████████▊ | 42369/48008 [6:05:33<47:59,  1.96it/s] 88%|████████▊ | 42370/48008 [6:05:34<47:39,  1.97it/s] 88%|████████▊ | 42371/48008 [6:05:34<45:13,  2.08it/s] 88%|████████▊ | 42372/48008 [6:05:34<43:19,  2.17it/s] 88%|████████▊ | 42373/48008 [6:05:35<43:42,  2.15it/s] 88%|████████▊ | 42374/48008 [6:05:35<44:14,  2.12it/s] 88%|████████▊ | 42375/48008 [6:05:36<44:41,  2.10it/s] 88%|████████▊ | 42376/48008 [6:05:36<46:00,  2.04it/s] 88%|████████▊ | 42377/48008 [6:05:37<45:50,  2.05it/s] 88%|████████▊ | 42378/48008 [6:05:37<46:24,  2.02it/s] 88%|████████▊ | 42379/48008 [6:05:38<46:11,  2.03it/s] 88%|████████▊ | 42380/48008 [6:05:38<45:54,  2.04it/s] 88%|████████▊ | 42381/48008 [6:05:39<46:50,  2.00it/s] 88%|████████▊ | 42382/48008 [6:05:39<46:15,  2.03it/s] 88%|████████▊ | 42383/48008 [6:05:40<51:14,  1.83it/s] 88%|████████▊ | 42384/48008 [6:05:41<49:58,  1.88it/s] 88%|████████▊ | 42385/48008 [6:05:41<48:29,  1.93it/s] 88%|████████▊ | 42386/48008 [6:05:42<47:24,  1.98it/s] 88%|████████▊ | 42387/48008 [6:05:42<47:21,  1.98it/s] 88%|████████▊ | 42388/48008 [6:05:43<57:59,  1.62it/s] 88%|████████▊ | 42389/48008 [6:05:44<59:32,  1.57it/s] 88%|████████▊ | 42390/48008 [6:05:44<55:00,  1.70it/s] 88%|████████▊ | 42391/48008 [6:05:45<51:56,  1.80it/s] 88%|████████▊ | 42392/48008 [6:05:45<49:58,  1.87it/s] 88%|████████▊ | 42393/48008 [6:05:46<49:14,  1.90it/s] 88%|████████▊ | 42394/48008 [6:05:46<46:16,  2.02it/s] 88%|████████▊ | 42395/48008 [6:05:46<46:02,  2.03it/s] 88%|████████▊ | 42396/48008 [6:05:47<46:18,  2.02it/s] 88%|████████▊ | 42397/48008 [6:05:47<44:11,  2.12it/s] 88%|████████▊ | 42398/48008 [6:05:48<44:21,  2.11it/s] 88%|████████▊ | 42399/48008 [6:05:48<44:23,  2.11it/s] 88%|████████▊ | 42400/48008 [6:05:49<45:44,  2.04it/s]                                                       {'loss': 4.2607, 'grad_norm': 0.09388250857591629, 'learning_rate': 2.336693884352608e-05, 'epoch': 0.88}
 88%|████████▊ | 42400/48008 [6:05:49<45:44,  2.04it/s] 88%|████████▊ | 42401/48008 [6:05:49<43:46,  2.13it/s] 88%|████████▊ | 42402/48008 [6:05:50<42:28,  2.20it/s] 88%|████████▊ | 42403/48008 [6:05:50<41:25,  2.26it/s] 88%|████████▊ | 42404/48008 [6:05:51<42:30,  2.20it/s] 88%|████████▊ | 42405/48008 [6:05:51<44:00,  2.12it/s] 88%|████████▊ | 42406/48008 [6:05:52<42:34,  2.19it/s] 88%|████████▊ | 42407/48008 [6:05:52<45:03,  2.07it/s] 88%|████████▊ | 42408/48008 [6:05:53<46:44,  2.00it/s] 88%|████████▊ | 42409/48008 [6:05:53<44:25,  2.10it/s] 88%|████████▊ | 42410/48008 [6:05:54<46:13,  2.02it/s] 88%|████████▊ | 42411/48008 [6:05:54<45:52,  2.03it/s] 88%|████████▊ | 42412/48008 [6:05:55<45:24,  2.05it/s] 88%|████████▊ | 42413/48008 [6:05:55<45:59,  2.03it/s] 88%|████████▊ | 42414/48008 [6:05:56<51:14,  1.82it/s] 88%|████████▊ | 42415/48008 [6:05:56<50:05,  1.86it/s] 88%|████████▊ | 42416/48008 [6:05:57<48:26,  1.92it/s] 88%|████████▊ | 42417/48008 [6:05:57<47:25,  1.96it/s] 88%|████████▊ | 42418/48008 [6:05:58<47:18,  1.97it/s] 88%|████████▊ | 42419/48008 [6:05:58<46:39,  2.00it/s] 88%|████████▊ | 42420/48008 [6:05:59<46:04,  2.02it/s] 88%|████████▊ | 42421/48008 [6:05:59<46:17,  2.01it/s] 88%|████████▊ | 42422/48008 [6:06:00<46:49,  1.99it/s] 88%|████████▊ | 42423/48008 [6:06:00<46:11,  2.02it/s] 88%|████████▊ | 42424/48008 [6:06:01<43:53,  2.12it/s] 88%|████████▊ | 42425/48008 [6:06:01<45:41,  2.04it/s] 88%|████████▊ | 42426/48008 [6:06:02<45:22,  2.05it/s] 88%|████████▊ | 42427/48008 [6:06:02<45:41,  2.04it/s] 88%|████████▊ | 42428/48008 [6:06:03<43:36,  2.13it/s] 88%|████████▊ | 42429/48008 [6:06:03<45:12,  2.06it/s] 88%|████████▊ | 42430/48008 [6:06:04<44:59,  2.07it/s] 88%|████████▊ | 42431/48008 [6:06:04<45:57,  2.02it/s] 88%|████████▊ | 42432/48008 [6:06:05<46:17,  2.01it/s] 88%|████████▊ | 42433/48008 [6:06:05<45:39,  2.04it/s] 88%|████████▊ | 42434/48008 [6:06:06<45:16,  2.05it/s] 88%|████████▊ | 42435/48008 [6:06:06<44:59,  2.06it/s] 88%|████████▊ | 42436/48008 [6:06:07<45:57,  2.02it/s] 88%|████████▊ | 42437/48008 [6:06:07<45:31,  2.04it/s] 88%|████████▊ | 42438/48008 [6:06:07<45:22,  2.05it/s] 88%|████████▊ | 42439/48008 [6:06:08<46:13,  2.01it/s] 88%|████████▊ | 42440/48008 [6:06:08<43:56,  2.11it/s] 88%|████████▊ | 42441/48008 [6:06:09<42:21,  2.19it/s] 88%|████████▊ | 42442/48008 [6:06:09<43:08,  2.15it/s] 88%|████████▊ | 42443/48008 [6:06:10<41:45,  2.22it/s] 88%|████████▊ | 42444/48008 [6:06:10<40:51,  2.27it/s] 88%|████████▊ | 42445/48008 [6:06:11<42:58,  2.16it/s] 88%|████████▊ | 42446/48008 [6:06:11<48:45,  1.90it/s] 88%|████████▊ | 42447/48008 [6:06:12<47:36,  1.95it/s] 88%|████████▊ | 42448/48008 [6:06:12<45:04,  2.06it/s] 88%|████████▊ | 42449/48008 [6:06:13<46:08,  2.01it/s] 88%|████████▊ | 42450/48008 [6:06:13<46:47,  1.98it/s]                                                       {'loss': 4.2123, 'grad_norm': 0.09799240529537201, 'learning_rate': 2.3158640226628898e-05, 'epoch': 0.88}
 88%|████████▊ | 42450/48008 [6:06:13<46:47,  1.98it/s] 88%|████████▊ | 42451/48008 [6:06:14<47:12,  1.96it/s] 88%|████████▊ | 42452/48008 [6:06:14<46:25,  1.99it/s] 88%|████████▊ | 42453/48008 [6:06:16<1:07:15,  1.38it/s] 88%|████████▊ | 42454/48008 [6:06:16<58:39,  1.58it/s]   88%|████████▊ | 42455/48008 [6:06:16<54:20,  1.70it/s] 88%|████████▊ | 42456/48008 [6:06:17<51:20,  1.80it/s] 88%|████████▊ | 42457/48008 [6:06:17<50:12,  1.84it/s] 88%|████████▊ | 42458/48008 [6:06:18<50:14,  1.84it/s] 88%|████████▊ | 42459/48008 [6:06:18<48:27,  1.91it/s] 88%|████████▊ | 42460/48008 [6:06:19<45:27,  2.03it/s] 88%|████████▊ | 42461/48008 [6:06:20<1:06:32,  1.39it/s] 88%|████████▊ | 42462/48008 [6:06:21<58:01,  1.59it/s]   88%|████████▊ | 42463/48008 [6:06:21<53:54,  1.71it/s] 88%|████████▊ | 42464/48008 [6:06:21<50:55,  1.81it/s] 88%|████████▊ | 42465/48008 [6:06:22<49:43,  1.86it/s] 88%|████████▊ | 42466/48008 [6:06:22<46:19,  1.99it/s] 88%|████████▊ | 42467/48008 [6:06:23<46:18,  1.99it/s] 88%|████████▊ | 42468/48008 [6:06:23<46:20,  1.99it/s] 88%|████████▊ | 42469/48008 [6:06:24<46:48,  1.97it/s] 88%|████████▊ | 42470/48008 [6:06:24<44:19,  2.08it/s] 88%|████████▊ | 42471/48008 [6:06:26<1:06:01,  1.40it/s] 88%|████████▊ | 42472/48008 [6:06:26<56:45,  1.63it/s]   88%|████████▊ | 42473/48008 [6:06:26<52:59,  1.74it/s] 88%|████████▊ | 42474/48008 [6:06:27<48:32,  1.90it/s] 88%|████████▊ | 42475/48008 [6:06:27<47:13,  1.95it/s] 88%|████████▊ | 42476/48008 [6:06:28<46:16,  1.99it/s] 88%|████████▊ | 42477/48008 [6:06:28<46:49,  1.97it/s] 88%|████████▊ | 42478/48008 [6:06:29<46:41,  1.97it/s] 88%|████████▊ | 42479/48008 [6:06:29<45:59,  2.00it/s] 88%|████████▊ | 42480/48008 [6:06:30<46:14,  1.99it/s] 88%|████████▊ | 42481/48008 [6:06:30<45:44,  2.01it/s] 88%|████████▊ | 42482/48008 [6:06:31<45:22,  2.03it/s] 88%|████████▊ | 42483/48008 [6:06:31<46:33,  1.98it/s] 88%|████████▊ | 42484/48008 [6:06:32<44:06,  2.09it/s] 88%|████████▊ | 42485/48008 [6:06:32<45:14,  2.03it/s] 88%|████████▊ | 42486/48008 [6:06:33<45:41,  2.01it/s] 88%|████████▊ | 42487/48008 [6:06:33<43:27,  2.12it/s] 89%|████████▊ | 42488/48008 [6:06:34<44:23,  2.07it/s] 89%|████████▊ | 42489/48008 [6:06:34<44:19,  2.08it/s] 89%|████████▊ | 42490/48008 [6:06:35<44:58,  2.04it/s] 89%|████████▊ | 42491/48008 [6:06:35<44:44,  2.06it/s] 89%|████████▊ | 42492/48008 [6:06:36<42:41,  2.15it/s] 89%|████████▊ | 42493/48008 [6:06:36<43:19,  2.12it/s] 89%|████████▊ | 42494/48008 [6:06:37<45:02,  2.04it/s] 89%|████████▊ | 42495/48008 [6:06:37<43:01,  2.14it/s] 89%|████████▊ | 42496/48008 [6:06:38<43:23,  2.12it/s] 89%|████████▊ | 42497/48008 [6:06:38<43:40,  2.10it/s] 89%|████████▊ | 42498/48008 [6:06:39<44:25,  2.07it/s] 89%|████████▊ | 42499/48008 [6:06:39<44:55,  2.04it/s] 89%|████████▊ | 42500/48008 [6:06:40<45:26,  2.02it/s]                                                       {'loss': 4.2117, 'grad_norm': 0.09837429225444794, 'learning_rate': 2.2950341609731712e-05, 'epoch': 0.89}
 89%|████████▊ | 42500/48008 [6:06:40<45:26,  2.02it/s] 89%|████████▊ | 42501/48008 [6:06:40<45:11,  2.03it/s] 89%|████████▊ | 42502/48008 [6:06:40<43:01,  2.13it/s] 89%|████████▊ | 42503/48008 [6:06:41<44:49,  2.05it/s] 89%|████████▊ | 42504/48008 [6:06:42<55:23,  1.66it/s] 89%|████████▊ | 42505/48008 [6:06:43<1:02:55,  1.46it/s] 89%|████████▊ | 42506/48008 [6:06:43<55:33,  1.65it/s]   89%|████████▊ | 42507/48008 [6:06:44<52:07,  1.76it/s] 89%|████████▊ | 42508/48008 [6:06:44<49:42,  1.84it/s] 89%|████████▊ | 42509/48008 [6:06:45<49:09,  1.86it/s] 89%|████████▊ | 42510/48008 [6:06:46<58:42,  1.56it/s] 89%|████████▊ | 42511/48008 [6:06:46<55:16,  1.66it/s] 89%|████████▊ | 42512/48008 [6:06:47<51:54,  1.76it/s] 89%|████████▊ | 42513/48008 [6:06:47<49:29,  1.85it/s] 89%|████████▊ | 42514/48008 [6:06:48<1:09:01,  1.33it/s] 89%|████████▊ | 42515/48008 [6:06:49<59:46,  1.53it/s]   89%|████████▊ | 42516/48008 [6:06:49<55:08,  1.66it/s] 89%|████████▊ | 42517/48008 [6:06:50<51:54,  1.76it/s] 89%|████████▊ | 42518/48008 [6:06:50<50:01,  1.83it/s] 89%|████████▊ | 42519/48008 [6:06:51<48:19,  1.89it/s] 89%|████████▊ | 42520/48008 [6:06:51<48:08,  1.90it/s] 89%|████████▊ | 42521/48008 [6:06:52<46:56,  1.95it/s] 89%|████████▊ | 42522/48008 [6:06:52<46:39,  1.96it/s] 89%|████████▊ | 42523/48008 [6:06:53<45:51,  1.99it/s] 89%|████████▊ | 42524/48008 [6:06:53<43:34,  2.10it/s] 89%|████████▊ | 42525/48008 [6:06:54<43:42,  2.09it/s] 89%|████████▊ | 42526/48008 [6:06:54<43:40,  2.09it/s] 89%|████████▊ | 42527/48008 [6:06:54<43:48,  2.09it/s] 89%|████████▊ | 42528/48008 [6:06:55<43:47,  2.09it/s] 89%|████████▊ | 42529/48008 [6:06:55<42:03,  2.17it/s] 89%|████████▊ | 42530/48008 [6:06:56<40:53,  2.23it/s] 89%|████████▊ | 42531/48008 [6:06:56<39:59,  2.28it/s] 89%|████████▊ | 42532/48008 [6:06:57<41:15,  2.21it/s] 89%|████████▊ | 42533/48008 [6:06:57<40:21,  2.26it/s] 89%|████████▊ | 42534/48008 [6:06:58<42:01,  2.17it/s] 89%|████████▊ | 42535/48008 [6:06:58<42:39,  2.14it/s] 89%|████████▊ | 42536/48008 [6:06:59<43:03,  2.12it/s] 89%|████████▊ | 42537/48008 [6:06:59<41:30,  2.20it/s] 89%|████████▊ | 42538/48008 [6:06:59<42:07,  2.16it/s] 89%|████████▊ | 42539/48008 [6:07:00<43:42,  2.09it/s] 89%|████████▊ | 42540/48008 [6:07:00<44:25,  2.05it/s] 89%|████████▊ | 42541/48008 [6:07:01<45:56,  1.98it/s] 89%|████████▊ | 42542/48008 [6:07:02<56:07,  1.62it/s] 89%|████████▊ | 42543/48008 [6:07:02<52:26,  1.74it/s] 89%|████████▊ | 42544/48008 [6:07:03<49:46,  1.83it/s] 89%|████████▊ | 42545/48008 [6:07:03<46:10,  1.97it/s] 89%|████████▊ | 42546/48008 [6:07:04<45:26,  2.00it/s] 89%|████████▊ | 42547/48008 [6:07:04<45:01,  2.02it/s] 89%|████████▊ | 42548/48008 [6:07:05<44:36,  2.04it/s] 89%|████████▊ | 42549/48008 [6:07:05<45:02,  2.02it/s] 89%|████████▊ | 42550/48008 [6:07:06<44:42,  2.03it/s]                                                       {'loss': 4.263, 'grad_norm': 0.09854531288146973, 'learning_rate': 2.274204299283453e-05, 'epoch': 0.89} 89%|████████▊ | 42550/48008 [6:07:06<44:42,  2.03it/s]
 89%|████████▊ | 42551/48008 [6:07:06<42:43,  2.13it/s] 89%|████████▊ | 42552/48008 [6:07:07<43:06,  2.11it/s] 89%|████████▊ | 42553/48008 [6:07:07<44:58,  2.02it/s] 89%|████████▊ | 42554/48008 [6:07:08<42:51,  2.12it/s] 89%|████████▊ | 42555/48008 [6:07:08<41:17,  2.20it/s] 89%|████████▊ | 42556/48008 [6:07:08<42:06,  2.16it/s] 89%|████████▊ | 42557/48008 [6:07:09<40:45,  2.23it/s] 89%|████████▊ | 42558/48008 [6:07:09<43:13,  2.10it/s] 89%|████████▊ | 42559/48008 [6:07:10<44:31,  2.04it/s] 89%|████████▊ | 42560/48008 [6:07:10<45:12,  2.01it/s] 89%|████████▊ | 42561/48008 [6:07:11<45:25,  2.00it/s] 89%|████████▊ | 42562/48008 [6:07:11<44:56,  2.02it/s] 89%|████████▊ | 42563/48008 [6:07:12<44:33,  2.04it/s] 89%|████████▊ | 42564/48008 [6:07:12<44:17,  2.05it/s] 89%|████████▊ | 42565/48008 [6:07:13<42:20,  2.14it/s] 89%|████████▊ | 42566/48008 [6:07:13<42:45,  2.12it/s] 89%|████████▊ | 42567/48008 [6:07:14<43:59,  2.06it/s] 89%|████████▊ | 42568/48008 [6:07:14<44:20,  2.04it/s] 89%|████████▊ | 42569/48008 [6:07:15<44:54,  2.02it/s] 89%|████████▊ | 42570/48008 [6:07:16<1:05:40,  1.38it/s] 89%|████████▊ | 42571/48008 [6:07:17<1:00:00,  1.51it/s] 89%|████████▊ | 42572/48008 [6:07:17<56:05,  1.62it/s]   89%|████████▊ | 42573/48008 [6:07:18<50:36,  1.79it/s] 89%|████████▊ | 42574/48008 [6:07:18<49:27,  1.83it/s] 89%|████████▊ | 42575/48008 [6:07:19<47:37,  1.90it/s] 89%|████████▊ | 42576/48008 [6:07:19<46:26,  1.95it/s] 89%|████████▊ | 42577/48008 [6:07:20<46:14,  1.96it/s] 89%|████████▊ | 42578/48008 [6:07:20<43:40,  2.07it/s] 89%|████████▊ | 42579/48008 [6:07:20<41:50,  2.16it/s] 89%|████████▊ | 42580/48008 [6:07:21<42:11,  2.14it/s] 89%|████████▊ | 42581/48008 [6:07:21<42:36,  2.12it/s] 89%|████████▊ | 42582/48008 [6:07:22<42:46,  2.11it/s] 89%|████████▊ | 42583/48008 [6:07:22<44:06,  2.05it/s] 89%|████████▊ | 42584/48008 [6:07:23<45:02,  2.01it/s] 89%|████████▊ | 42585/48008 [6:07:23<44:35,  2.03it/s] 89%|████████▊ | 42586/48008 [6:07:24<44:51,  2.01it/s] 89%|████████▊ | 42587/48008 [6:07:24<45:00,  2.01it/s] 89%|████████▊ | 42588/48008 [6:07:25<44:36,  2.03it/s] 89%|████████▊ | 42589/48008 [6:07:25<44:14,  2.04it/s] 89%|████████▊ | 42590/48008 [6:07:26<44:01,  2.05it/s] 89%|████████▊ | 42591/48008 [6:07:26<43:53,  2.06it/s] 89%|████████▊ | 42592/48008 [6:07:27<45:22,  1.99it/s] 89%|████████▊ | 42593/48008 [6:07:27<42:58,  2.10it/s] 89%|████████▊ | 42594/48008 [6:07:28<43:08,  2.09it/s] 89%|████████▊ | 42595/48008 [6:07:28<41:28,  2.18it/s] 89%|████████▊ | 42596/48008 [6:07:29<42:41,  2.11it/s] 89%|████████▊ | 42597/48008 [6:07:29<42:54,  2.10it/s] 89%|████████▊ | 42598/48008 [6:07:30<43:09,  2.09it/s] 89%|████████▊ | 42599/48008 [6:07:30<43:13,  2.09it/s] 89%|████████▊ | 42600/48008 [6:07:31<44:24,  2.03it/s]                                                       {'loss': 4.2298, 'grad_norm': 0.10248022526502609, 'learning_rate': 2.2533744375937347e-05, 'epoch': 0.89} 89%|████████▊ | 42600/48008 [6:07:31<44:24,  2.03it/s]
 89%|████████▊ | 42601/48008 [6:07:31<45:10,  1.99it/s] 89%|████████▊ | 42602/48008 [6:07:32<44:43,  2.01it/s] 89%|████████▊ | 42603/48008 [6:07:32<45:17,  1.99it/s] 89%|████████▊ | 42604/48008 [6:07:33<46:12,  1.95it/s] 89%|████████▊ | 42605/48008 [6:07:33<45:17,  1.99it/s] 89%|████████▊ | 42606/48008 [6:07:34<42:56,  2.10it/s] 89%|████████▊ | 42607/48008 [6:07:34<48:15,  1.87it/s] 89%|████████▉ | 42608/48008 [6:07:35<44:59,  2.00it/s] 89%|████████▉ | 42609/48008 [6:07:36<55:07,  1.63it/s] 89%|████████▉ | 42610/48008 [6:07:36<51:38,  1.74it/s] 89%|████████▉ | 42611/48008 [6:07:36<49:09,  1.83it/s] 89%|████████▉ | 42612/48008 [6:07:37<48:55,  1.84it/s] 89%|████████▉ | 42613/48008 [6:07:38<47:04,  1.91it/s] 89%|████████▉ | 42614/48008 [6:07:38<46:03,  1.95it/s] 89%|████████▉ | 42615/48008 [6:07:38<45:12,  1.99it/s] 89%|████████▉ | 42616/48008 [6:07:39<45:35,  1.97it/s] 89%|████████▉ | 42617/48008 [6:07:39<44:47,  2.01it/s] 89%|████████▉ | 42618/48008 [6:07:40<44:16,  2.03it/s] 89%|████████▉ | 42619/48008 [6:07:40<44:33,  2.02it/s] 89%|████████▉ | 42620/48008 [6:07:41<45:12,  1.99it/s] 89%|████████▉ | 42621/48008 [6:07:41<44:32,  2.02it/s] 89%|████████▉ | 42622/48008 [6:07:42<44:06,  2.04it/s] 89%|████████▉ | 42623/48008 [6:07:42<43:54,  2.04it/s] 89%|████████▉ | 42624/48008 [6:07:43<44:25,  2.02it/s] 89%|████████▉ | 42625/48008 [6:07:43<45:11,  1.99it/s] 89%|████████▉ | 42626/48008 [6:07:44<44:34,  2.01it/s] 89%|████████▉ | 42627/48008 [6:07:44<45:40,  1.96it/s] 89%|████████▉ | 42628/48008 [6:07:45<43:08,  2.08it/s] 89%|████████▉ | 42629/48008 [6:07:46<53:47,  1.67it/s] 89%|████████▉ | 42630/48008 [6:07:46<48:49,  1.84it/s] 89%|████████▉ | 42631/48008 [6:07:47<45:21,  1.98it/s] 89%|████████▉ | 42632/48008 [6:07:47<44:31,  2.01it/s] 89%|████████▉ | 42633/48008 [6:07:48<44:06,  2.03it/s] 89%|████████▉ | 42634/48008 [6:07:48<42:05,  2.13it/s] 89%|████████▉ | 42635/48008 [6:07:48<43:09,  2.07it/s] 89%|████████▉ | 42636/48008 [6:07:49<43:12,  2.07it/s] 89%|████████▉ | 42637/48008 [6:07:49<43:20,  2.07it/s] 89%|████████▉ | 42638/48008 [6:07:50<41:22,  2.16it/s] 89%|████████▉ | 42639/48008 [6:07:50<40:15,  2.22it/s] 89%|████████▉ | 42640/48008 [6:07:51<46:12,  1.94it/s] 89%|████████▉ | 42641/48008 [6:07:51<46:02,  1.94it/s] 89%|████████▉ | 42642/48008 [6:07:52<45:06,  1.98it/s] 89%|████████▉ | 42643/48008 [6:07:52<42:40,  2.10it/s] 89%|████████▉ | 42644/48008 [6:07:53<42:42,  2.09it/s] 89%|████████▉ | 42645/48008 [6:07:53<41:04,  2.18it/s] 89%|████████▉ | 42646/48008 [6:07:54<42:42,  2.09it/s] 89%|████████▉ | 42647/48008 [6:07:54<42:46,  2.09it/s] 89%|████████▉ | 42648/48008 [6:07:55<42:47,  2.09it/s] 89%|████████▉ | 42649/48008 [6:07:55<43:30,  2.05it/s] 89%|████████▉ | 42650/48008 [6:07:56<44:26,  2.01it/s]                                                       {'loss': 4.2619, 'grad_norm': 0.09904161095619202, 'learning_rate': 2.232544575904016e-05, 'epoch': 0.89}
 89%|████████▉ | 42650/48008 [6:07:56<44:26,  2.01it/s] 89%|████████▉ | 42651/48008 [6:07:56<44:07,  2.02it/s] 89%|████████▉ | 42652/48008 [6:07:57<43:48,  2.04it/s] 89%|████████▉ | 42653/48008 [6:07:57<43:32,  2.05it/s] 89%|████████▉ | 42654/48008 [6:07:58<43:18,  2.06it/s] 89%|████████▉ | 42655/48008 [6:07:58<43:10,  2.07it/s] 89%|████████▉ | 42656/48008 [6:07:59<43:40,  2.04it/s] 89%|████████▉ | 42657/48008 [6:07:59<43:58,  2.03it/s] 89%|████████▉ | 42658/48008 [6:08:00<48:48,  1.83it/s] 89%|████████▉ | 42659/48008 [6:08:00<47:06,  1.89it/s] 89%|████████▉ | 42660/48008 [6:08:01<51:04,  1.74it/s] 89%|████████▉ | 42661/48008 [6:08:02<48:40,  1.83it/s] 89%|████████▉ | 42662/48008 [6:08:02<45:07,  1.97it/s] 89%|████████▉ | 42663/48008 [6:08:02<45:32,  1.96it/s] 89%|████████▉ | 42664/48008 [6:08:03<42:56,  2.07it/s] 89%|████████▉ | 42665/48008 [6:08:03<41:13,  2.16it/s] 89%|████████▉ | 42666/48008 [6:08:04<41:38,  2.14it/s] 89%|████████▉ | 42667/48008 [6:08:04<41:59,  2.12it/s] 89%|████████▉ | 42668/48008 [6:08:05<43:15,  2.06it/s] 89%|████████▉ | 42669/48008 [6:08:05<44:15,  2.01it/s] 89%|████████▉ | 42670/48008 [6:08:06<44:46,  1.99it/s] 89%|████████▉ | 42671/48008 [6:08:06<45:45,  1.94it/s] 89%|████████▉ | 42672/48008 [6:08:07<43:08,  2.06it/s] 89%|████████▉ | 42673/48008 [6:08:07<44:37,  1.99it/s] 89%|████████▉ | 42674/48008 [6:08:08<42:17,  2.10it/s] 89%|████████▉ | 42675/48008 [6:08:08<40:40,  2.19it/s] 89%|████████▉ | 42676/48008 [6:08:09<39:33,  2.25it/s] 89%|████████▉ | 42677/48008 [6:08:09<40:23,  2.20it/s] 89%|████████▉ | 42678/48008 [6:08:09<41:08,  2.16it/s] 89%|████████▉ | 42679/48008 [6:08:10<42:21,  2.10it/s] 89%|████████▉ | 42680/48008 [6:08:10<42:20,  2.10it/s] 89%|████████▉ | 42681/48008 [6:08:11<42:32,  2.09it/s] 89%|████████▉ | 42682/48008 [6:08:11<40:51,  2.17it/s] 89%|████████▉ | 42683/48008 [6:08:12<41:26,  2.14it/s] 89%|████████▉ | 42684/48008 [6:08:12<42:21,  2.09it/s] 89%|████████▉ | 42685/48008 [6:08:13<42:31,  2.09it/s] 89%|████████▉ | 42686/48008 [6:08:13<43:36,  2.03it/s] 89%|████████▉ | 42687/48008 [6:08:14<43:24,  2.04it/s] 89%|████████▉ | 42688/48008 [6:08:14<43:45,  2.03it/s] 89%|████████▉ | 42689/48008 [6:08:15<41:44,  2.12it/s] 89%|████████▉ | 42690/48008 [6:08:15<43:07,  2.06it/s] 89%|████████▉ | 42691/48008 [6:08:16<43:38,  2.03it/s] 89%|████████▉ | 42692/48008 [6:08:16<43:20,  2.04it/s] 89%|████████▉ | 42693/48008 [6:08:17<43:47,  2.02it/s] 89%|████████▉ | 42694/48008 [6:08:17<43:57,  2.02it/s] 89%|████████▉ | 42695/48008 [6:08:18<43:41,  2.03it/s] 89%|████████▉ | 42696/48008 [6:08:18<43:21,  2.04it/s] 89%|████████▉ | 42697/48008 [6:08:20<1:03:28,  1.39it/s] 89%|████████▉ | 42698/48008 [6:08:20<57:14,  1.55it/s]   89%|████████▉ | 42699/48008 [6:08:20<52:52,  1.67it/s] 89%|████████▉ | 42700/48008 [6:08:21<48:06,  1.84it/s]                                                       {'loss': 4.2421, 'grad_norm': 0.15965816378593445, 'learning_rate': 2.2117147142142978e-05, 'epoch': 0.89}
 89%|████████▉ | 42700/48008 [6:08:21<48:06,  1.84it/s] 89%|████████▉ | 42701/48008 [6:08:21<47:35,  1.86it/s] 89%|████████▉ | 42702/48008 [6:08:22<47:00,  1.88it/s] 89%|████████▉ | 42703/48008 [6:08:22<45:35,  1.94it/s] 89%|████████▉ | 42704/48008 [6:08:23<44:40,  1.98it/s] 89%|████████▉ | 42705/48008 [6:08:23<44:32,  1.98it/s] 89%|████████▉ | 42706/48008 [6:08:24<44:00,  2.01it/s] 89%|████████▉ | 42707/48008 [6:08:24<43:34,  2.03it/s] 89%|████████▉ | 42708/48008 [6:08:25<43:20,  2.04it/s] 89%|████████▉ | 42709/48008 [6:08:25<43:34,  2.03it/s] 89%|████████▉ | 42710/48008 [6:08:26<44:10,  2.00it/s] 89%|████████▉ | 42711/48008 [6:08:26<45:10,  1.95it/s] 89%|████████▉ | 42712/48008 [6:08:28<1:04:39,  1.37it/s] 89%|████████▉ | 42713/48008 [6:08:28<58:59,  1.50it/s]   89%|████████▉ | 42714/48008 [6:08:29<53:58,  1.63it/s] 89%|████████▉ | 42715/48008 [6:08:29<51:07,  1.73it/s] 89%|████████▉ | 42716/48008 [6:08:30<49:35,  1.78it/s] 89%|████████▉ | 42717/48008 [6:08:30<47:20,  1.86it/s] 89%|████████▉ | 42718/48008 [6:08:31<45:49,  1.92it/s] 89%|████████▉ | 42719/48008 [6:08:31<44:41,  1.97it/s] 89%|████████▉ | 42720/48008 [6:08:32<49:06,  1.79it/s] 89%|████████▉ | 42721/48008 [6:08:32<47:02,  1.87it/s] 89%|████████▉ | 42722/48008 [6:08:33<46:17,  1.90it/s] 89%|████████▉ | 42723/48008 [6:08:33<43:21,  2.03it/s] 89%|████████▉ | 42724/48008 [6:08:34<43:04,  2.04it/s] 89%|████████▉ | 42725/48008 [6:08:34<42:54,  2.05it/s] 89%|████████▉ | 42726/48008 [6:08:35<43:30,  2.02it/s] 89%|████████▉ | 42727/48008 [6:08:35<43:12,  2.04it/s] 89%|████████▉ | 42728/48008 [6:08:36<43:28,  2.02it/s] 89%|████████▉ | 42729/48008 [6:08:36<43:36,  2.02it/s] 89%|████████▉ | 42730/48008 [6:08:37<43:45,  2.01it/s] 89%|████████▉ | 42731/48008 [6:08:37<41:37,  2.11it/s] 89%|████████▉ | 42732/48008 [6:08:38<1:02:02,  1.42it/s] 89%|████████▉ | 42733/48008 [6:08:39<57:05,  1.54it/s]   89%|████████▉ | 42734/48008 [6:08:39<52:59,  1.66it/s] 89%|████████▉ | 42735/48008 [6:08:40<50:44,  1.73it/s] 89%|████████▉ | 42736/48008 [6:08:40<48:56,  1.80it/s] 89%|████████▉ | 42737/48008 [6:08:41<46:59,  1.87it/s] 89%|████████▉ | 42738/48008 [6:08:41<43:51,  2.00it/s] 89%|████████▉ | 42739/48008 [6:08:42<43:27,  2.02it/s] 89%|████████▉ | 42740/48008 [6:08:42<41:13,  2.13it/s] 89%|████████▉ | 42741/48008 [6:08:43<42:03,  2.09it/s] 89%|████████▉ | 42742/48008 [6:08:43<42:04,  2.09it/s] 89%|████████▉ | 42743/48008 [6:08:44<42:42,  2.05it/s] 89%|████████▉ | 42744/48008 [6:08:44<43:11,  2.03it/s] 89%|████████▉ | 42745/48008 [6:08:45<41:23,  2.12it/s] 89%|████████▉ | 42746/48008 [6:08:45<43:03,  2.04it/s] 89%|████████▉ | 42747/48008 [6:08:46<42:49,  2.05it/s] 89%|████████▉ | 42748/48008 [6:08:46<42:37,  2.06it/s] 89%|████████▉ | 42749/48008 [6:08:47<43:13,  2.03it/s] 89%|████████▉ | 42750/48008 [6:08:47<44:43,  1.96it/s]                                                       {'loss': 4.2917, 'grad_norm': 0.09714165329933167, 'learning_rate': 2.1908848525245792e-05, 'epoch': 0.89}
 89%|████████▉ | 42750/48008 [6:08:47<44:43,  1.96it/s] 89%|████████▉ | 42751/48008 [6:08:48<45:26,  1.93it/s] 89%|████████▉ | 42752/48008 [6:08:48<46:10,  1.90it/s] 89%|████████▉ | 42753/48008 [6:08:49<45:27,  1.93it/s] 89%|████████▉ | 42754/48008 [6:08:49<45:57,  1.91it/s] 89%|████████▉ | 42755/48008 [6:08:50<45:47,  1.91it/s] 89%|████████▉ | 42756/48008 [6:08:50<43:00,  2.04it/s] 89%|████████▉ | 42757/48008 [6:08:51<42:37,  2.05it/s] 89%|████████▉ | 42758/48008 [6:08:51<42:39,  2.05it/s] 89%|████████▉ | 42759/48008 [6:08:52<42:25,  2.06it/s] 89%|████████▉ | 42760/48008 [6:08:52<39:47,  2.20it/s] 89%|████████▉ | 42761/48008 [6:08:53<40:58,  2.13it/s] 89%|████████▉ | 42762/48008 [6:08:53<41:52,  2.09it/s] 89%|████████▉ | 42763/48008 [6:08:54<42:30,  2.06it/s] 89%|████████▉ | 42764/48008 [6:08:54<42:23,  2.06it/s] 89%|████████▉ | 42765/48008 [6:08:55<43:18,  2.02it/s] 89%|████████▉ | 42766/48008 [6:08:55<41:11,  2.12it/s] 89%|████████▉ | 42767/48008 [6:08:55<41:28,  2.11it/s] 89%|████████▉ | 42768/48008 [6:08:56<42:11,  2.07it/s] 89%|████████▉ | 42769/48008 [6:08:56<42:16,  2.07it/s] 89%|████████▉ | 42770/48008 [6:08:57<43:41,  2.00it/s] 89%|████████▉ | 42771/48008 [6:08:57<44:48,  1.95it/s] 89%|████████▉ | 42772/48008 [6:08:58<43:58,  1.98it/s] 89%|████████▉ | 42773/48008 [6:08:58<43:54,  1.99it/s] 89%|████████▉ | 42774/48008 [6:08:59<44:19,  1.97it/s] 89%|████████▉ | 42775/48008 [6:08:59<43:37,  2.00it/s] 89%|████████▉ | 42776/48008 [6:09:00<43:14,  2.02it/s] 89%|████████▉ | 42777/48008 [6:09:00<43:49,  1.99it/s] 89%|████████▉ | 42778/48008 [6:09:01<43:15,  2.02it/s] 89%|████████▉ | 42779/48008 [6:09:01<43:21,  2.01it/s] 89%|████████▉ | 42780/48008 [6:09:02<42:48,  2.04it/s] 89%|████████▉ | 42781/48008 [6:09:02<42:29,  2.05it/s] 89%|████████▉ | 42782/48008 [6:09:03<42:55,  2.03it/s] 89%|████████▉ | 42783/48008 [6:09:03<40:56,  2.13it/s] 89%|████████▉ | 42784/48008 [6:09:04<39:27,  2.21it/s] 89%|████████▉ | 42785/48008 [6:09:04<45:20,  1.92it/s] 89%|████████▉ | 42786/48008 [6:09:05<44:19,  1.96it/s] 89%|████████▉ | 42787/48008 [6:09:05<43:29,  2.00it/s] 89%|████████▉ | 42788/48008 [6:09:06<43:38,  1.99it/s] 89%|████████▉ | 42789/48008 [6:09:06<43:02,  2.02it/s] 89%|████████▉ | 42790/48008 [6:09:07<41:01,  2.12it/s] 89%|████████▉ | 42791/48008 [6:09:07<41:49,  2.08it/s] 89%|████████▉ | 42792/48008 [6:09:08<41:51,  2.08it/s] 89%|████████▉ | 42793/48008 [6:09:08<43:24,  2.00it/s] 89%|████████▉ | 42794/48008 [6:09:09<42:53,  2.03it/s] 89%|████████▉ | 42795/48008 [6:09:09<43:07,  2.01it/s] 89%|████████▉ | 42796/48008 [6:09:10<42:37,  2.04it/s] 89%|████████▉ | 42797/48008 [6:09:10<42:25,  2.05it/s] 89%|████████▉ | 42798/48008 [6:09:11<42:17,  2.05it/s] 89%|████████▉ | 42799/48008 [6:09:11<43:08,  2.01it/s] 89%|████████▉ | 42800/48008 [6:09:12<43:23,  2.00it/s]                                                       {'loss': 4.2602, 'grad_norm': 0.10227036476135254, 'learning_rate': 2.170054990834861e-05, 'epoch': 0.89}
 89%|████████▉ | 42800/48008 [6:09:12<43:23,  2.00it/s] 89%|████████▉ | 42801/48008 [6:09:12<43:39,  1.99it/s] 89%|████████▉ | 42802/48008 [6:09:13<41:24,  2.10it/s] 89%|████████▉ | 42803/48008 [6:09:13<42:29,  2.04it/s] 89%|████████▉ | 42804/48008 [6:09:14<43:52,  1.98it/s] 89%|████████▉ | 42805/48008 [6:09:14<41:32,  2.09it/s] 89%|████████▉ | 42806/48008 [6:09:15<41:41,  2.08it/s] 89%|████████▉ | 42807/48008 [6:09:15<42:17,  2.05it/s] 89%|████████▉ | 42808/48008 [6:09:16<42:44,  2.03it/s] 89%|████████▉ | 42809/48008 [6:09:16<42:20,  2.05it/s] 89%|████████▉ | 42810/48008 [6:09:17<40:27,  2.14it/s] 89%|████████▉ | 42811/48008 [6:09:17<41:22,  2.09it/s] 89%|████████▉ | 42812/48008 [6:09:18<41:23,  2.09it/s] 89%|████████▉ | 42813/48008 [6:09:18<41:28,  2.09it/s] 89%|████████▉ | 42814/48008 [6:09:19<41:28,  2.09it/s] 89%|████████▉ | 42815/48008 [6:09:19<39:52,  2.17it/s] 89%|████████▉ | 42816/48008 [6:09:20<45:30,  1.90it/s] 89%|████████▉ | 42817/48008 [6:09:20<45:24,  1.91it/s] 89%|████████▉ | 42818/48008 [6:09:21<44:49,  1.93it/s] 89%|████████▉ | 42819/48008 [6:09:21<44:35,  1.94it/s] 89%|████████▉ | 42820/48008 [6:09:22<44:20,  1.95it/s] 89%|████████▉ | 42821/48008 [6:09:22<43:32,  1.99it/s] 89%|████████▉ | 42822/48008 [6:09:23<41:15,  2.10it/s] 89%|████████▉ | 42823/48008 [6:09:23<39:39,  2.18it/s] 89%|████████▉ | 42824/48008 [6:09:23<38:32,  2.24it/s] 89%|████████▉ | 42825/48008 [6:09:24<40:00,  2.16it/s] 89%|████████▉ | 42826/48008 [6:09:24<38:49,  2.22it/s] 89%|████████▉ | 42827/48008 [6:09:25<40:14,  2.15it/s] 89%|████████▉ | 42828/48008 [6:09:25<38:57,  2.22it/s] 89%|████████▉ | 42829/48008 [6:09:26<40:48,  2.11it/s] 89%|████████▉ | 42830/48008 [6:09:26<42:05,  2.05it/s] 89%|████████▉ | 42831/48008 [6:09:27<41:51,  2.06it/s] 89%|████████▉ | 42832/48008 [6:09:27<40:01,  2.16it/s] 89%|████████▉ | 42833/48008 [6:09:28<38:45,  2.23it/s] 89%|████████▉ | 42834/48008 [6:09:28<37:51,  2.28it/s] 89%|████████▉ | 42835/48008 [6:09:28<38:55,  2.21it/s] 89%|████████▉ | 42836/48008 [6:09:29<40:41,  2.12it/s] 89%|████████▉ | 42837/48008 [6:09:29<40:55,  2.11it/s] 89%|████████▉ | 42838/48008 [6:09:30<42:30,  2.03it/s] 89%|████████▉ | 42839/48008 [6:09:31<42:42,  2.02it/s] 89%|████████▉ | 42840/48008 [6:09:31<43:02,  2.00it/s] 89%|████████▉ | 42841/48008 [6:09:31<42:36,  2.02it/s] 89%|████████▉ | 42842/48008 [6:09:32<42:13,  2.04it/s] 89%|████████▉ | 42843/48008 [6:09:32<41:50,  2.06it/s] 89%|████████▉ | 42844/48008 [6:09:33<42:15,  2.04it/s] 89%|████████▉ | 42845/48008 [6:09:33<42:29,  2.02it/s] 89%|████████▉ | 42846/48008 [6:09:34<42:05,  2.04it/s] 89%|████████▉ | 42847/48008 [6:09:35<1:01:55,  1.39it/s] 89%|████████▉ | 42848/48008 [6:09:36<56:47,  1.51it/s]   89%|████████▉ | 42849/48008 [6:09:36<52:02,  1.65it/s] 89%|████████▉ | 42850/48008 [6:09:37<53:42,  1.60it/s]                                                       {'loss': 4.2326, 'grad_norm': 0.09543740749359131, 'learning_rate': 2.1492251291451427e-05, 'epoch': 0.89}
 89%|████████▉ | 42850/48008 [6:09:37<53:42,  1.60it/s] 89%|████████▉ | 42851/48008 [6:09:37<50:31,  1.70it/s] 89%|████████▉ | 42852/48008 [6:09:38<47:38,  1.80it/s] 89%|████████▉ | 42853/48008 [6:09:38<45:48,  1.88it/s] 89%|████████▉ | 42854/48008 [6:09:39<44:18,  1.94it/s] 89%|████████▉ | 42855/48008 [6:09:39<43:54,  1.96it/s] 89%|████████▉ | 42856/48008 [6:09:40<43:42,  1.96it/s] 89%|████████▉ | 42857/48008 [6:09:40<43:00,  2.00it/s] 89%|████████▉ | 42858/48008 [6:09:41<42:31,  2.02it/s] 89%|████████▉ | 42859/48008 [6:09:41<42:42,  2.01it/s] 89%|████████▉ | 42860/48008 [6:09:42<43:17,  1.98it/s] 89%|████████▉ | 42861/48008 [6:09:42<43:19,  1.98it/s] 89%|████████▉ | 42862/48008 [6:09:43<42:50,  2.00it/s] 89%|████████▉ | 42863/48008 [6:09:43<42:22,  2.02it/s] 89%|████████▉ | 42864/48008 [6:09:44<43:03,  1.99it/s] 89%|████████▉ | 42865/48008 [6:09:44<40:45,  2.10it/s] 89%|████████▉ | 42866/48008 [6:09:45<40:55,  2.09it/s] 89%|████████▉ | 42867/48008 [6:09:46<54:51,  1.56it/s] 89%|████████▉ | 42868/48008 [6:09:46<51:19,  1.67it/s] 89%|████████▉ | 42869/48008 [6:09:47<48:45,  1.76it/s] 89%|████████▉ | 42870/48008 [6:09:47<47:01,  1.82it/s] 89%|████████▉ | 42871/48008 [6:09:48<43:36,  1.96it/s] 89%|████████▉ | 42872/48008 [6:09:48<41:13,  2.08it/s] 89%|████████▉ | 42873/48008 [6:09:49<42:09,  2.03it/s] 89%|████████▉ | 42874/48008 [6:09:49<40:18,  2.12it/s] 89%|████████▉ | 42875/48008 [6:09:49<38:52,  2.20it/s] 89%|████████▉ | 42876/48008 [6:09:50<40:36,  2.11it/s] 89%|████████▉ | 42877/48008 [6:09:50<40:38,  2.10it/s] 89%|████████▉ | 42878/48008 [6:09:51<41:14,  2.07it/s] 89%|████████▉ | 42879/48008 [6:09:51<42:10,  2.03it/s] 89%|████████▉ | 42880/48008 [6:09:52<41:52,  2.04it/s] 89%|████████▉ | 42881/48008 [6:09:52<43:04,  1.98it/s] 89%|████████▉ | 42882/48008 [6:09:53<40:51,  2.09it/s] 89%|████████▉ | 42883/48008 [6:09:53<40:54,  2.09it/s] 89%|████████▉ | 42884/48008 [6:09:54<40:55,  2.09it/s] 89%|████████▉ | 42885/48008 [6:09:54<41:32,  2.06it/s] 89%|████████▉ | 42886/48008 [6:09:55<41:21,  2.06it/s] 89%|████████▉ | 42887/48008 [6:09:55<41:11,  2.07it/s] 89%|████████▉ | 42888/48008 [6:09:56<41:10,  2.07it/s] 89%|████████▉ | 42889/48008 [6:09:56<39:26,  2.16it/s] 89%|████████▉ | 42890/48008 [6:09:57<40:32,  2.10it/s] 89%|████████▉ | 42891/48008 [6:09:58<1:00:16,  1.41it/s] 89%|████████▉ | 42892/48008 [6:09:58<54:31,  1.56it/s]   89%|████████▉ | 42893/48008 [6:09:59<50:31,  1.69it/s] 89%|████████▉ | 42894/48008 [6:09:59<47:35,  1.79it/s] 89%|████████▉ | 42895/48008 [6:10:00<44:00,  1.94it/s] 89%|████████▉ | 42896/48008 [6:10:00<43:11,  1.97it/s] 89%|████████▉ | 42897/48008 [6:10:01<42:32,  2.00it/s] 89%|████████▉ | 42898/48008 [6:10:01<42:01,  2.03it/s] 89%|████████▉ | 42899/48008 [6:10:02<42:14,  2.02it/s] 89%|████████▉ | 42900/48008 [6:10:02<41:41,  2.04it/s]                                                       {'loss': 4.2309, 'grad_norm': 0.11715137958526611, 'learning_rate': 2.128395267455424e-05, 'epoch': 0.89} 89%|████████▉ | 42900/48008 [6:10:02<41:41,  2.04it/s]
 89%|████████▉ | 42901/48008 [6:10:03<41:27,  2.05it/s] 89%|████████▉ | 42902/48008 [6:10:03<41:50,  2.03it/s] 89%|████████▉ | 42903/48008 [6:10:04<42:00,  2.03it/s] 89%|████████▉ | 42904/48008 [6:10:04<42:13,  2.01it/s] 89%|████████▉ | 42905/48008 [6:10:05<40:13,  2.11it/s] 89%|████████▉ | 42906/48008 [6:10:05<40:25,  2.10it/s] 89%|████████▉ | 42907/48008 [6:10:06<38:54,  2.18it/s] 89%|████████▉ | 42908/48008 [6:10:06<37:52,  2.24it/s] 89%|████████▉ | 42909/48008 [6:10:06<37:07,  2.29it/s] 89%|████████▉ | 42910/48008 [6:10:07<48:17,  1.76it/s] 89%|████████▉ | 42911/48008 [6:10:08<56:03,  1.52it/s] 89%|████████▉ | 42912/48008 [6:10:09<52:09,  1.63it/s] 89%|████████▉ | 42913/48008 [6:10:09<49:17,  1.72it/s] 89%|████████▉ | 42914/48008 [6:10:10<46:39,  1.82it/s] 89%|████████▉ | 42915/48008 [6:10:10<43:17,  1.96it/s] 89%|████████▉ | 42916/48008 [6:10:10<42:34,  1.99it/s] 89%|████████▉ | 42917/48008 [6:10:11<41:56,  2.02it/s] 89%|████████▉ | 42918/48008 [6:10:11<42:26,  2.00it/s] 89%|████████▉ | 42919/48008 [6:10:12<42:35,  1.99it/s] 89%|████████▉ | 42920/48008 [6:10:13<43:38,  1.94it/s] 89%|████████▉ | 42921/48008 [6:10:13<41:05,  2.06it/s] 89%|████████▉ | 42922/48008 [6:10:13<41:37,  2.04it/s] 89%|████████▉ | 42923/48008 [6:10:14<39:40,  2.14it/s] 89%|████████▉ | 42924/48008 [6:10:14<38:26,  2.20it/s] 89%|████████▉ | 42925/48008 [6:10:15<39:46,  2.13it/s] 89%|████████▉ | 42926/48008 [6:10:15<40:42,  2.08it/s] 89%|████████▉ | 42927/48008 [6:10:16<41:17,  2.05it/s] 89%|████████▉ | 42928/48008 [6:10:16<41:46,  2.03it/s] 89%|████████▉ | 42929/48008 [6:10:17<39:47,  2.13it/s] 89%|████████▉ | 42930/48008 [6:10:17<41:10,  2.06it/s] 89%|████████▉ | 42931/48008 [6:10:18<41:02,  2.06it/s] 89%|████████▉ | 42932/48008 [6:10:18<39:16,  2.15it/s] 89%|████████▉ | 42933/48008 [6:10:19<39:37,  2.13it/s] 89%|████████▉ | 42934/48008 [6:10:19<39:59,  2.11it/s] 89%|████████▉ | 42935/48008 [6:10:20<50:15,  1.68it/s] 89%|████████▉ | 42936/48008 [6:10:21<48:43,  1.73it/s] 89%|████████▉ | 42937/48008 [6:10:21<46:49,  1.80it/s] 89%|████████▉ | 42938/48008 [6:10:22<46:29,  1.82it/s] 89%|████████▉ | 42939/48008 [6:10:22<44:34,  1.90it/s] 89%|████████▉ | 42940/48008 [6:10:23<43:25,  1.95it/s] 89%|████████▉ | 42941/48008 [6:10:23<43:08,  1.96it/s] 89%|████████▉ | 42942/48008 [6:10:24<1:02:05,  1.36it/s] 89%|████████▉ | 42943/48008 [6:10:25<55:29,  1.52it/s]   89%|████████▉ | 42944/48008 [6:10:25<51:00,  1.65it/s] 89%|████████▉ | 42945/48008 [6:10:26<47:45,  1.77it/s] 89%|████████▉ | 42946/48008 [6:10:26<43:58,  1.92it/s] 89%|████████▉ | 42947/48008 [6:10:27<42:58,  1.96it/s] 89%|████████▉ | 42948/48008 [6:10:27<42:53,  1.97it/s] 89%|████████▉ | 42949/48008 [6:10:28<42:49,  1.97it/s] 89%|████████▉ | 42950/48008 [6:10:29<1:01:50,  1.36it/s]                                                         {'loss': 4.2172, 'grad_norm': 0.08832751959562302, 'learning_rate': 2.1075654057657058e-05, 'epoch': 0.89} 89%|████████▉ | 42950/48008 [6:10:29<1:01:50,  1.36it/s]
 89%|████████▉ | 42951/48008 [6:10:29<55:58,  1.51it/s]   89%|████████▉ | 42952/48008 [6:10:30<52:53,  1.59it/s] 89%|████████▉ | 42953/48008 [6:10:30<49:47,  1.69it/s] 89%|████████▉ | 42954/48008 [6:10:31<47:42,  1.77it/s] 89%|████████▉ | 42955/48008 [6:10:31<45:27,  1.85it/s] 89%|████████▉ | 42956/48008 [6:10:32<44:36,  1.89it/s] 89%|████████▉ | 42957/48008 [6:10:32<43:52,  1.92it/s] 89%|████████▉ | 42958/48008 [6:10:33<43:43,  1.93it/s] 89%|████████▉ | 42959/48008 [6:10:33<42:38,  1.97it/s] 89%|████████▉ | 42960/48008 [6:10:34<42:02,  2.00it/s] 89%|████████▉ | 42961/48008 [6:10:34<41:40,  2.02it/s] 89%|████████▉ | 42962/48008 [6:10:35<41:16,  2.04it/s] 89%|████████▉ | 42963/48008 [6:10:35<42:28,  1.98it/s] 89%|████████▉ | 42964/48008 [6:10:36<40:15,  2.09it/s] 89%|████████▉ | 42965/48008 [6:10:36<40:56,  2.05it/s] 89%|████████▉ | 42966/48008 [6:10:37<39:09,  2.15it/s] 89%|████████▉ | 42967/48008 [6:10:37<40:15,  2.09it/s] 90%|████████▉ | 42968/48008 [6:10:38<40:51,  2.06it/s] 90%|████████▉ | 42969/48008 [6:10:38<41:20,  2.03it/s] 90%|████████▉ | 42970/48008 [6:10:39<41:07,  2.04it/s] 90%|████████▉ | 42971/48008 [6:10:39<41:21,  2.03it/s] 90%|████████▉ | 42972/48008 [6:10:40<39:28,  2.13it/s] 90%|████████▉ | 42973/48008 [6:10:40<39:49,  2.11it/s] 90%|████████▉ | 42974/48008 [6:10:41<40:37,  2.07it/s] 90%|████████▉ | 42975/48008 [6:10:41<41:24,  2.03it/s] 90%|████████▉ | 42976/48008 [6:10:42<41:36,  2.02it/s] 90%|████████▉ | 42977/48008 [6:10:42<41:09,  2.04it/s] 90%|████████▉ | 42978/48008 [6:10:43<41:22,  2.03it/s] 90%|████████▉ | 42979/48008 [6:10:43<40:53,  2.05it/s] 90%|████████▉ | 42980/48008 [6:10:44<40:39,  2.06it/s] 90%|████████▉ | 42981/48008 [6:10:44<40:23,  2.07it/s] 90%|████████▉ | 42982/48008 [6:10:45<40:17,  2.08it/s] 90%|████████▉ | 42983/48008 [6:10:45<38:34,  2.17it/s] 90%|████████▉ | 42984/48008 [6:10:45<39:07,  2.14it/s] 90%|████████▉ | 42985/48008 [6:10:46<40:25,  2.07it/s] 90%|████████▉ | 42986/48008 [6:10:47<45:20,  1.85it/s] 90%|████████▉ | 42987/48008 [6:10:47<43:52,  1.91it/s] 90%|████████▉ | 42988/48008 [6:10:48<43:38,  1.92it/s] 90%|████████▉ | 42989/48008 [6:10:48<43:16,  1.93it/s] 90%|████████▉ | 42990/48008 [6:10:49<40:43,  2.05it/s] 90%|████████▉ | 42991/48008 [6:10:49<41:11,  2.03it/s] 90%|████████▉ | 42992/48008 [6:10:50<40:50,  2.05it/s] 90%|████████▉ | 42993/48008 [6:10:50<50:34,  1.65it/s] 90%|████████▉ | 42994/48008 [6:10:51<45:49,  1.82it/s] 90%|████████▉ | 42995/48008 [6:10:52<1:03:41,  1.31it/s] 90%|████████▉ | 42996/48008 [6:10:53<57:59,  1.44it/s]   90%|████████▉ | 42997/48008 [6:10:53<54:05,  1.54it/s] 90%|████████▉ | 42998/48008 [6:10:54<50:37,  1.65it/s] 90%|████████▉ | 42999/48008 [6:10:54<48:00,  1.74it/s] 90%|████████▉ | 43000/48008 [6:10:55<46:19,  1.80it/s]                                                       {'loss': 4.2762, 'grad_norm': 0.09006328880786896, 'learning_rate': 2.0867355440759875e-05, 'epoch': 0.9} 90%|████████▉ | 43000/48008 [6:10:55<46:19,  1.80it/s]
 90%|████████▉ | 43001/48008 [6:10:55<42:53,  1.95it/s] 90%|████████▉ | 43002/48008 [6:10:56<42:02,  1.98it/s] 90%|████████▉ | 43003/48008 [6:10:56<42:26,  1.97it/s] 90%|████████▉ | 43004/48008 [6:10:57<40:03,  2.08it/s] 90%|████████▉ | 43005/48008 [6:10:57<41:00,  2.03it/s] 90%|████████▉ | 43006/48008 [6:10:58<41:11,  2.02it/s] 90%|████████▉ | 43007/48008 [6:10:58<39:16,  2.12it/s] 90%|████████▉ | 43008/48008 [6:10:59<40:51,  2.04it/s] 90%|████████▉ | 43009/48008 [6:10:59<39:00,  2.14it/s] 90%|████████▉ | 43010/48008 [6:10:59<39:56,  2.09it/s] 90%|████████▉ | 43011/48008 [6:11:00<44:53,  1.85it/s] 90%|████████▉ | 43012/48008 [6:11:01<44:28,  1.87it/s] 90%|████████▉ | 43013/48008 [6:11:01<41:25,  2.01it/s] 90%|████████▉ | 43014/48008 [6:11:02<41:00,  2.03it/s] 90%|████████▉ | 43015/48008 [6:11:02<42:04,  1.98it/s] 90%|████████▉ | 43016/48008 [6:11:03<41:29,  2.01it/s] 90%|████████▉ | 43017/48008 [6:11:03<41:06,  2.02it/s] 90%|████████▉ | 43018/48008 [6:11:04<40:45,  2.04it/s] 90%|████████▉ | 43019/48008 [6:11:04<40:27,  2.05it/s] 90%|████████▉ | 43020/48008 [6:11:04<40:11,  2.07it/s] 90%|████████▉ | 43021/48008 [6:11:05<40:03,  2.07it/s] 90%|████████▉ | 43022/48008 [6:11:05<40:35,  2.05it/s] 90%|████████▉ | 43023/48008 [6:11:06<50:23,  1.65it/s] 90%|████████▉ | 43024/48008 [6:11:07<45:38,  1.82it/s] 90%|████████▉ | 43025/48008 [6:11:07<43:54,  1.89it/s] 90%|████████▉ | 43026/48008 [6:11:08<40:57,  2.03it/s] 90%|████████▉ | 43027/48008 [6:11:08<40:35,  2.04it/s] 90%|████████▉ | 43028/48008 [6:11:09<41:24,  2.00it/s] 90%|████████▉ | 43029/48008 [6:11:09<39:18,  2.11it/s] 90%|████████▉ | 43030/48008 [6:11:10<40:05,  2.07it/s] 90%|████████▉ | 43031/48008 [6:11:10<38:25,  2.16it/s] 90%|████████▉ | 43032/48008 [6:11:10<37:04,  2.24it/s] 90%|████████▉ | 43033/48008 [6:11:11<38:49,  2.14it/s] 90%|████████▉ | 43034/48008 [6:11:11<37:27,  2.21it/s] 90%|████████▉ | 43035/48008 [6:11:12<38:36,  2.15it/s] 90%|████████▉ | 43036/48008 [6:11:12<39:01,  2.12it/s] 90%|████████▉ | 43037/48008 [6:11:14<1:05:02,  1.27it/s] 90%|████████▉ | 43038/48008 [6:11:14<57:32,  1.44it/s]   90%|████████▉ | 43039/48008 [6:11:15<53:18,  1.55it/s] 90%|████████▉ | 43040/48008 [6:11:16<59:07,  1.40it/s] 90%|████████▉ | 43041/48008 [6:11:16<53:21,  1.55it/s] 90%|████████▉ | 43042/48008 [6:11:17<50:17,  1.65it/s] 90%|████████▉ | 43043/48008 [6:11:18<1:09:31,  1.19it/s] 90%|████████▉ | 43044/48008 [6:11:19<1:01:32,  1.34it/s] 90%|████████▉ | 43045/48008 [6:11:19<55:31,  1.49it/s]   90%|████████▉ | 43046/48008 [6:11:20<51:40,  1.60it/s] 90%|████████▉ | 43047/48008 [6:11:20<46:26,  1.78it/s] 90%|████████▉ | 43048/48008 [6:11:21<44:27,  1.86it/s] 90%|████████▉ | 43049/48008 [6:11:22<57:28,  1.44it/s] 90%|████████▉ | 43050/48008 [6:11:22<53:03,  1.56it/s]                                                       {'loss': 4.2037, 'grad_norm': 0.10283636301755905, 'learning_rate': 2.065905682386269e-05, 'epoch': 0.9}
 90%|████████▉ | 43050/48008 [6:11:22<53:03,  1.56it/s] 90%|████████▉ | 43051/48008 [6:11:23<49:04,  1.68it/s] 90%|████████▉ | 43052/48008 [6:11:23<47:08,  1.75it/s] 90%|████████▉ | 43053/48008 [6:11:24<43:19,  1.91it/s] 90%|████████▉ | 43054/48008 [6:11:24<43:34,  1.89it/s] 90%|████████▉ | 43055/48008 [6:11:25<42:17,  1.95it/s] 90%|████████▉ | 43056/48008 [6:11:25<42:27,  1.94it/s] 90%|████████▉ | 43057/48008 [6:11:26<42:14,  1.95it/s] 90%|████████▉ | 43058/48008 [6:11:26<41:30,  1.99it/s] 90%|████████▉ | 43059/48008 [6:11:27<40:59,  2.01it/s] 90%|████████▉ | 43060/48008 [6:11:27<40:33,  2.03it/s] 90%|████████▉ | 43061/48008 [6:11:27<38:32,  2.14it/s] 90%|████████▉ | 43062/48008 [6:11:28<37:11,  2.22it/s] 90%|████████▉ | 43063/48008 [6:11:28<38:29,  2.14it/s] 90%|████████▉ | 43064/48008 [6:11:29<38:52,  2.12it/s] 90%|████████▉ | 43065/48008 [6:11:29<39:42,  2.07it/s] 90%|████████▉ | 43066/48008 [6:11:30<39:36,  2.08it/s] 90%|████████▉ | 43067/48008 [6:11:31<53:48,  1.53it/s] 90%|████████▉ | 43068/48008 [6:11:31<49:33,  1.66it/s] 90%|████████▉ | 43069/48008 [6:11:32<46:35,  1.77it/s] 90%|████████▉ | 43070/48008 [6:11:32<45:53,  1.79it/s] 90%|████████▉ | 43071/48008 [6:11:33<44:39,  1.84it/s] 90%|████████▉ | 43072/48008 [6:11:33<43:04,  1.91it/s] 90%|████████▉ | 43073/48008 [6:11:35<1:01:13,  1.34it/s] 90%|████████▉ | 43074/48008 [6:11:35<56:09,  1.46it/s]   90%|████████▉ | 43075/48008 [6:11:36<51:05,  1.61it/s] 90%|████████▉ | 43076/48008 [6:11:36<47:43,  1.72it/s] 90%|████████▉ | 43077/48008 [6:11:37<46:51,  1.75it/s] 90%|████████▉ | 43078/48008 [6:11:37<45:14,  1.82it/s] 90%|████████▉ | 43079/48008 [6:11:38<44:27,  1.85it/s] 90%|████████▉ | 43080/48008 [6:11:38<42:59,  1.91it/s] 90%|████████▉ | 43081/48008 [6:11:39<41:56,  1.96it/s] 90%|████████▉ | 43082/48008 [6:11:39<41:14,  1.99it/s] 90%|████████▉ | 43083/48008 [6:11:40<45:33,  1.80it/s] 90%|████████▉ | 43084/48008 [6:11:40<44:39,  1.84it/s] 90%|████████▉ | 43085/48008 [6:11:41<43:03,  1.91it/s] 90%|████████▉ | 43086/48008 [6:11:41<42:00,  1.95it/s] 90%|████████▉ | 43087/48008 [6:11:42<41:46,  1.96it/s] 90%|████████▉ | 43088/48008 [6:11:42<41:02,  2.00it/s] 90%|████████▉ | 43089/48008 [6:11:43<38:56,  2.11it/s] 90%|████████▉ | 43090/48008 [6:11:43<39:09,  2.09it/s] 90%|████████▉ | 43091/48008 [6:11:44<39:49,  2.06it/s] 90%|████████▉ | 43092/48008 [6:11:44<39:34,  2.07it/s] 90%|████████▉ | 43093/48008 [6:11:45<39:28,  2.07it/s] 90%|████████▉ | 43094/48008 [6:11:45<39:20,  2.08it/s] 90%|████████▉ | 43095/48008 [6:11:46<39:21,  2.08it/s] 90%|████████▉ | 43096/48008 [6:11:46<37:47,  2.17it/s] 90%|████████▉ | 43097/48008 [6:11:47<39:13,  2.09it/s] 90%|████████▉ | 43098/48008 [6:11:47<39:15,  2.08it/s] 90%|████████▉ | 43099/48008 [6:11:47<37:43,  2.17it/s] 90%|████████▉ | 43100/48008 [6:11:48<38:06,  2.15it/s]                                                       {'loss': 4.2528, 'grad_norm': 0.10407720506191254, 'learning_rate': 2.0450758206965507e-05, 'epoch': 0.9}
 90%|████████▉ | 43100/48008 [6:11:48<38:06,  2.15it/s] 90%|████████▉ | 43101/48008 [6:11:49<43:14,  1.89it/s] 90%|████████▉ | 43102/48008 [6:11:49<42:59,  1.90it/s] 90%|████████▉ | 43103/48008 [6:11:50<41:55,  1.95it/s] 90%|████████▉ | 43104/48008 [6:11:50<42:12,  1.94it/s] 90%|████████▉ | 43105/48008 [6:11:51<50:58,  1.60it/s] 90%|████████▉ | 43106/48008 [6:11:51<45:55,  1.78it/s] 90%|████████▉ | 43107/48008 [6:11:52<44:31,  1.83it/s] 90%|████████▉ | 43108/48008 [6:11:52<43:27,  1.88it/s] 90%|████████▉ | 43109/48008 [6:11:53<42:08,  1.94it/s] 90%|████████▉ | 43110/48008 [6:11:54<46:01,  1.77it/s] 90%|████████▉ | 43111/48008 [6:11:54<45:27,  1.80it/s] 90%|████████▉ | 43112/48008 [6:11:55<43:37,  1.87it/s] 90%|████████▉ | 43113/48008 [6:11:55<42:20,  1.93it/s] 90%|████████▉ | 43114/48008 [6:11:56<41:51,  1.95it/s] 90%|████████▉ | 43115/48008 [6:11:56<40:59,  1.99it/s] 90%|████████▉ | 43116/48008 [6:11:57<40:59,  1.99it/s] 90%|████████▉ | 43117/48008 [6:11:57<40:59,  1.99it/s] 90%|████████▉ | 43118/48008 [6:11:58<40:28,  2.01it/s] 90%|████████▉ | 43119/48008 [6:11:58<41:37,  1.96it/s] 90%|████████▉ | 43120/48008 [6:11:59<41:21,  1.97it/s] 90%|████████▉ | 43121/48008 [6:11:59<45:26,  1.79it/s] 90%|████████▉ | 43122/48008 [6:12:00<44:01,  1.85it/s] 90%|████████▉ | 43123/48008 [6:12:00<43:12,  1.88it/s] 90%|████████▉ | 43124/48008 [6:12:01<41:57,  1.94it/s] 90%|████████▉ | 43125/48008 [6:12:01<41:43,  1.95it/s] 90%|████████▉ | 43126/48008 [6:12:02<41:51,  1.94it/s] 90%|████████▉ | 43127/48008 [6:12:02<41:31,  1.96it/s] 90%|████████▉ | 43128/48008 [6:12:03<41:21,  1.97it/s] 90%|████████▉ | 43129/48008 [6:12:03<41:20,  1.97it/s] 90%|████████▉ | 43130/48008 [6:12:04<40:42,  2.00it/s] 90%|████████▉ | 43131/48008 [6:12:05<49:52,  1.63it/s] 90%|████████▉ | 43132/48008 [6:12:05<48:00,  1.69it/s] 90%|████████▉ | 43133/48008 [6:12:06<43:41,  1.86it/s] 90%|████████▉ | 43134/48008 [6:12:06<42:21,  1.92it/s] 90%|████████▉ | 43135/48008 [6:12:07<41:25,  1.96it/s] 90%|████████▉ | 43136/48008 [6:12:07<40:45,  1.99it/s] 90%|████████▉ | 43137/48008 [6:12:07<40:08,  2.02it/s] 90%|████████▉ | 43138/48008 [6:12:08<39:43,  2.04it/s] 90%|████████▉ | 43139/48008 [6:12:08<40:09,  2.02it/s] 90%|████████▉ | 43140/48008 [6:12:09<38:17,  2.12it/s] 90%|████████▉ | 43141/48008 [6:12:09<39:54,  2.03it/s] 90%|████████▉ | 43142/48008 [6:12:10<40:32,  2.00it/s] 90%|████████▉ | 43143/48008 [6:12:10<40:59,  1.98it/s] 90%|████████▉ | 43144/48008 [6:12:11<41:01,  1.98it/s] 90%|████████▉ | 43145/48008 [6:12:11<40:25,  2.01it/s] 90%|████████▉ | 43146/48008 [6:12:12<40:00,  2.03it/s] 90%|████████▉ | 43147/48008 [6:12:12<39:45,  2.04it/s] 90%|████████▉ | 43148/48008 [6:12:13<39:31,  2.05it/s] 90%|████████▉ | 43149/48008 [6:12:13<39:23,  2.06it/s] 90%|████████▉ | 43150/48008 [6:12:14<39:53,  2.03it/s]                                                       {'loss': 4.2924, 'grad_norm': 0.10137855261564255, 'learning_rate': 2.024245959006832e-05, 'epoch': 0.9}
 90%|████████▉ | 43150/48008 [6:12:14<39:53,  2.03it/s] 90%|████████▉ | 43151/48008 [6:12:14<38:05,  2.13it/s] 90%|████████▉ | 43152/48008 [6:12:15<38:57,  2.08it/s] 90%|████████▉ | 43153/48008 [6:12:15<38:59,  2.08it/s] 90%|████████▉ | 43154/48008 [6:12:16<38:57,  2.08it/s] 90%|████████▉ | 43155/48008 [6:12:16<38:57,  2.08it/s] 90%|████████▉ | 43156/48008 [6:12:17<39:28,  2.05it/s] 90%|████████▉ | 43157/48008 [6:12:17<39:50,  2.03it/s] 90%|████████▉ | 43158/48008 [6:12:18<39:36,  2.04it/s] 90%|████████▉ | 43159/48008 [6:12:18<40:53,  1.98it/s] 90%|████████▉ | 43160/48008 [6:12:19<41:30,  1.95it/s] 90%|████████▉ | 43161/48008 [6:12:19<40:39,  1.99it/s] 90%|████████▉ | 43162/48008 [6:12:20<40:12,  2.01it/s] 90%|████████▉ | 43163/48008 [6:12:20<38:13,  2.11it/s] 90%|████████▉ | 43164/48008 [6:12:21<39:22,  2.05it/s] 90%|████████▉ | 43165/48008 [6:12:21<39:13,  2.06it/s] 90%|████████▉ | 43166/48008 [6:12:22<39:39,  2.04it/s] 90%|████████▉ | 43167/48008 [6:12:22<39:21,  2.05it/s] 90%|████████▉ | 43168/48008 [6:12:23<39:09,  2.06it/s] 90%|████████▉ | 43169/48008 [6:12:23<39:39,  2.03it/s] 90%|████████▉ | 43170/48008 [6:12:24<39:20,  2.05it/s] 90%|████████▉ | 43171/48008 [6:12:25<48:53,  1.65it/s] 90%|████████▉ | 43172/48008 [6:12:25<46:28,  1.73it/s] 90%|████████▉ | 43173/48008 [6:12:25<42:34,  1.89it/s] 90%|████████▉ | 43174/48008 [6:12:26<42:01,  1.92it/s] 90%|████████▉ | 43175/48008 [6:12:27<59:39,  1.35it/s] 90%|████████▉ | 43176/48008 [6:12:28<53:28,  1.51it/s] 90%|████████▉ | 43177/48008 [6:12:28<49:04,  1.64it/s] 90%|████████▉ | 43178/48008 [6:12:29<46:39,  1.73it/s] 90%|████████▉ | 43179/48008 [6:12:29<45:06,  1.78it/s] 90%|████████▉ | 43180/48008 [6:12:30<41:29,  1.94it/s] 90%|████████▉ | 43181/48008 [6:12:30<40:35,  1.98it/s] 90%|████████▉ | 43182/48008 [6:12:31<40:56,  1.96it/s] 90%|████████▉ | 43183/48008 [6:12:31<40:09,  2.00it/s] 90%|████████▉ | 43184/48008 [6:12:32<38:09,  2.11it/s] 90%|████████▉ | 43185/48008 [6:12:32<38:16,  2.10it/s] 90%|████████▉ | 43186/48008 [6:12:33<57:07,  1.41it/s] 90%|████████▉ | 43187/48008 [6:12:34<52:10,  1.54it/s] 90%|████████▉ | 43188/48008 [6:12:34<48:00,  1.67it/s] 90%|████████▉ | 43189/48008 [6:12:35<43:42,  1.84it/s] 90%|████████▉ | 43190/48008 [6:12:35<42:13,  1.90it/s] 90%|████████▉ | 43191/48008 [6:12:36<41:09,  1.95it/s] 90%|████████▉ | 43192/48008 [6:12:36<40:20,  1.99it/s] 90%|████████▉ | 43193/48008 [6:12:37<40:19,  1.99it/s] 90%|████████▉ | 43194/48008 [6:12:37<38:16,  2.10it/s] 90%|████████▉ | 43195/48008 [6:12:37<36:46,  2.18it/s] 90%|████████▉ | 43196/48008 [6:12:38<37:24,  2.14it/s] 90%|████████▉ | 43197/48008 [6:12:38<36:21,  2.21it/s] 90%|████████▉ | 43198/48008 [6:12:39<35:32,  2.26it/s] 90%|████████▉ | 43199/48008 [6:12:39<34:51,  2.30it/s] 90%|████████▉ | 43200/48008 [6:12:40<37:00,  2.17it/s]                                                       {'loss': 4.1886, 'grad_norm': 0.09564979374408722, 'learning_rate': 2.003416097317114e-05, 'epoch': 0.9}
 90%|████████▉ | 43200/48008 [6:12:40<37:00,  2.17it/s] 90%|████████▉ | 43201/48008 [6:12:40<37:44,  2.12it/s] 90%|████████▉ | 43202/48008 [6:12:41<38:54,  2.06it/s] 90%|████████▉ | 43203/48008 [6:12:41<39:24,  2.03it/s] 90%|████████▉ | 43204/48008 [6:12:42<40:00,  2.00it/s] 90%|████████▉ | 43205/48008 [6:12:42<38:01,  2.11it/s] 90%|████████▉ | 43206/48008 [6:12:43<38:11,  2.10it/s] 90%|████████▉ | 43207/48008 [6:12:43<35:54,  2.23it/s] 90%|█████████ | 43208/48008 [6:12:44<37:32,  2.13it/s] 90%|█████████ | 43209/48008 [6:12:44<38:49,  2.06it/s] 90%|█████████ | 43210/48008 [6:12:45<38:44,  2.06it/s] 90%|█████████ | 43211/48008 [6:12:45<39:44,  2.01it/s] 90%|█████████ | 43212/48008 [6:12:46<40:47,  1.96it/s] 90%|█████████ | 43213/48008 [6:12:46<39:59,  2.00it/s] 90%|█████████ | 43214/48008 [6:12:47<40:28,  1.97it/s] 90%|█████████ | 43215/48008 [6:12:47<39:56,  2.00it/s] 90%|█████████ | 43216/48008 [6:12:48<39:34,  2.02it/s] 90%|█████████ | 43217/48008 [6:12:48<39:19,  2.03it/s] 90%|█████████ | 43218/48008 [6:12:48<37:27,  2.13it/s] 90%|█████████ | 43219/48008 [6:12:49<38:15,  2.09it/s] 90%|█████████ | 43220/48008 [6:12:50<43:00,  1.86it/s] 90%|█████████ | 43221/48008 [6:12:50<42:12,  1.89it/s] 90%|█████████ | 43222/48008 [6:12:51<42:27,  1.88it/s] 90%|█████████ | 43223/48008 [6:12:51<41:51,  1.91it/s] 90%|█████████ | 43224/48008 [6:12:52<41:46,  1.91it/s] 90%|█████████ | 43225/48008 [6:12:52<39:09,  2.04it/s] 90%|█████████ | 43226/48008 [6:12:53<43:32,  1.83it/s] 90%|█████████ | 43227/48008 [6:12:53<42:35,  1.87it/s] 90%|█████████ | 43228/48008 [6:12:54<41:17,  1.93it/s] 90%|█████████ | 43229/48008 [6:12:54<40:23,  1.97it/s] 90%|█████████ | 43230/48008 [6:12:55<40:37,  1.96it/s] 90%|█████████ | 43231/48008 [6:12:56<44:35,  1.79it/s] 90%|█████████ | 43232/48008 [6:12:56<42:47,  1.86it/s] 90%|█████████ | 43233/48008 [6:12:56<41:31,  1.92it/s] 90%|█████████ | 43234/48008 [6:12:57<41:08,  1.93it/s] 90%|█████████ | 43235/48008 [6:12:57<38:44,  2.05it/s] 90%|█████████ | 43236/48008 [6:12:58<39:10,  2.03it/s] 90%|█████████ | 43237/48008 [6:12:58<38:55,  2.04it/s] 90%|█████████ | 43238/48008 [6:12:59<37:12,  2.14it/s] 90%|█████████ | 43239/48008 [6:12:59<35:57,  2.21it/s] 90%|█████████ | 43240/48008 [6:13:00<35:03,  2.27it/s] 90%|█████████ | 43241/48008 [6:13:00<35:55,  2.21it/s] 90%|█████████ | 43242/48008 [6:13:01<37:07,  2.14it/s] 90%|█████████ | 43243/48008 [6:13:01<37:31,  2.12it/s] 90%|█████████ | 43244/48008 [6:13:02<37:48,  2.10it/s] 90%|█████████ | 43245/48008 [6:13:02<37:55,  2.09it/s] 90%|█████████ | 43246/48008 [6:13:02<36:33,  2.17it/s] 90%|█████████ | 43247/48008 [6:13:03<35:30,  2.23it/s] 90%|█████████ | 43248/48008 [6:13:03<36:17,  2.19it/s] 90%|█████████ | 43249/48008 [6:13:04<46:17,  1.71it/s] 90%|█████████ | 43250/48008 [6:13:05<44:20,  1.79it/s]                                                       {'loss': 4.2745, 'grad_norm': 0.1113843321800232, 'learning_rate': 1.9825862356273955e-05, 'epoch': 0.9} 90%|█████████ | 43250/48008 [6:13:05<44:20,  1.79it/s]
 90%|█████████ | 43251/48008 [6:13:05<43:58,  1.80it/s] 90%|█████████ | 43252/48008 [6:13:06<43:13,  1.83it/s] 90%|█████████ | 43253/48008 [6:13:07<51:07,  1.55it/s] 90%|█████████ | 43254/48008 [6:13:07<47:15,  1.68it/s] 90%|█████████ | 43255/48008 [6:13:08<1:02:54,  1.26it/s] 90%|█████████ | 43256/48008 [6:13:09<56:01,  1.41it/s]   90%|█████████ | 43257/48008 [6:13:09<51:35,  1.53it/s] 90%|█████████ | 43258/48008 [6:13:10<47:29,  1.67it/s] 90%|█████████ | 43259/48008 [6:13:10<43:09,  1.83it/s] 90%|█████████ | 43260/48008 [6:13:11<42:12,  1.88it/s] 90%|█████████ | 43261/48008 [6:13:11<40:59,  1.93it/s] 90%|█████████ | 43262/48008 [6:13:12<40:06,  1.97it/s] 90%|█████████ | 43263/48008 [6:13:13<44:04,  1.79it/s] 90%|█████████ | 43264/48008 [6:13:13<43:39,  1.81it/s] 90%|█████████ | 43265/48008 [6:13:14<42:03,  1.88it/s] 90%|█████████ | 43266/48008 [6:13:14<41:50,  1.89it/s] 90%|█████████ | 43267/48008 [6:13:14<39:10,  2.02it/s] 90%|█████████ | 43268/48008 [6:13:15<38:43,  2.04it/s] 90%|█████████ | 43269/48008 [6:13:15<38:27,  2.05it/s] 90%|█████████ | 43270/48008 [6:13:16<38:22,  2.06it/s] 90%|█████████ | 43271/48008 [6:13:16<36:44,  2.15it/s] 90%|█████████ | 43272/48008 [6:13:17<38:04,  2.07it/s] 90%|█████████ | 43273/48008 [6:13:17<38:00,  2.08it/s] 90%|█████████ | 43274/48008 [6:13:18<38:39,  2.04it/s] 90%|█████████ | 43275/48008 [6:13:18<38:24,  2.05it/s] 90%|█████████ | 43276/48008 [6:13:19<38:19,  2.06it/s] 90%|█████████ | 43277/48008 [6:13:19<38:13,  2.06it/s] 90%|█████████ | 43278/48008 [6:13:20<35:46,  2.20it/s] 90%|█████████ | 43279/48008 [6:13:20<36:23,  2.17it/s] 90%|█████████ | 43280/48008 [6:13:21<35:15,  2.23it/s] 90%|█████████ | 43281/48008 [6:13:21<40:38,  1.94it/s] 90%|█████████ | 43282/48008 [6:13:22<39:54,  1.97it/s] 90%|█████████ | 43283/48008 [6:13:22<39:19,  2.00it/s] 90%|█████████ | 43284/48008 [6:13:23<38:51,  2.03it/s] 90%|█████████ | 43285/48008 [6:13:23<38:33,  2.04it/s] 90%|█████████ | 43286/48008 [6:13:24<38:47,  2.03it/s] 90%|█████████ | 43287/48008 [6:13:24<39:00,  2.02it/s] 90%|█████████ | 43288/48008 [6:13:25<37:02,  2.12it/s] 90%|█████████ | 43289/48008 [6:13:25<37:50,  2.08it/s] 90%|█████████ | 43290/48008 [6:13:26<36:14,  2.17it/s] 90%|█████████ | 43291/48008 [6:13:26<36:43,  2.14it/s] 90%|█████████ | 43292/48008 [6:13:26<34:46,  2.26it/s] 90%|█████████ | 43293/48008 [6:13:27<36:11,  2.17it/s] 90%|█████████ | 43294/48008 [6:13:27<36:37,  2.15it/s] 90%|█████████ | 43295/48008 [6:13:28<36:58,  2.12it/s] 90%|█████████ | 43296/48008 [6:13:28<35:40,  2.20it/s] 90%|█████████ | 43297/48008 [6:13:29<37:12,  2.11it/s] 90%|█████████ | 43298/48008 [6:13:29<37:26,  2.10it/s] 90%|█████████ | 43299/48008 [6:13:30<38:28,  2.04it/s] 90%|█████████ | 43300/48008 [6:13:30<39:15,  2.00it/s]                                                       {'loss': 4.2221, 'grad_norm': 0.09805142879486084, 'learning_rate': 1.961756373937677e-05, 'epoch': 0.9}
 90%|█████████ | 43300/48008 [6:13:30<39:15,  2.00it/s] 90%|█████████ | 43301/48008 [6:13:31<38:55,  2.02it/s] 90%|█████████ | 43302/48008 [6:13:31<39:53,  1.97it/s] 90%|█████████ | 43303/48008 [6:13:32<39:45,  1.97it/s] 90%|█████████ | 43304/48008 [6:13:33<43:40,  1.80it/s] 90%|█████████ | 43305/48008 [6:13:33<41:59,  1.87it/s] 90%|█████████ | 43306/48008 [6:13:33<39:10,  2.00it/s] 90%|█████████ | 43307/48008 [6:13:34<38:42,  2.02it/s] 90%|█████████ | 43308/48008 [6:13:34<39:20,  1.99it/s] 90%|█████████ | 43309/48008 [6:13:35<39:19,  1.99it/s] 90%|█████████ | 43310/48008 [6:13:35<39:20,  1.99it/s] 90%|█████████ | 43311/48008 [6:13:36<39:22,  1.99it/s] 90%|█████████ | 43312/48008 [6:13:36<37:19,  2.10it/s] 90%|█████████ | 43313/48008 [6:13:37<38:07,  2.05it/s] 90%|█████████ | 43314/48008 [6:13:37<36:29,  2.14it/s] 90%|█████████ | 43315/48008 [6:13:38<36:48,  2.13it/s] 90%|█████████ | 43316/48008 [6:13:38<37:06,  2.11it/s] 90%|█████████ | 43317/48008 [6:13:39<35:43,  2.19it/s] 90%|█████████ | 43318/48008 [6:13:39<34:44,  2.25it/s] 90%|█████████ | 43319/48008 [6:13:40<35:42,  2.19it/s] 90%|█████████ | 43320/48008 [6:13:40<36:18,  2.15it/s] 90%|█████████ | 43321/48008 [6:13:41<41:10,  1.90it/s] 90%|█████████ | 43322/48008 [6:13:41<38:38,  2.02it/s] 90%|█████████ | 43323/48008 [6:13:42<38:52,  2.01it/s] 90%|█████████ | 43324/48008 [6:13:42<38:23,  2.03it/s] 90%|█████████ | 43325/48008 [6:13:43<39:03,  2.00it/s] 90%|█████████ | 43326/48008 [6:13:43<38:37,  2.02it/s] 90%|█████████ | 43327/48008 [6:13:44<38:50,  2.01it/s] 90%|█████████ | 43328/48008 [6:13:44<39:00,  2.00it/s] 90%|█████████ | 43329/48008 [6:13:45<38:33,  2.02it/s] 90%|█████████ | 43330/48008 [6:13:45<38:12,  2.04it/s] 90%|█████████ | 43331/48008 [6:13:45<36:32,  2.13it/s] 90%|█████████ | 43332/48008 [6:13:46<36:48,  2.12it/s] 90%|█████████ | 43333/48008 [6:13:46<37:52,  2.06it/s] 90%|█████████ | 43334/48008 [6:13:47<36:16,  2.15it/s] 90%|█████████ | 43335/48008 [6:13:47<37:02,  2.10it/s] 90%|█████████ | 43336/48008 [6:13:48<37:10,  2.09it/s] 90%|█████████ | 43337/48008 [6:13:48<37:49,  2.06it/s] 90%|█████████ | 43338/48008 [6:13:49<36:13,  2.15it/s] 90%|█████████ | 43339/48008 [6:13:49<37:04,  2.10it/s] 90%|█████████ | 43340/48008 [6:13:50<37:09,  2.09it/s] 90%|█████████ | 43341/48008 [6:13:50<35:44,  2.18it/s] 90%|█████████ | 43342/48008 [6:13:51<40:51,  1.90it/s] 90%|█████████ | 43343/48008 [6:13:51<40:22,  1.93it/s] 90%|█████████ | 43344/48008 [6:13:52<37:56,  2.05it/s] 90%|█████████ | 43345/48008 [6:13:52<37:44,  2.06it/s] 90%|█████████ | 43346/48008 [6:13:53<42:04,  1.85it/s] 90%|█████████ | 43347/48008 [6:13:54<41:58,  1.85it/s] 90%|█████████ | 43348/48008 [6:13:54<40:33,  1.91it/s] 90%|█████████ | 43349/48008 [6:13:55<40:57,  1.90it/s] 90%|█████████ | 43350/48008 [6:13:55<41:15,  1.88it/s]                                                       {'loss': 4.2132, 'grad_norm': 0.10366765409708023, 'learning_rate': 1.9409265122479587e-05, 'epoch': 0.9} 90%|█████████ | 43350/48008 [6:13:55<41:15,  1.88it/s]
 90%|█████████ | 43351/48008 [6:13:56<40:10,  1.93it/s] 90%|█████████ | 43352/48008 [6:13:56<43:52,  1.77it/s] 90%|█████████ | 43353/48008 [6:13:57<41:55,  1.85it/s] 90%|█████████ | 43354/48008 [6:13:57<41:08,  1.89it/s] 90%|█████████ | 43355/48008 [6:13:58<40:36,  1.91it/s] 90%|█████████ | 43356/48008 [6:13:58<39:41,  1.95it/s] 90%|█████████ | 43357/48008 [6:13:59<38:56,  1.99it/s] 90%|█████████ | 43358/48008 [6:13:59<38:23,  2.02it/s] 90%|█████████ | 43359/48008 [6:14:00<38:05,  2.03it/s] 90%|█████████ | 43360/48008 [6:14:01<46:57,  1.65it/s] 90%|█████████ | 43361/48008 [6:14:01<44:37,  1.74it/s] 90%|█████████ | 43362/48008 [6:14:01<40:55,  1.89it/s] 90%|█████████ | 43363/48008 [6:14:02<40:20,  1.92it/s] 90%|█████████ | 43364/48008 [6:14:02<39:52,  1.94it/s] 90%|█████████ | 43365/48008 [6:14:03<37:26,  2.07it/s] 90%|█████████ | 43366/48008 [6:14:03<37:16,  2.08it/s] 90%|█████████ | 43367/48008 [6:14:04<37:13,  2.08it/s] 90%|█████████ | 43368/48008 [6:14:04<37:49,  2.04it/s] 90%|█████████ | 43369/48008 [6:14:06<55:31,  1.39it/s] 90%|█████████ | 43370/48008 [6:14:06<48:25,  1.60it/s] 90%|█████████ | 43371/48008 [6:14:06<43:32,  1.77it/s] 90%|█████████ | 43372/48008 [6:14:07<42:30,  1.82it/s] 90%|█████████ | 43373/48008 [6:14:07<41:23,  1.87it/s] 90%|█████████ | 43374/48008 [6:14:08<38:38,  2.00it/s] 90%|█████████ | 43375/48008 [6:14:09<42:45,  1.81it/s] 90%|█████████ | 43376/48008 [6:14:09<41:03,  1.88it/s] 90%|█████████ | 43377/48008 [6:14:09<39:50,  1.94it/s] 90%|█████████ | 43378/48008 [6:14:11<56:50,  1.36it/s] 90%|█████████ | 43379/48008 [6:14:11<50:54,  1.52it/s] 90%|█████████ | 43380/48008 [6:14:12<46:46,  1.65it/s] 90%|█████████ | 43381/48008 [6:14:12<43:53,  1.76it/s] 90%|█████████ | 43382/48008 [6:14:13<41:47,  1.84it/s] 90%|█████████ | 43383/48008 [6:14:13<40:53,  1.89it/s] 90%|█████████ | 43384/48008 [6:14:14<40:23,  1.91it/s] 90%|█████████ | 43385/48008 [6:14:14<37:52,  2.03it/s] 90%|█████████ | 43386/48008 [6:14:15<37:36,  2.05it/s] 90%|█████████ | 43387/48008 [6:14:15<37:28,  2.06it/s] 90%|█████████ | 43388/48008 [6:14:15<35:59,  2.14it/s] 90%|█████████ | 43389/48008 [6:14:16<36:46,  2.09it/s] 90%|█████████ | 43390/48008 [6:14:17<37:46,  2.04it/s] 90%|█████████ | 43391/48008 [6:14:18<55:13,  1.39it/s] 90%|█████████ | 43392/48008 [6:14:18<54:09,  1.42it/s] 90%|█████████ | 43393/48008 [6:14:19<49:05,  1.57it/s] 90%|█████████ | 43394/48008 [6:14:19<45:35,  1.69it/s] 90%|█████████ | 43395/48008 [6:14:20<42:57,  1.79it/s] 90%|█████████ | 43396/48008 [6:14:20<41:44,  1.84it/s] 90%|█████████ | 43397/48008 [6:14:21<38:01,  2.02it/s] 90%|█████████ | 43398/48008 [6:14:21<37:44,  2.04it/s] 90%|█████████ | 43399/48008 [6:14:22<38:44,  1.98it/s] 90%|█████████ | 43400/48008 [6:14:22<38:06,  2.01it/s]                                                       {'loss': 4.2742, 'grad_norm': 0.1075090691447258, 'learning_rate': 1.9200966505582404e-05, 'epoch': 0.9} 90%|█████████ | 43400/48008 [6:14:22<38:06,  2.01it/s]
 90%|█████████ | 43401/48008 [6:14:23<36:20,  2.11it/s] 90%|█████████ | 43402/48008 [6:14:23<37:23,  2.05it/s] 90%|█████████ | 43403/48008 [6:14:24<37:19,  2.06it/s] 90%|█████████ | 43404/48008 [6:14:24<35:42,  2.15it/s] 90%|█████████ | 43405/48008 [6:14:25<34:34,  2.22it/s] 90%|█████████ | 43406/48008 [6:14:25<39:37,  1.94it/s] 90%|█████████ | 43407/48008 [6:14:26<38:45,  1.98it/s] 90%|█████████ | 43408/48008 [6:14:26<36:44,  2.09it/s] 90%|█████████ | 43409/48008 [6:14:27<37:20,  2.05it/s] 90%|█████████ | 43410/48008 [6:14:27<37:06,  2.07it/s] 90%|█████████ | 43411/48008 [6:14:28<37:04,  2.07it/s] 90%|█████████ | 43412/48008 [6:14:28<37:26,  2.05it/s] 90%|█████████ | 43413/48008 [6:14:29<38:32,  1.99it/s] 90%|█████████ | 43414/48008 [6:14:29<38:30,  1.99it/s] 90%|█████████ | 43415/48008 [6:14:30<38:56,  1.97it/s] 90%|█████████ | 43416/48008 [6:14:30<38:18,  2.00it/s] 90%|█████████ | 43417/48008 [6:14:31<37:54,  2.02it/s] 90%|█████████ | 43418/48008 [6:14:31<37:27,  2.04it/s] 90%|█████████ | 43419/48008 [6:14:32<38:07,  2.01it/s] 90%|█████████ | 43420/48008 [6:14:32<37:37,  2.03it/s] 90%|█████████ | 43421/48008 [6:14:33<37:49,  2.02it/s] 90%|█████████ | 43422/48008 [6:14:33<38:54,  1.96it/s] 90%|█████████ | 43423/48008 [6:14:34<38:17,  2.00it/s] 90%|█████████ | 43424/48008 [6:14:34<37:49,  2.02it/s] 90%|█████████ | 43425/48008 [6:14:35<38:23,  1.99it/s] 90%|█████████ | 43426/48008 [6:14:35<37:56,  2.01it/s] 90%|█████████ | 43427/48008 [6:14:36<37:33,  2.03it/s] 90%|█████████ | 43428/48008 [6:14:36<37:20,  2.04it/s] 90%|█████████ | 43429/48008 [6:14:36<37:06,  2.06it/s] 90%|█████████ | 43430/48008 [6:14:37<36:59,  2.06it/s] 90%|█████████ | 43431/48008 [6:14:37<36:51,  2.07it/s] 90%|█████████ | 43432/48008 [6:14:38<35:18,  2.16it/s] 90%|█████████ | 43433/48008 [6:14:38<35:40,  2.14it/s] 90%|█████████ | 43434/48008 [6:14:39<36:51,  2.07it/s] 90%|█████████ | 43435/48008 [6:14:39<35:20,  2.16it/s] 90%|█████████ | 43436/48008 [6:14:40<35:42,  2.13it/s] 90%|█████████ | 43437/48008 [6:14:40<37:17,  2.04it/s] 90%|█████████ | 43438/48008 [6:14:41<38:22,  1.98it/s] 90%|█████████ | 43439/48008 [6:14:41<39:09,  1.94it/s] 90%|█████████ | 43440/48008 [6:14:42<38:21,  1.98it/s] 90%|█████████ | 43441/48008 [6:14:42<37:45,  2.02it/s] 90%|█████████ | 43442/48008 [6:14:43<41:49,  1.82it/s] 90%|█████████ | 43443/48008 [6:14:44<57:44,  1.32it/s] 90%|█████████ | 43444/48008 [6:14:45<49:49,  1.53it/s] 90%|█████████ | 43445/48008 [6:14:45<45:46,  1.66it/s] 90%|█████████ | 43446/48008 [6:14:46<43:05,  1.76it/s] 90%|█████████ | 43447/48008 [6:14:46<42:27,  1.79it/s] 91%|█████████ | 43448/48008 [6:14:47<58:13,  1.31it/s] 91%|█████████ | 43449/48008 [6:14:48<52:14,  1.45it/s] 91%|█████████ | 43450/48008 [6:14:48<48:06,  1.58it/s]                                                       {'loss': 4.272, 'grad_norm': 0.10429662466049194, 'learning_rate': 1.899266788868522e-05, 'epoch': 0.91} 91%|█████████ | 43450/48008 [6:14:48<48:06,  1.58it/s]
 91%|█████████ | 43451/48008 [6:14:49<43:11,  1.76it/s] 91%|█████████ | 43452/48008 [6:14:49<41:04,  1.85it/s] 91%|█████████ | 43453/48008 [6:14:50<39:44,  1.91it/s] 91%|█████████ | 43454/48008 [6:14:50<38:43,  1.96it/s] 91%|█████████ | 43455/48008 [6:14:51<36:32,  2.08it/s] 91%|█████████ | 43456/48008 [6:14:52<53:57,  1.41it/s] 91%|█████████ | 43457/48008 [6:14:52<48:43,  1.56it/s] 91%|█████████ | 43458/48008 [6:14:53<45:31,  1.67it/s] 91%|█████████ | 43459/48008 [6:14:53<43:13,  1.75it/s] 91%|█████████ | 43460/48008 [6:14:54<41:11,  1.84it/s] 91%|█████████ | 43461/48008 [6:14:54<40:20,  1.88it/s] 91%|█████████ | 43462/48008 [6:14:55<37:38,  2.01it/s] 91%|█████████ | 43463/48008 [6:14:55<38:10,  1.98it/s] 91%|█████████ | 43464/48008 [6:14:56<38:05,  1.99it/s] 91%|█████████ | 43465/48008 [6:14:56<37:36,  2.01it/s] 91%|█████████ | 43466/48008 [6:14:57<35:45,  2.12it/s] 91%|█████████ | 43467/48008 [6:14:57<35:51,  2.11it/s] 91%|█████████ | 43468/48008 [6:14:58<36:29,  2.07it/s] 91%|█████████ | 43469/48008 [6:14:58<40:48,  1.85it/s] 91%|█████████ | 43470/48008 [6:14:59<37:12,  2.03it/s] 91%|█████████ | 43471/48008 [6:14:59<37:28,  2.02it/s] 91%|█████████ | 43472/48008 [6:15:00<37:07,  2.04it/s] 91%|█████████ | 43473/48008 [6:15:00<36:47,  2.05it/s] 91%|█████████ | 43474/48008 [6:15:01<36:38,  2.06it/s] 91%|█████████ | 43475/48008 [6:15:01<36:59,  2.04it/s] 91%|█████████ | 43476/48008 [6:15:02<36:48,  2.05it/s] 91%|█████████ | 43477/48008 [6:15:02<37:35,  2.01it/s] 91%|█████████ | 43478/48008 [6:15:03<37:13,  2.03it/s] 91%|█████████ | 43479/48008 [6:15:03<37:31,  2.01it/s] 91%|█████████ | 43480/48008 [6:15:04<37:10,  2.03it/s] 91%|█████████ | 43481/48008 [6:15:04<38:14,  1.97it/s] 91%|█████████ | 43482/48008 [6:15:06<55:15,  1.37it/s] 91%|█████████ | 43483/48008 [6:15:06<47:58,  1.57it/s] 91%|█████████ | 43484/48008 [6:15:06<45:25,  1.66it/s] 91%|█████████ | 43485/48008 [6:15:07<44:02,  1.71it/s] 91%|█████████ | 43486/48008 [6:15:08<46:03,  1.64it/s] 91%|█████████ | 43487/48008 [6:15:08<43:41,  1.72it/s] 91%|█████████ | 43488/48008 [6:15:09<41:55,  1.80it/s] 91%|█████████ | 43489/48008 [6:15:09<41:04,  1.83it/s] 91%|█████████ | 43490/48008 [6:15:10<38:07,  1.98it/s] 91%|█████████ | 43491/48008 [6:15:10<36:08,  2.08it/s] 91%|█████████ | 43492/48008 [6:15:11<36:09,  2.08it/s] 91%|█████████ | 43493/48008 [6:15:11<34:42,  2.17it/s] 91%|█████████ | 43494/48008 [6:15:11<35:10,  2.14it/s] 91%|█████████ | 43495/48008 [6:15:12<35:56,  2.09it/s] 91%|█████████ | 43496/48008 [6:15:12<35:55,  2.09it/s] 91%|█████████ | 43497/48008 [6:15:13<36:43,  2.05it/s] 91%|█████████ | 43498/48008 [6:15:13<36:29,  2.06it/s] 91%|█████████ | 43499/48008 [6:15:14<37:55,  1.98it/s] 91%|█████████ | 43500/48008 [6:15:14<37:22,  2.01it/s]                                                       {'loss': 4.2401, 'grad_norm': 0.09944488108158112, 'learning_rate': 1.8784369271788036e-05, 'epoch': 0.91}
 91%|█████████ | 43500/48008 [6:15:14<37:22,  2.01it/s] 91%|█████████ | 43501/48008 [6:15:15<38:26,  1.95it/s] 91%|█████████ | 43502/48008 [6:15:15<37:47,  1.99it/s] 91%|█████████ | 43503/48008 [6:15:16<38:07,  1.97it/s] 91%|█████████ | 43504/48008 [6:15:16<38:18,  1.96it/s] 91%|█████████ | 43505/48008 [6:15:17<37:40,  1.99it/s] 91%|█████████ | 43506/48008 [6:15:17<37:46,  1.99it/s] 91%|█████████ | 43507/48008 [6:15:18<37:54,  1.98it/s] 91%|█████████ | 43508/48008 [6:15:18<35:54,  2.09it/s] 91%|█████████ | 43509/48008 [6:15:19<35:59,  2.08it/s] 91%|█████████ | 43510/48008 [6:15:19<36:32,  2.05it/s] 91%|█████████ | 43511/48008 [6:15:20<36:26,  2.06it/s] 91%|█████████ | 43512/48008 [6:15:20<37:07,  2.02it/s] 91%|█████████ | 43513/48008 [6:15:21<37:38,  1.99it/s] 91%|█████████ | 43514/48008 [6:15:21<37:10,  2.01it/s] 91%|█████████ | 43515/48008 [6:15:22<37:47,  1.98it/s] 91%|█████████ | 43516/48008 [6:15:22<37:07,  2.02it/s] 91%|█████████ | 43517/48008 [6:15:23<35:19,  2.12it/s] 91%|█████████ | 43518/48008 [6:15:23<35:32,  2.11it/s] 91%|█████████ | 43519/48008 [6:15:24<39:56,  1.87it/s] 91%|█████████ | 43520/48008 [6:15:24<39:18,  1.90it/s] 91%|█████████ | 43521/48008 [6:15:25<39:32,  1.89it/s] 91%|█████████ | 43522/48008 [6:15:25<36:57,  2.02it/s] 91%|█████████ | 43523/48008 [6:15:26<36:33,  2.04it/s] 91%|█████████ | 43524/48008 [6:15:26<36:26,  2.05it/s] 91%|█████████ | 43525/48008 [6:15:27<36:50,  2.03it/s] 91%|█████████ | 43526/48008 [6:15:27<37:07,  2.01it/s] 91%|█████████ | 43527/48008 [6:15:28<36:46,  2.03it/s] 91%|█████████ | 43528/48008 [6:15:29<53:42,  1.39it/s] 91%|█████████ | 43529/48008 [6:15:30<48:20,  1.54it/s] 91%|█████████ | 43530/48008 [6:15:30<45:31,  1.64it/s] 91%|█████████ | 43531/48008 [6:15:31<47:03,  1.59it/s] 91%|█████████ | 43532/48008 [6:15:32<52:33,  1.42it/s] 91%|█████████ | 43533/48008 [6:15:32<46:05,  1.62it/s] 91%|█████████ | 43534/48008 [6:15:32<41:33,  1.79it/s] 91%|█████████ | 43535/48008 [6:15:33<38:25,  1.94it/s] 91%|█████████ | 43536/48008 [6:15:33<37:35,  1.98it/s] 91%|█████████ | 43537/48008 [6:15:34<38:00,  1.96it/s] 91%|█████████ | 43538/48008 [6:15:34<37:23,  1.99it/s] 91%|█████████ | 43539/48008 [6:15:35<36:55,  2.02it/s] 91%|█████████ | 43540/48008 [6:15:35<37:23,  1.99it/s] 91%|█████████ | 43541/48008 [6:15:36<36:51,  2.02it/s] 91%|█████████ | 43542/48008 [6:15:37<45:30,  1.64it/s] 91%|█████████ | 43543/48008 [6:15:37<42:33,  1.75it/s] 91%|█████████ | 43544/48008 [6:15:38<40:30,  1.84it/s] 91%|█████████ | 43545/48008 [6:15:38<40:27,  1.84it/s] 91%|█████████ | 43546/48008 [6:15:39<43:16,  1.72it/s] 91%|█████████ | 43547/48008 [6:15:39<41:01,  1.81it/s] 91%|█████████ | 43548/48008 [6:15:40<39:55,  1.86it/s] 91%|█████████ | 43549/48008 [6:15:40<39:28,  1.88it/s] 91%|█████████ | 43550/48008 [6:15:42<55:24,  1.34it/s]                                                       {'loss': 4.2359, 'grad_norm': 0.08919975161552429, 'learning_rate': 1.8576070654890853e-05, 'epoch': 0.91}
 91%|█████████ | 43550/48008 [6:15:42<55:24,  1.34it/s] 91%|█████████ | 43551/48008 [6:15:43<1:06:35,  1.12it/s] 91%|█████████ | 43552/48008 [6:15:43<55:54,  1.33it/s]   91%|█████████ | 43553/48008 [6:15:44<50:46,  1.46it/s] 91%|█████████ | 43554/48008 [6:15:44<46:47,  1.59it/s] 91%|█████████ | 43555/48008 [6:15:45<43:50,  1.69it/s] 91%|█████████ | 43556/48008 [6:15:45<42:13,  1.76it/s] 91%|█████████ | 43557/48008 [6:15:46<41:09,  1.80it/s] 91%|█████████ | 43558/48008 [6:15:46<39:26,  1.88it/s] 91%|█████████ | 43559/48008 [6:15:47<38:52,  1.91it/s] 91%|█████████ | 43560/48008 [6:15:48<42:11,  1.76it/s] 91%|█████████ | 43561/48008 [6:15:48<40:41,  1.82it/s] 91%|█████████ | 43562/48008 [6:15:49<39:05,  1.90it/s] 91%|█████████ | 43563/48008 [6:15:49<37:57,  1.95it/s] 91%|█████████ | 43564/48008 [6:15:50<37:18,  1.99it/s] 91%|█████████ | 43565/48008 [6:15:50<37:43,  1.96it/s] 91%|█████████ | 43566/48008 [6:15:50<35:34,  2.08it/s] 91%|█████████ | 43567/48008 [6:15:51<36:04,  2.05it/s] 91%|█████████ | 43568/48008 [6:15:52<40:13,  1.84it/s] 91%|█████████ | 43569/48008 [6:15:52<37:23,  1.98it/s] 91%|█████████ | 43570/48008 [6:15:53<36:50,  2.01it/s] 91%|█████████ | 43571/48008 [6:15:53<36:29,  2.03it/s] 91%|█████████ | 43572/48008 [6:15:54<53:19,  1.39it/s] 91%|█████████ | 43573/48008 [6:15:55<47:58,  1.54it/s] 91%|█████████ | 43574/48008 [6:15:55<44:07,  1.67it/s] 91%|█████████ | 43575/48008 [6:15:56<41:32,  1.78it/s] 91%|█████████ | 43576/48008 [6:15:56<39:41,  1.86it/s] 91%|█████████ | 43577/48008 [6:15:57<37:00,  2.00it/s] 91%|█████████ | 43578/48008 [6:15:57<37:24,  1.97it/s] 91%|█████████ | 43579/48008 [6:15:58<54:04,  1.37it/s] 91%|█████████ | 43580/48008 [6:15:59<48:26,  1.52it/s] 91%|█████████ | 43581/48008 [6:15:59<44:33,  1.66it/s] 91%|█████████ | 43582/48008 [6:16:00<41:51,  1.76it/s] 91%|█████████ | 43583/48008 [6:16:00<39:52,  1.85it/s] 91%|█████████ | 43584/48008 [6:16:01<37:07,  1.99it/s] 91%|█████████ | 43585/48008 [6:16:01<36:41,  2.01it/s] 91%|█████████ | 43586/48008 [6:16:02<40:33,  1.82it/s] 91%|█████████ | 43587/48008 [6:16:02<37:32,  1.96it/s] 91%|█████████ | 43588/48008 [6:16:03<35:23,  2.08it/s] 91%|█████████ | 43589/48008 [6:16:03<36:02,  2.04it/s] 91%|█████████ | 43590/48008 [6:16:04<35:52,  2.05it/s] 91%|█████████ | 43591/48008 [6:16:04<37:03,  1.99it/s] 91%|█████████ | 43592/48008 [6:16:05<37:01,  1.99it/s] 91%|█████████ | 43593/48008 [6:16:05<36:59,  1.99it/s] 91%|█████████ | 43594/48008 [6:16:06<34:58,  2.10it/s] 91%|█████████ | 43595/48008 [6:16:06<35:09,  2.09it/s] 91%|█████████ | 43596/48008 [6:16:07<35:11,  2.09it/s] 91%|█████████ | 43597/48008 [6:16:07<36:09,  2.03it/s] 91%|█████████ | 43598/48008 [6:16:08<35:54,  2.05it/s] 91%|█████████ | 43599/48008 [6:16:08<35:43,  2.06it/s] 91%|█████████ | 43600/48008 [6:16:09<35:28,  2.07it/s]                                                       {'loss': 4.262, 'grad_norm': 0.1009305790066719, 'learning_rate': 1.836777203799367e-05, 'epoch': 0.91}
 91%|█████████ | 43600/48008 [6:16:09<35:28,  2.07it/s] 91%|█████████ | 43601/48008 [6:16:09<35:28,  2.07it/s] 91%|█████████ | 43602/48008 [6:16:10<35:19,  2.08it/s] 91%|█████████ | 43603/48008 [6:16:10<39:32,  1.86it/s] 91%|█████████ | 43604/48008 [6:16:11<38:42,  1.90it/s] 91%|█████████ | 43605/48008 [6:16:11<37:45,  1.94it/s] 91%|█████████ | 43606/48008 [6:16:12<35:38,  2.06it/s] 91%|█████████ | 43607/48008 [6:16:12<35:31,  2.07it/s] 91%|█████████ | 43608/48008 [6:16:12<34:00,  2.16it/s] 91%|█████████ | 43609/48008 [6:16:13<35:41,  2.05it/s] 91%|█████████ | 43610/48008 [6:16:14<35:37,  2.06it/s] 91%|█████████ | 43611/48008 [6:16:14<35:28,  2.07it/s] 91%|█████████ | 43612/48008 [6:16:15<35:55,  2.04it/s] 91%|█████████ | 43613/48008 [6:16:15<34:15,  2.14it/s] 91%|█████████ | 43614/48008 [6:16:15<35:43,  2.05it/s] 91%|█████████ | 43615/48008 [6:16:16<39:54,  1.83it/s] 91%|█████████ | 43616/48008 [6:16:17<38:29,  1.90it/s] 91%|█████████ | 43617/48008 [6:16:17<38:47,  1.89it/s] 91%|█████████ | 43618/48008 [6:16:18<41:54,  1.75it/s] 91%|█████████ | 43619/48008 [6:16:18<39:56,  1.83it/s] 91%|█████████ | 43620/48008 [6:16:19<37:04,  1.97it/s] 91%|█████████ | 43621/48008 [6:16:19<36:31,  2.00it/s] 91%|█████████ | 43622/48008 [6:16:20<36:35,  2.00it/s] 91%|█████████ | 43623/48008 [6:16:20<36:11,  2.02it/s] 91%|█████████ | 43624/48008 [6:16:21<34:30,  2.12it/s] 91%|█████████ | 43625/48008 [6:16:21<33:13,  2.20it/s] 91%|█████████ | 43626/48008 [6:16:22<33:48,  2.16it/s] 91%|█████████ | 43627/48008 [6:16:22<34:39,  2.11it/s] 91%|█████████ | 43628/48008 [6:16:22<34:45,  2.10it/s] 91%|█████████ | 43629/48008 [6:16:23<33:29,  2.18it/s] 91%|█████████ | 43630/48008 [6:16:23<32:28,  2.25it/s] 91%|█████████ | 43631/48008 [6:16:24<31:50,  2.29it/s] 91%|█████████ | 43632/48008 [6:16:24<33:24,  2.18it/s] 91%|█████████ | 43633/48008 [6:16:25<34:48,  2.10it/s] 91%|█████████ | 43634/48008 [6:16:25<35:16,  2.07it/s] 91%|█████████ | 43635/48008 [6:16:26<35:09,  2.07it/s] 91%|█████████ | 43636/48008 [6:16:26<35:56,  2.03it/s] 91%|█████████ | 43637/48008 [6:16:27<34:11,  2.13it/s] 91%|█████████ | 43638/48008 [6:16:27<35:17,  2.06it/s] 91%|█████████ | 43639/48008 [6:16:28<35:11,  2.07it/s] 91%|█████████ | 43640/48008 [6:16:28<35:09,  2.07it/s] 91%|█████████ | 43641/48008 [6:16:29<35:08,  2.07it/s] 91%|█████████ | 43642/48008 [6:16:29<35:07,  2.07it/s] 91%|█████████ | 43643/48008 [6:16:30<36:25,  2.00it/s] 91%|█████████ | 43644/48008 [6:16:30<34:32,  2.11it/s] 91%|█████████ | 43645/48008 [6:16:31<35:08,  2.07it/s] 91%|█████████ | 43646/48008 [6:16:31<36:02,  2.02it/s] 91%|█████████ | 43647/48008 [6:16:32<36:10,  2.01it/s] 91%|█████████ | 43648/48008 [6:16:32<34:26,  2.11it/s] 91%|█████████ | 43649/48008 [6:16:33<35:50,  2.03it/s] 91%|█████████ | 43650/48008 [6:16:33<34:08,  2.13it/s]                                                       {'loss': 4.2659, 'grad_norm': 0.10038616508245468, 'learning_rate': 1.8159473421096484e-05, 'epoch': 0.91}
 91%|█████████ | 43650/48008 [6:16:33<34:08,  2.13it/s] 91%|█████████ | 43651/48008 [6:16:33<34:22,  2.11it/s] 91%|█████████ | 43652/48008 [6:16:34<34:55,  2.08it/s] 91%|█████████ | 43653/48008 [6:16:34<34:55,  2.08it/s] 91%|█████████ | 43654/48008 [6:16:35<39:01,  1.86it/s] 91%|█████████ | 43655/48008 [6:16:36<37:48,  1.92it/s] 91%|█████████ | 43656/48008 [6:16:36<35:32,  2.04it/s] 91%|█████████ | 43657/48008 [6:16:37<36:29,  1.99it/s] 91%|█████████ | 43658/48008 [6:16:37<36:54,  1.96it/s] 91%|█████████ | 43659/48008 [6:16:37<34:53,  2.08it/s] 91%|█████████ | 43660/48008 [6:16:38<39:10,  1.85it/s] 91%|█████████ | 43661/48008 [6:16:39<37:49,  1.92it/s] 91%|█████████ | 43662/48008 [6:16:39<36:56,  1.96it/s] 91%|█████████ | 43663/48008 [6:16:40<36:50,  1.97it/s] 91%|█████████ | 43664/48008 [6:16:40<36:11,  2.00it/s] 91%|█████████ | 43665/48008 [6:16:41<36:17,  1.99it/s] 91%|█████████ | 43666/48008 [6:16:41<36:39,  1.97it/s] 91%|█████████ | 43667/48008 [6:16:42<36:35,  1.98it/s] 91%|█████████ | 43668/48008 [6:16:42<36:03,  2.01it/s] 91%|█████████ | 43669/48008 [6:16:43<52:24,  1.38it/s] 91%|█████████ | 43670/48008 [6:16:44<51:17,  1.41it/s] 91%|█████████ | 43671/48008 [6:16:45<47:40,  1.52it/s] 91%|█████████ | 43672/48008 [6:16:45<42:22,  1.71it/s] 91%|█████████ | 43673/48008 [6:16:46<41:24,  1.75it/s] 91%|█████████ | 43674/48008 [6:16:46<39:51,  1.81it/s] 91%|█████████ | 43675/48008 [6:16:47<38:13,  1.89it/s] 91%|█████████ | 43676/48008 [6:16:47<37:58,  1.90it/s] 91%|█████████ | 43677/48008 [6:16:48<37:03,  1.95it/s] 91%|█████████ | 43678/48008 [6:16:48<36:22,  1.98it/s] 91%|█████████ | 43679/48008 [6:16:48<35:58,  2.01it/s] 91%|█████████ | 43680/48008 [6:16:49<35:40,  2.02it/s] 91%|█████████ | 43681/48008 [6:16:49<35:23,  2.04it/s] 91%|█████████ | 43682/48008 [6:16:50<43:42,  1.65it/s] 91%|█████████ | 43683/48008 [6:16:51<40:54,  1.76it/s] 91%|█████████ | 43684/48008 [6:16:51<37:36,  1.92it/s] 91%|█████████ | 43685/48008 [6:16:52<37:31,  1.92it/s] 91%|█████████ | 43686/48008 [6:16:53<57:36,  1.25it/s] 91%|█████████ | 43687/48008 [6:16:54<49:17,  1.46it/s] 91%|█████████ | 43688/48008 [6:16:54<46:13,  1.56it/s] 91%|█████████ | 43689/48008 [6:16:55<42:49,  1.68it/s] 91%|█████████ | 43690/48008 [6:16:55<40:26,  1.78it/s] 91%|█████████ | 43691/48008 [6:16:56<39:31,  1.82it/s] 91%|█████████ | 43692/48008 [6:16:57<59:34,  1.21it/s] 91%|█████████ | 43693/48008 [6:16:58<52:36,  1.37it/s] 91%|█████████ | 43694/48008 [6:16:58<48:05,  1.49it/s] 91%|█████████ | 43695/48008 [6:16:59<44:38,  1.61it/s] 91%|█████████ | 43696/48008 [6:16:59<41:39,  1.73it/s] 91%|█████████ | 43697/48008 [6:17:00<40:23,  1.78it/s] 91%|█████████ | 43698/48008 [6:17:01<50:54,  1.41it/s] 91%|█████████ | 43699/48008 [6:17:01<46:26,  1.55it/s] 91%|█████████ | 43700/48008 [6:17:02<59:23,  1.21it/s]                                                        91%|█████████ | 43700/48008 [6:17:02<59:23,  1.21it/s]{'loss': 4.3069, 'grad_norm': 0.09446656703948975, 'learning_rate': 1.79511748041993e-05, 'epoch': 0.91}
 91%|█████████ | 43701/48008 [6:17:03<51:56,  1.38it/s] 91%|█████████ | 43702/48008 [6:17:03<47:31,  1.51it/s] 91%|█████████ | 43703/48008 [6:17:04<43:32,  1.65it/s] 91%|█████████ | 43704/48008 [6:17:04<41:18,  1.74it/s] 91%|█████████ | 43705/48008 [6:17:05<43:30,  1.65it/s] 91%|█████████ | 43706/48008 [6:17:06<39:27,  1.82it/s] 91%|█████████ | 43707/48008 [6:17:06<37:59,  1.89it/s] 91%|█████████ | 43708/48008 [6:17:07<37:23,  1.92it/s] 91%|█████████ | 43709/48008 [6:17:07<35:08,  2.04it/s] 91%|█████████ | 43710/48008 [6:17:07<35:22,  2.02it/s] 91%|█████████ | 43711/48008 [6:17:08<35:35,  2.01it/s] 91%|█████████ | 43712/48008 [6:17:08<35:08,  2.04it/s] 91%|█████████ | 43713/48008 [6:17:09<33:30,  2.14it/s] 91%|█████████ | 43714/48008 [6:17:10<42:22,  1.69it/s] 91%|█████████ | 43715/48008 [6:17:10<40:00,  1.79it/s] 91%|█████████ | 43716/48008 [6:17:11<51:18,  1.39it/s] 91%|█████████ | 43717/48008 [6:17:12<46:40,  1.53it/s] 91%|█████████ | 43718/48008 [6:17:12<43:00,  1.66it/s] 91%|█████████ | 43719/48008 [6:17:13<48:55,  1.46it/s] 91%|█████████ | 43720/48008 [6:17:14<44:28,  1.61it/s] 91%|█████████ | 43721/48008 [6:17:14<40:01,  1.79it/s] 91%|█████████ | 43722/48008 [6:17:15<38:45,  1.84it/s] 91%|█████████ | 43723/48008 [6:17:15<38:14,  1.87it/s] 91%|█████████ | 43724/48008 [6:17:16<37:35,  1.90it/s] 91%|█████████ | 43725/48008 [6:17:16<37:13,  1.92it/s] 91%|█████████ | 43726/48008 [6:17:17<34:59,  2.04it/s] 91%|█████████ | 43727/48008 [6:17:17<35:41,  2.00it/s] 91%|█████████ | 43728/48008 [6:17:17<33:54,  2.10it/s] 91%|█████████ | 43729/48008 [6:17:18<32:36,  2.19it/s] 91%|█████████ | 43730/48008 [6:17:18<33:01,  2.16it/s] 91%|█████████ | 43731/48008 [6:17:19<32:02,  2.22it/s] 91%|█████████ | 43732/48008 [6:17:19<32:40,  2.18it/s] 91%|█████████ | 43733/48008 [6:17:20<31:47,  2.24it/s] 91%|█████████ | 43734/48008 [6:17:20<31:17,  2.28it/s] 91%|█████████ | 43735/48008 [6:17:21<32:34,  2.19it/s] 91%|█████████ | 43736/48008 [6:17:21<33:02,  2.15it/s] 91%|█████████ | 43737/48008 [6:17:22<33:24,  2.13it/s] 91%|█████████ | 43738/48008 [6:17:22<34:04,  2.09it/s] 91%|█████████ | 43739/48008 [6:17:23<34:53,  2.04it/s] 91%|█████████ | 43740/48008 [6:17:23<33:16,  2.14it/s] 91%|█████████ | 43741/48008 [6:17:23<33:28,  2.12it/s] 91%|█████████ | 43742/48008 [6:17:24<34:05,  2.09it/s] 91%|█████████ | 43743/48008 [6:17:24<34:05,  2.09it/s] 91%|█████████ | 43744/48008 [6:17:25<34:32,  2.06it/s] 91%|█████████ | 43745/48008 [6:17:26<42:53,  1.66it/s] 91%|█████████ | 43746/48008 [6:17:26<41:30,  1.71it/s] 91%|█████████ | 43747/48008 [6:17:27<43:30,  1.63it/s] 91%|█████████ | 43748/48008 [6:17:28<40:41,  1.74it/s] 91%|█████████ | 43749/48008 [6:17:28<37:21,  1.90it/s] 91%|█████████ | 43750/48008 [6:17:28<36:24,  1.95it/s]                                                       {'loss': 4.2374, 'grad_norm': 0.104093037545681, 'learning_rate': 1.774287618730212e-05, 'epoch': 0.91}
 91%|█████████ | 43750/48008 [6:17:28<36:24,  1.95it/s] 91%|█████████ | 43751/48008 [6:17:29<35:51,  1.98it/s] 91%|█████████ | 43752/48008 [6:17:29<35:18,  2.01it/s] 91%|█████████ | 43753/48008 [6:17:30<34:55,  2.03it/s] 91%|█████████ | 43754/48008 [6:17:30<33:14,  2.13it/s] 91%|█████████ | 43755/48008 [6:17:31<33:27,  2.12it/s] 91%|█████████ | 43756/48008 [6:17:31<34:06,  2.08it/s] 91%|█████████ | 43757/48008 [6:17:32<34:07,  2.08it/s] 91%|█████████ | 43758/48008 [6:17:32<35:25,  2.00it/s] 91%|█████████ | 43759/48008 [6:17:33<35:00,  2.02it/s] 91%|█████████ | 43760/48008 [6:17:33<33:14,  2.13it/s] 91%|█████████ | 43761/48008 [6:17:34<34:00,  2.08it/s] 91%|█████████ | 43762/48008 [6:17:34<34:03,  2.08it/s] 91%|█████████ | 43763/48008 [6:17:35<34:34,  2.05it/s] 91%|█████████ | 43764/48008 [6:17:35<32:58,  2.14it/s] 91%|█████████ | 43765/48008 [6:17:35<31:55,  2.22it/s] 91%|█████████ | 43766/48008 [6:17:36<32:34,  2.17it/s] 91%|█████████ | 43767/48008 [6:17:36<31:36,  2.24it/s] 91%|█████████ | 43768/48008 [6:17:37<32:21,  2.18it/s] 91%|█████████ | 43769/48008 [6:17:37<33:17,  2.12it/s] 91%|█████████ | 43770/48008 [6:17:38<33:55,  2.08it/s] 91%|█████████ | 43771/48008 [6:17:38<34:43,  2.03it/s] 91%|█████████ | 43772/48008 [6:17:39<33:07,  2.13it/s] 91%|█████████ | 43773/48008 [6:17:39<37:25,  1.89it/s] 91%|█████████ | 43774/48008 [6:17:40<37:07,  1.90it/s] 91%|█████████ | 43775/48008 [6:17:40<34:48,  2.03it/s] 91%|█████████ | 43776/48008 [6:17:41<35:05,  2.01it/s] 91%|█████████ | 43777/48008 [6:17:41<34:43,  2.03it/s] 91%|█████████ | 43778/48008 [6:17:42<34:29,  2.04it/s] 91%|█████████ | 43779/48008 [6:17:42<32:54,  2.14it/s] 91%|█████████ | 43780/48008 [6:17:43<33:43,  2.09it/s] 91%|█████████ | 43781/48008 [6:17:44<50:03,  1.41it/s] 91%|█████████ | 43782/48008 [6:17:45<46:30,  1.51it/s] 91%|█████████ | 43783/48008 [6:17:45<43:57,  1.60it/s] 91%|█████████ | 43784/48008 [6:17:46<42:10,  1.67it/s] 91%|█████████ | 43785/48008 [6:17:46<40:54,  1.72it/s] 91%|█████████ | 43786/48008 [6:17:47<38:51,  1.81it/s] 91%|█████████ | 43787/48008 [6:17:47<35:57,  1.96it/s] 91%|█████████ | 43788/48008 [6:17:48<35:50,  1.96it/s] 91%|█████████ | 43789/48008 [6:17:48<35:10,  2.00it/s] 91%|█████████ | 43790/48008 [6:17:49<33:23,  2.11it/s] 91%|█████████ | 43791/48008 [6:17:49<33:27,  2.10it/s] 91%|█████████ | 43792/48008 [6:17:50<34:29,  2.04it/s] 91%|█████████ | 43793/48008 [6:17:50<34:17,  2.05it/s] 91%|█████████ | 43794/48008 [6:17:50<34:12,  2.05it/s] 91%|█████████ | 43795/48008 [6:17:51<34:06,  2.06it/s] 91%|█████████ | 43796/48008 [6:17:51<34:32,  2.03it/s] 91%|█████████ | 43797/48008 [6:17:52<32:55,  2.13it/s] 91%|█████████ | 43798/48008 [6:17:52<33:11,  2.11it/s] 91%|█████████ | 43799/48008 [6:17:53<31:58,  2.19it/s] 91%|█████████ | 43800/48008 [6:17:53<36:30,  1.92it/s]                                                       {'loss': 4.2447, 'grad_norm': 0.10585500299930573, 'learning_rate': 1.7534577570404933e-05, 'epoch': 0.91}
 91%|█████████ | 43800/48008 [6:17:53<36:30,  1.92it/s] 91%|█████████ | 43801/48008 [6:17:54<35:42,  1.96it/s] 91%|█████████ | 43802/48008 [6:17:54<35:10,  1.99it/s] 91%|█████████ | 43803/48008 [6:17:55<34:42,  2.02it/s] 91%|█████████ | 43804/48008 [6:17:55<34:28,  2.03it/s] 91%|█████████ | 43805/48008 [6:17:56<34:17,  2.04it/s] 91%|█████████ | 43806/48008 [6:17:56<34:02,  2.06it/s] 91%|█████████ | 43807/48008 [6:17:57<32:33,  2.15it/s] 91%|█████████▏| 43808/48008 [6:17:57<32:51,  2.13it/s] 91%|█████████▏| 43809/48008 [6:17:58<34:17,  2.04it/s] 91%|█████████▏| 43810/48008 [6:17:58<34:38,  2.02it/s] 91%|█████████▏| 43811/48008 [6:17:59<32:56,  2.12it/s] 91%|█████████▏| 43812/48008 [6:17:59<34:16,  2.04it/s] 91%|█████████▏| 43813/48008 [6:18:00<33:58,  2.06it/s] 91%|█████████▏| 43814/48008 [6:18:00<34:23,  2.03it/s] 91%|█████████▏| 43815/48008 [6:18:01<34:13,  2.04it/s] 91%|█████████▏| 43816/48008 [6:18:01<34:25,  2.03it/s] 91%|█████████▏| 43817/48008 [6:18:02<34:11,  2.04it/s] 91%|█████████▏| 43818/48008 [6:18:02<34:01,  2.05it/s] 91%|█████████▏| 43819/48008 [6:18:03<34:43,  2.01it/s] 91%|█████████▏| 43820/48008 [6:18:03<34:23,  2.03it/s] 91%|█████████▏| 43821/48008 [6:18:04<32:46,  2.13it/s] 91%|█████████▏| 43822/48008 [6:18:04<32:58,  2.12it/s] 91%|█████████▏| 43823/48008 [6:18:05<33:04,  2.11it/s] 91%|█████████▏| 43824/48008 [6:18:05<33:05,  2.11it/s] 91%|█████████▏| 43825/48008 [6:18:06<33:17,  2.09it/s] 91%|█████████▏| 43826/48008 [6:18:06<33:53,  2.06it/s] 91%|█████████▏| 43827/48008 [6:18:06<32:26,  2.15it/s] 91%|█████████▏| 43828/48008 [6:18:07<32:41,  2.13it/s] 91%|█████████▏| 43829/48008 [6:18:07<31:34,  2.21it/s] 91%|█████████▏| 43830/48008 [6:18:08<30:47,  2.26it/s] 91%|█████████▏| 43831/48008 [6:18:08<32:44,  2.13it/s] 91%|█████████▏| 43832/48008 [6:18:09<31:37,  2.20it/s] 91%|█████████▏| 43833/48008 [6:18:09<32:04,  2.17it/s] 91%|█████████▏| 43834/48008 [6:18:10<32:33,  2.14it/s] 91%|█████████▏| 43835/48008 [6:18:10<36:51,  1.89it/s] 91%|█████████▏| 43836/48008 [6:18:11<34:23,  2.02it/s] 91%|█████████▏| 43837/48008 [6:18:11<34:57,  1.99it/s] 91%|█████████▏| 43838/48008 [6:18:12<33:10,  2.09it/s] 91%|█████████▏| 43839/48008 [6:18:12<31:55,  2.18it/s] 91%|█████████▏| 43840/48008 [6:18:13<33:10,  2.09it/s] 91%|█████████▏| 43841/48008 [6:18:13<33:40,  2.06it/s] 91%|█████████▏| 43842/48008 [6:18:14<33:31,  2.07it/s] 91%|█████████▏| 43843/48008 [6:18:14<33:30,  2.07it/s] 91%|█████████▏| 43844/48008 [6:18:15<33:27,  2.07it/s] 91%|█████████▏| 43845/48008 [6:18:15<33:51,  2.05it/s] 91%|█████████▏| 43846/48008 [6:18:16<33:39,  2.06it/s] 91%|█████████▏| 43847/48008 [6:18:16<33:39,  2.06it/s] 91%|█████████▏| 43848/48008 [6:18:17<34:03,  2.04it/s] 91%|█████████▏| 43849/48008 [6:18:17<33:46,  2.05it/s] 91%|█████████▏| 43850/48008 [6:18:18<33:39,  2.06it/s]                                                       {'loss': 4.1996, 'grad_norm': 0.1053309217095375, 'learning_rate': 1.732627895350775e-05, 'epoch': 0.91}
 91%|█████████▏| 43850/48008 [6:18:18<33:39,  2.06it/s] 91%|█████████▏| 43851/48008 [6:18:18<33:39,  2.06it/s] 91%|█████████▏| 43852/48008 [6:18:18<33:34,  2.06it/s] 91%|█████████▏| 43853/48008 [6:18:20<49:29,  1.40it/s] 91%|█████████▏| 43854/48008 [6:18:20<44:45,  1.55it/s] 91%|█████████▏| 43855/48008 [6:18:21<41:22,  1.67it/s] 91%|█████████▏| 43856/48008 [6:18:21<38:53,  1.78it/s] 91%|█████████▏| 43857/48008 [6:18:22<37:41,  1.84it/s] 91%|█████████▏| 43858/48008 [6:18:22<34:58,  1.98it/s] 91%|█████████▏| 43859/48008 [6:18:23<34:25,  2.01it/s] 91%|█████████▏| 43860/48008 [6:18:23<38:05,  1.82it/s] 91%|█████████▏| 43861/48008 [6:18:24<35:17,  1.96it/s] 91%|█████████▏| 43862/48008 [6:18:24<34:43,  1.99it/s] 91%|█████████▏| 43863/48008 [6:18:25<34:42,  1.99it/s] 91%|█████████▏| 43864/48008 [6:18:25<32:53,  2.10it/s] 91%|█████████▏| 43865/48008 [6:18:25<31:33,  2.19it/s] 91%|█████████▏| 43866/48008 [6:18:26<32:31,  2.12it/s] 91%|█████████▏| 43867/48008 [6:18:26<32:40,  2.11it/s] 91%|█████████▏| 43868/48008 [6:18:27<32:46,  2.11it/s] 91%|█████████▏| 43869/48008 [6:18:27<32:56,  2.09it/s] 91%|█████████▏| 43870/48008 [6:18:28<33:00,  2.09it/s] 91%|█████████▏| 43871/48008 [6:18:28<33:07,  2.08it/s] 91%|█████████▏| 43872/48008 [6:18:29<33:38,  2.05it/s] 91%|█████████▏| 43873/48008 [6:18:29<34:21,  2.01it/s] 91%|█████████▏| 43874/48008 [6:18:30<32:39,  2.11it/s] 91%|█████████▏| 43875/48008 [6:18:30<33:33,  2.05it/s] 91%|█████████▏| 43876/48008 [6:18:31<32:03,  2.15it/s] 91%|█████████▏| 43877/48008 [6:18:31<32:23,  2.13it/s] 91%|█████████▏| 43878/48008 [6:18:32<33:05,  2.08it/s] 91%|█████████▏| 43879/48008 [6:18:32<34:17,  2.01it/s] 91%|█████████▏| 43880/48008 [6:18:33<33:53,  2.03it/s] 91%|█████████▏| 43881/48008 [6:18:33<34:05,  2.02it/s] 91%|█████████▏| 43882/48008 [6:18:34<35:01,  1.96it/s] 91%|█████████▏| 43883/48008 [6:18:34<33:03,  2.08it/s] 91%|█████████▏| 43884/48008 [6:18:35<33:05,  2.08it/s] 91%|█████████▏| 43885/48008 [6:18:35<33:02,  2.08it/s] 91%|█████████▏| 43886/48008 [6:18:36<33:32,  2.05it/s] 91%|█████████▏| 43887/48008 [6:18:36<34:09,  2.01it/s] 91%|█████████▏| 43888/48008 [6:18:37<32:26,  2.12it/s] 91%|█████████▏| 43889/48008 [6:18:37<32:36,  2.11it/s] 91%|█████████▏| 43890/48008 [6:18:38<32:42,  2.10it/s] 91%|█████████▏| 43891/48008 [6:18:38<32:49,  2.09it/s] 91%|█████████▏| 43892/48008 [6:18:39<32:51,  2.09it/s] 91%|█████████▏| 43893/48008 [6:18:39<33:22,  2.06it/s] 91%|█████████▏| 43894/48008 [6:18:40<33:10,  2.07it/s] 91%|█████████▏| 43895/48008 [6:18:40<31:46,  2.16it/s] 91%|█████████▏| 43896/48008 [6:18:40<32:05,  2.14it/s] 91%|█████████▏| 43897/48008 [6:18:41<32:24,  2.11it/s] 91%|█████████▏| 43898/48008 [6:18:41<32:29,  2.11it/s] 91%|█████████▏| 43899/48008 [6:18:42<33:08,  2.07it/s] 91%|█████████▏| 43900/48008 [6:18:42<33:03,  2.07it/s]                                                       {'loss': 4.2317, 'grad_norm': 0.10557498037815094, 'learning_rate': 1.7117980336610564e-05, 'epoch': 0.91}
 91%|█████████▏| 43900/48008 [6:18:42<33:03,  2.07it/s] 91%|█████████▏| 43901/48008 [6:18:43<33:07,  2.07it/s] 91%|█████████▏| 43902/48008 [6:18:43<33:36,  2.04it/s] 91%|█████████▏| 43903/48008 [6:18:44<33:50,  2.02it/s] 91%|█████████▏| 43904/48008 [6:18:44<34:19,  1.99it/s] 91%|█████████▏| 43905/48008 [6:18:45<34:41,  1.97it/s] 91%|█████████▏| 43906/48008 [6:18:45<32:49,  2.08it/s] 91%|█████████▏| 43907/48008 [6:18:46<32:54,  2.08it/s] 91%|█████████▏| 43908/48008 [6:18:47<48:44,  1.40it/s] 91%|█████████▏| 43909/48008 [6:18:48<44:32,  1.53it/s] 91%|█████████▏| 43910/48008 [6:18:48<41:28,  1.65it/s] 91%|█████████▏| 43911/48008 [6:18:49<38:53,  1.76it/s] 91%|█████████▏| 43912/48008 [6:18:49<37:52,  1.80it/s] 91%|█████████▏| 43913/48008 [6:18:50<36:50,  1.85it/s] 91%|█████████▏| 43914/48008 [6:18:50<36:13,  1.88it/s] 91%|█████████▏| 43915/48008 [6:18:51<35:33,  1.92it/s] 91%|█████████▏| 43916/48008 [6:18:51<35:28,  1.92it/s] 91%|█████████▏| 43917/48008 [6:18:52<34:43,  1.96it/s] 91%|█████████▏| 43918/48008 [6:18:52<34:09,  2.00it/s] 91%|█████████▏| 43919/48008 [6:18:53<33:42,  2.02it/s] 91%|█████████▏| 43920/48008 [6:18:53<33:22,  2.04it/s] 91%|█████████▏| 43921/48008 [6:18:54<33:15,  2.05it/s] 91%|█████████▏| 43922/48008 [6:18:54<33:40,  2.02it/s] 91%|█████████▏| 43923/48008 [6:18:55<33:48,  2.01it/s] 91%|█████████▏| 43924/48008 [6:18:55<33:26,  2.04it/s] 91%|█████████▏| 43925/48008 [6:18:56<33:40,  2.02it/s] 91%|█████████▏| 43926/48008 [6:18:57<49:06,  1.39it/s] 91%|█████████▏| 43927/48008 [6:18:58<59:55,  1.14it/s] 92%|█████████▏| 43928/48008 [6:18:58<50:27,  1.35it/s] 92%|█████████▏| 43929/48008 [6:18:59<45:09,  1.51it/s] 92%|█████████▏| 43930/48008 [6:18:59<41:22,  1.64it/s] 92%|█████████▏| 43931/48008 [6:19:00<39:06,  1.74it/s] 92%|█████████▏| 43932/48008 [6:19:01<53:02,  1.28it/s] 92%|█████████▏| 43933/48008 [6:19:02<47:36,  1.43it/s] 92%|█████████▏| 43934/48008 [6:19:02<43:34,  1.56it/s] 92%|█████████▏| 43935/48008 [6:19:03<40:13,  1.69it/s] 92%|█████████▏| 43936/48008 [6:19:03<39:01,  1.74it/s] 92%|█████████▏| 43937/48008 [6:19:04<37:07,  1.83it/s] 92%|█████████▏| 43938/48008 [6:19:04<36:31,  1.86it/s] 92%|█████████▏| 43939/48008 [6:19:05<39:11,  1.73it/s] 92%|█████████▏| 43940/48008 [6:19:05<37:35,  1.80it/s] 92%|█████████▏| 43941/48008 [6:19:06<36:07,  1.88it/s] 92%|█████████▏| 43942/48008 [6:19:06<33:43,  2.01it/s] 92%|█████████▏| 43943/48008 [6:19:07<31:21,  2.16it/s] 92%|█████████▏| 43944/48008 [6:19:07<32:12,  2.10it/s] 92%|█████████▏| 43945/48008 [6:19:08<32:15,  2.10it/s] 92%|█████████▏| 43946/48008 [6:19:08<32:47,  2.06it/s] 92%|█████████▏| 43947/48008 [6:19:09<32:44,  2.07it/s] 92%|█████████▏| 43948/48008 [6:19:09<33:26,  2.02it/s] 92%|█████████▏| 43949/48008 [6:19:10<34:23,  1.97it/s] 92%|█████████▏| 43950/48008 [6:19:10<32:30,  2.08it/s]                                                       {'loss': 4.2695, 'grad_norm': 0.10110129415988922, 'learning_rate': 1.690968171971338e-05, 'epoch': 0.92} 92%|█████████▏| 43950/48008 [6:19:10<32:30,  2.08it/s]
 92%|█████████▏| 43951/48008 [6:19:11<32:54,  2.05it/s] 92%|█████████▏| 43952/48008 [6:19:11<32:49,  2.06it/s] 92%|█████████▏| 43953/48008 [6:19:12<33:06,  2.04it/s] 92%|█████████▏| 43954/48008 [6:19:12<32:50,  2.06it/s] 92%|█████████▏| 43955/48008 [6:19:13<32:43,  2.06it/s] 92%|█████████▏| 43956/48008 [6:19:13<32:36,  2.07it/s] 92%|█████████▏| 43957/48008 [6:19:13<32:34,  2.07it/s] 92%|█████████▏| 43958/48008 [6:19:14<31:10,  2.16it/s] 92%|█████████▏| 43959/48008 [6:19:14<32:05,  2.10it/s] 92%|█████████▏| 43960/48008 [6:19:15<32:08,  2.10it/s] 92%|█████████▏| 43961/48008 [6:19:15<33:27,  2.02it/s] 92%|█████████▏| 43962/48008 [6:19:16<31:51,  2.12it/s] 92%|█████████▏| 43963/48008 [6:19:17<47:34,  1.42it/s] 92%|█████████▏| 43964/48008 [6:19:18<43:47,  1.54it/s] 92%|█████████▏| 43965/48008 [6:19:18<39:04,  1.72it/s] 92%|█████████▏| 43966/48008 [6:19:19<37:25,  1.80it/s] 92%|█████████▏| 43967/48008 [6:19:19<36:26,  1.85it/s] 92%|█████████▏| 43968/48008 [6:19:20<36:00,  1.87it/s] 92%|█████████▏| 43969/48008 [6:19:20<36:13,  1.86it/s] 92%|█████████▏| 43970/48008 [6:19:21<33:46,  1.99it/s] 92%|█████████▏| 43971/48008 [6:19:21<32:04,  2.10it/s] 92%|█████████▏| 43972/48008 [6:19:22<40:08,  1.68it/s] 92%|█████████▏| 43973/48008 [6:19:22<37:43,  1.78it/s] 92%|█████████▏| 43974/48008 [6:19:23<34:47,  1.93it/s] 92%|█████████▏| 43975/48008 [6:19:23<35:09,  1.91it/s] 92%|█████████▏| 43976/48008 [6:19:24<34:39,  1.94it/s] 92%|█████████▏| 43977/48008 [6:19:24<33:58,  1.98it/s] 92%|█████████▏| 43978/48008 [6:19:25<33:29,  2.01it/s] 92%|█████████▏| 43979/48008 [6:19:25<33:37,  2.00it/s] 92%|█████████▏| 43980/48008 [6:19:26<33:14,  2.02it/s] 92%|█████████▏| 43981/48008 [6:19:26<34:07,  1.97it/s] 92%|█████████▏| 43982/48008 [6:19:27<32:13,  2.08it/s] 92%|█████████▏| 43983/48008 [6:19:27<32:55,  2.04it/s] 92%|█████████▏| 43984/48008 [6:19:28<32:41,  2.05it/s] 92%|█████████▏| 43985/48008 [6:19:28<33:15,  2.02it/s] 92%|█████████▏| 43986/48008 [6:19:29<33:46,  1.98it/s] 92%|█████████▏| 43987/48008 [6:19:29<33:19,  2.01it/s] 92%|█████████▏| 43988/48008 [6:19:30<33:22,  2.01it/s] 92%|█████████▏| 43989/48008 [6:19:30<33:01,  2.03it/s] 92%|█████████▏| 43990/48008 [6:19:31<32:47,  2.04it/s] 92%|█████████▏| 43991/48008 [6:19:31<33:03,  2.03it/s] 92%|█████████▏| 43992/48008 [6:19:32<31:28,  2.13it/s] 92%|█████████▏| 43993/48008 [6:19:32<31:36,  2.12it/s] 92%|█████████▏| 43994/48008 [6:19:33<32:17,  2.07it/s] 92%|█████████▏| 43995/48008 [6:19:33<33:29,  2.00it/s] 92%|█████████▏| 43996/48008 [6:19:34<33:05,  2.02it/s] 92%|█████████▏| 43997/48008 [6:19:34<33:12,  2.01it/s] 92%|█████████▏| 43998/48008 [6:19:35<32:54,  2.03it/s] 92%|█████████▏| 43999/48008 [6:19:35<32:44,  2.04it/s] 92%|█████████▏| 44000/48008 [6:19:36<33:43,  1.98it/s]                                                       {'loss': 4.2197, 'grad_norm': 0.11125745624303818, 'learning_rate': 1.67013831028162e-05, 'epoch': 0.92}
 92%|█████████▏| 44000/48008 [6:19:36<33:43,  1.98it/s] 92%|█████████▏| 44001/48008 [6:19:36<33:15,  2.01it/s] 92%|█████████▏| 44002/48008 [6:19:37<32:56,  2.03it/s] 92%|█████████▏| 44003/48008 [6:19:37<32:45,  2.04it/s] 92%|█████████▏| 44004/48008 [6:19:37<32:34,  2.05it/s] 92%|█████████▏| 44005/48008 [6:19:38<36:22,  1.83it/s] 92%|█████████▏| 44006/48008 [6:19:39<36:09,  1.84it/s] 92%|█████████▏| 44007/48008 [6:19:40<47:26,  1.41it/s] 92%|█████████▏| 44008/48008 [6:19:40<43:55,  1.52it/s] 92%|█████████▏| 44009/48008 [6:19:41<40:24,  1.65it/s] 92%|█████████▏| 44010/48008 [6:19:41<37:53,  1.76it/s] 92%|█████████▏| 44011/48008 [6:19:42<36:40,  1.82it/s] 92%|█████████▏| 44012/48008 [6:19:42<35:16,  1.89it/s] 92%|█████████▏| 44013/48008 [6:19:43<34:13,  1.95it/s] 92%|█████████▏| 44014/48008 [6:19:43<34:18,  1.94it/s] 92%|█████████▏| 44015/48008 [6:19:44<34:03,  1.95it/s] 92%|█████████▏| 44016/48008 [6:19:44<33:57,  1.96it/s] 92%|█████████▏| 44017/48008 [6:19:45<33:25,  1.99it/s] 92%|█████████▏| 44018/48008 [6:19:45<34:13,  1.94it/s] 92%|█████████▏| 44019/48008 [6:19:46<33:57,  1.96it/s] 92%|█████████▏| 44020/48008 [6:19:46<33:44,  1.97it/s] 92%|█████████▏| 44021/48008 [6:19:47<33:12,  2.00it/s] 92%|█████████▏| 44022/48008 [6:19:47<31:31,  2.11it/s] 92%|█████████▏| 44023/48008 [6:19:48<31:43,  2.09it/s] 92%|█████████▏| 44024/48008 [6:19:48<31:48,  2.09it/s] 92%|█████████▏| 44025/48008 [6:19:49<32:59,  2.01it/s] 92%|█████████▏| 44026/48008 [6:19:49<31:21,  2.12it/s] 92%|█████████▏| 44027/48008 [6:19:50<31:32,  2.10it/s] 92%|█████████▏| 44028/48008 [6:19:50<32:25,  2.05it/s] 92%|█████████▏| 44029/48008 [6:19:51<32:16,  2.05it/s] 92%|█████████▏| 44030/48008 [6:19:51<32:04,  2.07it/s] 92%|█████████▏| 44031/48008 [6:19:52<47:16,  1.40it/s] 92%|█████████▏| 44032/48008 [6:19:53<43:08,  1.54it/s] 92%|█████████▏| 44033/48008 [6:19:53<40:15,  1.65it/s] 92%|█████████▏| 44034/48008 [6:19:54<37:48,  1.75it/s] 92%|█████████▏| 44035/48008 [6:19:54<36:47,  1.80it/s] 92%|█████████▏| 44036/48008 [6:19:55<43:03,  1.54it/s] 92%|█████████▏| 44037/48008 [6:19:56<39:40,  1.67it/s] 92%|█████████▏| 44038/48008 [6:19:56<37:52,  1.75it/s] 92%|█████████▏| 44039/48008 [6:19:57<36:07,  1.83it/s] 92%|█████████▏| 44040/48008 [6:19:57<34:47,  1.90it/s] 92%|█████████▏| 44041/48008 [6:19:58<34:23,  1.92it/s] 92%|█████████▏| 44042/48008 [6:19:58<34:22,  1.92it/s] 92%|█████████▏| 44043/48008 [6:19:59<33:38,  1.96it/s] 92%|█████████▏| 44044/48008 [6:19:59<33:27,  1.97it/s] 92%|█████████▏| 44045/48008 [6:20:00<31:37,  2.09it/s] 92%|█████████▏| 44046/48008 [6:20:00<32:32,  2.03it/s] 92%|█████████▏| 44047/48008 [6:20:01<32:47,  2.01it/s] 92%|█████████▏| 44048/48008 [6:20:01<32:30,  2.03it/s] 92%|█████████▏| 44049/48008 [6:20:02<32:41,  2.02it/s] 92%|█████████▏| 44050/48008 [6:20:02<32:20,  2.04it/s]                                                       {'loss': 4.2683, 'grad_norm': 0.10224734991788864, 'learning_rate': 1.6493084485919013e-05, 'epoch': 0.92} 92%|█████████▏| 44050/48008 [6:20:02<32:20,  2.04it/s]
 92%|█████████▏| 44051/48008 [6:20:03<32:55,  2.00it/s] 92%|█████████▏| 44052/48008 [6:20:03<32:31,  2.03it/s] 92%|█████████▏| 44053/48008 [6:20:04<32:39,  2.02it/s] 92%|█████████▏| 44054/48008 [6:20:04<32:49,  2.01it/s] 92%|█████████▏| 44055/48008 [6:20:05<33:14,  1.98it/s] 92%|█████████▏| 44056/48008 [6:20:05<33:09,  1.99it/s] 92%|█████████▏| 44057/48008 [6:20:06<31:24,  2.10it/s] 92%|█████████▏| 44058/48008 [6:20:06<30:11,  2.18it/s] 92%|█████████▏| 44059/48008 [6:20:06<31:05,  2.12it/s] 92%|█████████▏| 44060/48008 [6:20:07<32:01,  2.06it/s] 92%|█████████▏| 44061/48008 [6:20:08<33:00,  1.99it/s] 92%|█████████▏| 44062/48008 [6:20:08<33:27,  1.97it/s] 92%|█████████▏| 44063/48008 [6:20:09<32:54,  2.00it/s] 92%|█████████▏| 44064/48008 [6:20:09<32:53,  2.00it/s] 92%|█████████▏| 44065/48008 [6:20:10<40:24,  1.63it/s] 92%|█████████▏| 44066/48008 [6:20:10<36:27,  1.80it/s] 92%|█████████▏| 44067/48008 [6:20:11<33:43,  1.95it/s] 92%|█████████▏| 44068/48008 [6:20:11<33:05,  1.98it/s] 92%|█████████▏| 44069/48008 [6:20:12<32:37,  2.01it/s] 92%|█████████▏| 44070/48008 [6:20:12<32:43,  2.01it/s] 92%|█████████▏| 44071/48008 [6:20:13<32:47,  2.00it/s] 92%|█████████▏| 44072/48008 [6:20:13<32:26,  2.02it/s] 92%|█████████▏| 44073/48008 [6:20:14<32:05,  2.04it/s] 92%|█████████▏| 44074/48008 [6:20:14<30:37,  2.14it/s] 92%|█████████▏| 44075/48008 [6:20:15<30:57,  2.12it/s] 92%|█████████▏| 44076/48008 [6:20:15<31:11,  2.10it/s] 92%|█████████▏| 44077/48008 [6:20:16<32:07,  2.04it/s] 92%|█████████▏| 44078/48008 [6:20:16<35:39,  1.84it/s] 92%|█████████▏| 44079/48008 [6:20:17<34:25,  1.90it/s] 92%|█████████▏| 44080/48008 [6:20:17<32:16,  2.03it/s] 92%|█████████▏| 44081/48008 [6:20:18<30:47,  2.13it/s] 92%|█████████▏| 44082/48008 [6:20:18<31:24,  2.08it/s] 92%|█████████▏| 44083/48008 [6:20:19<31:54,  2.05it/s] 92%|█████████▏| 44084/48008 [6:20:19<32:14,  2.03it/s] 92%|█████████▏| 44085/48008 [6:20:20<32:42,  2.00it/s] 92%|█████████▏| 44086/48008 [6:20:20<33:15,  1.97it/s] 92%|█████████▏| 44087/48008 [6:20:21<33:18,  1.96it/s] 92%|█████████▏| 44088/48008 [6:20:21<33:57,  1.92it/s] 92%|█████████▏| 44089/48008 [6:20:22<31:56,  2.04it/s] 92%|█████████▏| 44090/48008 [6:20:22<31:47,  2.05it/s] 92%|█████████▏| 44091/48008 [6:20:23<30:23,  2.15it/s] 92%|█████████▏| 44092/48008 [6:20:23<30:41,  2.13it/s] 92%|█████████▏| 44093/48008 [6:20:23<30:53,  2.11it/s] 92%|█████████▏| 44094/48008 [6:20:24<34:47,  1.87it/s] 92%|█████████▏| 44095/48008 [6:20:25<33:44,  1.93it/s] 92%|█████████▏| 44096/48008 [6:20:25<33:03,  1.97it/s] 92%|█████████▏| 44097/48008 [6:20:26<31:16,  2.08it/s] 92%|█████████▏| 44098/48008 [6:20:26<31:19,  2.08it/s] 92%|█████████▏| 44099/48008 [6:20:27<31:17,  2.08it/s] 92%|█████████▏| 44100/48008 [6:20:27<29:55,  2.18it/s]                                                       {'loss': 4.1965, 'grad_norm': 0.11144573241472244, 'learning_rate': 1.628478586902183e-05, 'epoch': 0.92}
 92%|█████████▏| 44100/48008 [6:20:27<29:55,  2.18it/s] 92%|█████████▏| 44101/48008 [6:20:27<30:17,  2.15it/s] 92%|█████████▏| 44102/48008 [6:20:28<31:00,  2.10it/s] 92%|█████████▏| 44103/48008 [6:20:28<31:27,  2.07it/s] 92%|█████████▏| 44104/48008 [6:20:29<31:50,  2.04it/s] 92%|█████████▏| 44105/48008 [6:20:29<29:44,  2.19it/s] 92%|█████████▏| 44106/48008 [6:20:31<45:21,  1.43it/s] 92%|█████████▏| 44107/48008 [6:20:31<41:51,  1.55it/s] 92%|█████████▏| 44108/48008 [6:20:32<39:46,  1.63it/s] 92%|█████████▏| 44109/48008 [6:20:32<37:42,  1.72it/s] 92%|█████████▏| 44110/48008 [6:20:33<36:18,  1.79it/s] 92%|█████████▏| 44111/48008 [6:20:33<34:47,  1.87it/s] 92%|█████████▏| 44112/48008 [6:20:34<34:09,  1.90it/s] 92%|█████████▏| 44113/48008 [6:20:34<33:17,  1.95it/s] 92%|█████████▏| 44114/48008 [6:20:35<32:36,  1.99it/s] 92%|█████████▏| 44115/48008 [6:20:35<32:36,  1.99it/s] 92%|█████████▏| 44116/48008 [6:20:36<32:40,  1.99it/s] 92%|█████████▏| 44117/48008 [6:20:36<30:53,  2.10it/s] 92%|█████████▏| 44118/48008 [6:20:36<30:59,  2.09it/s] 92%|█████████▏| 44119/48008 [6:20:37<29:44,  2.18it/s] 92%|█████████▏| 44120/48008 [6:20:37<30:34,  2.12it/s] 92%|█████████▏| 44121/48008 [6:20:38<31:53,  2.03it/s] 92%|█████████▏| 44122/48008 [6:20:38<30:23,  2.13it/s] 92%|█████████▏| 44123/48008 [6:20:39<29:19,  2.21it/s] 92%|█████████▏| 44124/48008 [6:20:39<28:35,  2.26it/s] 92%|█████████▏| 44125/48008 [6:20:40<29:48,  2.17it/s] 92%|█████████▏| 44126/48008 [6:20:41<37:53,  1.71it/s] 92%|█████████▏| 44127/48008 [6:20:41<34:35,  1.87it/s] 92%|█████████▏| 44128/48008 [6:20:41<32:17,  2.00it/s] 92%|█████████▏| 44129/48008 [6:20:42<30:37,  2.11it/s] 92%|█████████▏| 44130/48008 [6:20:42<30:46,  2.10it/s] 92%|█████████▏| 44131/48008 [6:20:43<30:52,  2.09it/s] 92%|█████████▏| 44132/48008 [6:20:43<31:41,  2.04it/s] 92%|█████████▏| 44133/48008 [6:20:44<31:29,  2.05it/s] 92%|█████████▏| 44134/48008 [6:20:44<31:44,  2.03it/s] 92%|█████████▏| 44135/48008 [6:20:45<30:13,  2.14it/s] 92%|█████████▏| 44136/48008 [6:20:45<29:06,  2.22it/s] 92%|█████████▏| 44137/48008 [6:20:46<29:39,  2.17it/s] 92%|█████████▏| 44138/48008 [6:20:46<30:30,  2.11it/s] 92%|█████████▏| 44139/48008 [6:20:47<45:34,  1.42it/s] 92%|█████████▏| 44140/48008 [6:20:48<41:12,  1.56it/s] 92%|█████████▏| 44141/48008 [6:20:48<38:51,  1.66it/s] 92%|█████████▏| 44142/48008 [6:20:49<35:13,  1.83it/s] 92%|█████████▏| 44143/48008 [6:20:49<34:22,  1.87it/s] 92%|█████████▏| 44144/48008 [6:20:50<33:14,  1.94it/s] 92%|█████████▏| 44145/48008 [6:20:50<33:19,  1.93it/s] 92%|█████████▏| 44146/48008 [6:20:51<36:17,  1.77it/s] 92%|█████████▏| 44147/48008 [6:20:51<35:07,  1.83it/s] 92%|█████████▏| 44148/48008 [6:20:52<33:56,  1.90it/s] 92%|█████████▏| 44149/48008 [6:20:52<32:58,  1.95it/s] 92%|█████████▏| 44150/48008 [6:20:53<32:21,  1.99it/s]                                                       {'loss': 4.2121, 'grad_norm': 0.11672603338956833, 'learning_rate': 1.6076487252124648e-05, 'epoch': 0.92}
 92%|█████████▏| 44150/48008 [6:20:53<32:21,  1.99it/s] 92%|█████████▏| 44151/48008 [6:20:53<29:59,  2.14it/s] 92%|█████████▏| 44152/48008 [6:20:54<29:01,  2.21it/s] 92%|█████████▏| 44153/48008 [6:20:54<29:37,  2.17it/s] 92%|█████████▏| 44154/48008 [6:20:55<29:58,  2.14it/s] 92%|█████████▏| 44155/48008 [6:20:55<30:56,  2.08it/s] 92%|█████████▏| 44156/48008 [6:20:56<31:15,  2.05it/s] 92%|█████████▏| 44157/48008 [6:20:56<31:30,  2.04it/s] 92%|█████████▏| 44158/48008 [6:20:57<32:06,  2.00it/s] 92%|█████████▏| 44159/48008 [6:20:57<32:55,  1.95it/s] 92%|█████████▏| 44160/48008 [6:20:58<32:45,  1.96it/s] 92%|█████████▏| 44161/48008 [6:20:58<30:57,  2.07it/s] 92%|█████████▏| 44162/48008 [6:20:59<29:38,  2.16it/s] 92%|█████████▏| 44163/48008 [6:20:59<28:40,  2.23it/s] 92%|█████████▏| 44164/48008 [6:20:59<29:18,  2.19it/s] 92%|█████████▏| 44165/48008 [6:21:00<30:13,  2.12it/s] 92%|█████████▏| 44166/48008 [6:21:00<31:08,  2.06it/s] 92%|█████████▏| 44167/48008 [6:21:01<31:02,  2.06it/s] 92%|█████████▏| 44168/48008 [6:21:01<30:55,  2.07it/s] 92%|█████████▏| 44169/48008 [6:21:02<31:36,  2.02it/s] 92%|█████████▏| 44170/48008 [6:21:02<31:17,  2.04it/s] 92%|█████████▏| 44171/48008 [6:21:03<34:54,  1.83it/s] 92%|█████████▏| 44172/48008 [6:21:04<34:08,  1.87it/s] 92%|█████████▏| 44173/48008 [6:21:04<34:16,  1.86it/s] 92%|█████████▏| 44174/48008 [6:21:05<34:22,  1.86it/s] 92%|█████████▏| 44175/48008 [6:21:05<33:38,  1.90it/s] 92%|█████████▏| 44176/48008 [6:21:06<32:46,  1.95it/s] 92%|█████████▏| 44177/48008 [6:21:06<32:11,  1.98it/s] 92%|█████████▏| 44178/48008 [6:21:07<31:41,  2.01it/s] 92%|█████████▏| 44179/48008 [6:21:07<31:50,  2.00it/s] 92%|█████████▏| 44180/48008 [6:21:08<31:33,  2.02it/s] 92%|█████████▏| 44181/48008 [6:21:08<31:15,  2.04it/s] 92%|█████████▏| 44182/48008 [6:21:09<32:09,  1.98it/s] 92%|█████████▏| 44183/48008 [6:21:09<31:41,  2.01it/s] 92%|█████████▏| 44184/48008 [6:21:10<31:24,  2.03it/s] 92%|█████████▏| 44185/48008 [6:21:10<31:11,  2.04it/s] 92%|█████████▏| 44186/48008 [6:21:11<30:59,  2.06it/s] 92%|█████████▏| 44187/48008 [6:21:11<31:18,  2.03it/s] 92%|█████████▏| 44188/48008 [6:21:12<31:38,  2.01it/s] 92%|█████████▏| 44189/48008 [6:21:12<31:39,  2.01it/s] 92%|█████████▏| 44190/48008 [6:21:13<31:17,  2.03it/s] 92%|█████████▏| 44191/48008 [6:21:13<31:02,  2.05it/s] 92%|█████████▏| 44192/48008 [6:21:14<30:57,  2.05it/s] 92%|█████████▏| 44193/48008 [6:21:14<30:52,  2.06it/s] 92%|█████████▏| 44194/48008 [6:21:14<29:32,  2.15it/s] 92%|█████████▏| 44195/48008 [6:21:15<30:18,  2.10it/s] 92%|█████████▏| 44196/48008 [6:21:15<30:45,  2.07it/s] 92%|█████████▏| 44197/48008 [6:21:16<30:38,  2.07it/s] 92%|█████████▏| 44198/48008 [6:21:16<28:39,  2.22it/s] 92%|█████████▏| 44199/48008 [6:21:17<29:16,  2.17it/s] 92%|█████████▏| 44200/48008 [6:21:17<29:34,  2.15it/s]                                                       {'loss': 4.251, 'grad_norm': 0.10830356180667877, 'learning_rate': 1.5868188635227462e-05, 'epoch': 0.92}
 92%|█████████▏| 44200/48008 [6:21:17<29:34,  2.15it/s] 92%|█████████▏| 44201/48008 [6:21:18<29:56,  2.12it/s] 92%|█████████▏| 44202/48008 [6:21:18<30:06,  2.11it/s] 92%|█████████▏| 44203/48008 [6:21:19<37:42,  1.68it/s] 92%|█████████▏| 44204/48008 [6:21:20<35:27,  1.79it/s] 92%|█████████▏| 44205/48008 [6:21:20<33:57,  1.87it/s] 92%|█████████▏| 44206/48008 [6:21:21<34:02,  1.86it/s] 92%|█████████▏| 44207/48008 [6:21:21<32:57,  1.92it/s] 92%|█████████▏| 44208/48008 [6:21:22<32:56,  1.92it/s] 92%|█████████▏| 44209/48008 [6:21:22<32:36,  1.94it/s] 92%|█████████▏| 44210/48008 [6:21:23<32:24,  1.95it/s] 92%|█████████▏| 44211/48008 [6:21:23<32:13,  1.96it/s] 92%|█████████▏| 44212/48008 [6:21:24<32:05,  1.97it/s] 92%|█████████▏| 44213/48008 [6:21:24<30:20,  2.08it/s] 92%|█████████▏| 44214/48008 [6:21:24<30:19,  2.08it/s] 92%|█████████▏| 44215/48008 [6:21:25<30:27,  2.08it/s] 92%|█████████▏| 44216/48008 [6:21:25<30:25,  2.08it/s] 92%|█████████▏| 44217/48008 [6:21:26<30:20,  2.08it/s] 92%|█████████▏| 44218/48008 [6:21:26<30:23,  2.08it/s] 92%|█████████▏| 44219/48008 [6:21:28<45:04,  1.40it/s] 92%|█████████▏| 44220/48008 [6:21:28<40:35,  1.56it/s] 92%|█████████▏| 44221/48008 [6:21:29<36:21,  1.74it/s] 92%|█████████▏| 44222/48008 [6:21:29<34:59,  1.80it/s] 92%|█████████▏| 44223/48008 [6:21:30<33:59,  1.86it/s] 92%|█████████▏| 44224/48008 [6:21:30<32:52,  1.92it/s] 92%|█████████▏| 44225/48008 [6:21:31<32:49,  1.92it/s] 92%|█████████▏| 44226/48008 [6:21:32<46:39,  1.35it/s] 92%|█████████▏| 44227/48008 [6:21:32<42:06,  1.50it/s] 92%|█████████▏| 44228/48008 [6:21:33<38:39,  1.63it/s] 92%|█████████▏| 44229/48008 [6:21:33<36:10,  1.74it/s] 92%|█████████▏| 44230/48008 [6:21:34<34:51,  1.81it/s] 92%|█████████▏| 44231/48008 [6:21:34<32:15,  1.95it/s] 92%|█████████▏| 44232/48008 [6:21:35<32:03,  1.96it/s] 92%|█████████▏| 44233/48008 [6:21:35<31:29,  2.00it/s] 92%|█████████▏| 44234/48008 [6:21:36<29:50,  2.11it/s] 92%|█████████▏| 44235/48008 [6:21:36<31:07,  2.02it/s] 92%|█████████▏| 44236/48008 [6:21:37<31:35,  1.99it/s] 92%|█████████▏| 44237/48008 [6:21:37<31:36,  1.99it/s] 92%|█████████▏| 44238/48008 [6:21:38<32:16,  1.95it/s] 92%|█████████▏| 44239/48008 [6:21:38<32:01,  1.96it/s] 92%|█████████▏| 44240/48008 [6:21:39<31:31,  1.99it/s] 92%|█████████▏| 44241/48008 [6:21:39<29:51,  2.10it/s] 92%|█████████▏| 44242/48008 [6:21:40<30:26,  2.06it/s] 92%|█████████▏| 44243/48008 [6:21:40<31:05,  2.02it/s] 92%|█████████▏| 44244/48008 [6:21:41<30:47,  2.04it/s] 92%|█████████▏| 44245/48008 [6:21:41<30:57,  2.03it/s] 92%|█████████▏| 44246/48008 [6:21:42<30:47,  2.04it/s] 92%|█████████▏| 44247/48008 [6:21:42<30:40,  2.04it/s] 92%|█████████▏| 44248/48008 [6:21:43<34:09,  1.83it/s] 92%|█████████▏| 44249/48008 [6:21:43<33:37,  1.86it/s] 92%|█████████▏| 44250/48008 [6:21:44<32:33,  1.92it/s]                                                        92%|█████████▏| 44250/48008 [6:21:44<32:33,  1.92it/s]{'loss': 4.2631, 'grad_norm': 0.10332012921571732, 'learning_rate': 1.565989001833028e-05, 'epoch': 0.92}
 92%|█████████▏| 44251/48008 [6:21:44<31:46,  1.97it/s] 92%|█████████▏| 44252/48008 [6:21:45<31:44,  1.97it/s] 92%|█████████▏| 44253/48008 [6:21:45<31:09,  2.01it/s] 92%|█████████▏| 44254/48008 [6:21:46<31:14,  2.00it/s] 92%|█████████▏| 44255/48008 [6:21:46<30:56,  2.02it/s] 92%|█████████▏| 44256/48008 [6:21:47<31:43,  1.97it/s] 92%|█████████▏| 44257/48008 [6:21:47<31:14,  2.00it/s] 92%|█████████▏| 44258/48008 [6:21:48<30:54,  2.02it/s] 92%|█████████▏| 44259/48008 [6:21:48<30:37,  2.04it/s] 92%|█████████▏| 44260/48008 [6:21:49<30:46,  2.03it/s] 92%|█████████▏| 44261/48008 [6:21:50<44:55,  1.39it/s] 92%|█████████▏| 44262/48008 [6:21:50<41:31,  1.50it/s] 92%|█████████▏| 44263/48008 [6:21:51<36:53,  1.69it/s] 92%|█████████▏| 44264/48008 [6:21:51<34:46,  1.79it/s] 92%|█████████▏| 44265/48008 [6:21:52<33:17,  1.87it/s] 92%|█████████▏| 44266/48008 [6:21:52<32:16,  1.93it/s] 92%|█████████▏| 44267/48008 [6:21:53<31:58,  1.95it/s] 92%|█████████▏| 44268/48008 [6:21:53<30:04,  2.07it/s] 92%|█████████▏| 44269/48008 [6:21:54<29:59,  2.08it/s] 92%|█████████▏| 44270/48008 [6:21:54<31:06,  2.00it/s] 92%|█████████▏| 44271/48008 [6:21:55<30:49,  2.02it/s] 92%|█████████▏| 44272/48008 [6:21:55<31:14,  1.99it/s] 92%|█████████▏| 44273/48008 [6:21:56<28:58,  2.15it/s] 92%|█████████▏| 44274/48008 [6:21:56<29:15,  2.13it/s] 92%|█████████▏| 44275/48008 [6:21:57<28:14,  2.20it/s] 92%|█████████▏| 44276/48008 [6:21:57<28:45,  2.16it/s] 92%|█████████▏| 44277/48008 [6:21:57<29:04,  2.14it/s] 92%|█████████▏| 44278/48008 [6:21:58<29:47,  2.09it/s] 92%|█████████▏| 44279/48008 [6:21:58<29:49,  2.08it/s] 92%|█████████▏| 44280/48008 [6:21:59<28:37,  2.17it/s] 92%|█████████▏| 44281/48008 [6:21:59<29:45,  2.09it/s] 92%|█████████▏| 44282/48008 [6:22:00<29:48,  2.08it/s] 92%|█████████▏| 44283/48008 [6:22:00<30:13,  2.05it/s] 92%|█████████▏| 44284/48008 [6:22:01<30:06,  2.06it/s] 92%|█████████▏| 44285/48008 [6:22:01<30:40,  2.02it/s] 92%|█████████▏| 44286/48008 [6:22:02<30:18,  2.05it/s] 92%|█████████▏| 44287/48008 [6:22:02<30:55,  2.01it/s] 92%|█████████▏| 44288/48008 [6:22:03<30:59,  2.00it/s] 92%|█████████▏| 44289/48008 [6:22:03<30:36,  2.03it/s] 92%|█████████▏| 44290/48008 [6:22:04<33:55,  1.83it/s] 92%|█████████▏| 44291/48008 [6:22:05<32:44,  1.89it/s] 92%|█████████▏| 44292/48008 [6:22:05<32:32,  1.90it/s] 92%|█████████▏| 44293/48008 [6:22:06<39:04,  1.58it/s] 92%|█████████▏| 44294/48008 [6:22:06<36:14,  1.71it/s] 92%|█████████▏| 44295/48008 [6:22:07<33:04,  1.87it/s] 92%|█████████▏| 44296/48008 [6:22:07<32:01,  1.93it/s] 92%|█████████▏| 44297/48008 [6:22:08<32:28,  1.90it/s] 92%|█████████▏| 44298/48008 [6:22:08<30:23,  2.03it/s] 92%|█████████▏| 44299/48008 [6:22:09<30:40,  2.02it/s] 92%|█████████▏| 44300/48008 [6:22:09<30:48,  2.01it/s]                                                       {'loss': 4.2385, 'grad_norm': 0.10354077816009521, 'learning_rate': 1.5451591401433096e-05, 'epoch': 0.92}
 92%|█████████▏| 44300/48008 [6:22:09<30:48,  2.01it/s] 92%|█████████▏| 44301/48008 [6:22:10<29:16,  2.11it/s] 92%|█████████▏| 44302/48008 [6:22:10<28:13,  2.19it/s] 92%|█████████▏| 44303/48008 [6:22:11<28:38,  2.16it/s] 92%|█████████▏| 44304/48008 [6:22:11<29:58,  2.06it/s] 92%|█████████▏| 44305/48008 [6:22:12<28:36,  2.16it/s] 92%|█████████▏| 44306/48008 [6:22:12<28:56,  2.13it/s] 92%|█████████▏| 44307/48008 [6:22:12<27:54,  2.21it/s] 92%|█████████▏| 44308/48008 [6:22:13<28:56,  2.13it/s] 92%|█████████▏| 44309/48008 [6:22:13<29:06,  2.12it/s] 92%|█████████▏| 44310/48008 [6:22:14<29:16,  2.10it/s] 92%|█████████▏| 44311/48008 [6:22:14<30:01,  2.05it/s] 92%|█████████▏| 44312/48008 [6:22:15<29:56,  2.06it/s] 92%|█████████▏| 44313/48008 [6:22:16<33:25,  1.84it/s] 92%|█████████▏| 44314/48008 [6:22:16<32:12,  1.91it/s] 92%|█████████▏| 44315/48008 [6:22:16<30:14,  2.04it/s] 92%|█████████▏| 44316/48008 [6:22:17<30:02,  2.05it/s] 92%|█████████▏| 44317/48008 [6:22:17<29:52,  2.06it/s] 92%|█████████▏| 44318/48008 [6:22:18<29:44,  2.07it/s] 92%|█████████▏| 44319/48008 [6:22:18<28:29,  2.16it/s] 92%|█████████▏| 44320/48008 [6:22:19<27:39,  2.22it/s] 92%|█████████▏| 44321/48008 [6:22:19<28:36,  2.15it/s] 92%|█████████▏| 44322/48008 [6:22:20<28:51,  2.13it/s] 92%|█████████▏| 44323/48008 [6:22:20<27:50,  2.21it/s] 92%|█████████▏| 44324/48008 [6:22:21<28:48,  2.13it/s] 92%|█████████▏| 44325/48008 [6:22:21<29:44,  2.06it/s] 92%|█████████▏| 44326/48008 [6:22:22<29:41,  2.07it/s] 92%|█████████▏| 44327/48008 [6:22:22<28:24,  2.16it/s] 92%|█████████▏| 44328/48008 [6:22:23<29:04,  2.11it/s] 92%|█████████▏| 44329/48008 [6:22:23<29:30,  2.08it/s] 92%|█████████▏| 44330/48008 [6:22:24<29:27,  2.08it/s] 92%|█████████▏| 44331/48008 [6:22:24<29:25,  2.08it/s] 92%|█████████▏| 44332/48008 [6:22:25<29:50,  2.05it/s] 92%|█████████▏| 44333/48008 [6:22:25<28:29,  2.15it/s] 92%|█████████▏| 44334/48008 [6:22:25<29:14,  2.09it/s] 92%|█████████▏| 44335/48008 [6:22:26<29:21,  2.09it/s] 92%|█████████▏| 44336/48008 [6:22:26<27:33,  2.22it/s] 92%|█████████▏| 44337/48008 [6:22:27<31:43,  1.93it/s] 92%|█████████▏| 44338/48008 [6:22:28<31:40,  1.93it/s] 92%|█████████▏| 44339/48008 [6:22:28<30:58,  1.97it/s] 92%|█████████▏| 44340/48008 [6:22:28<30:33,  2.00it/s] 92%|█████████▏| 44341/48008 [6:22:29<30:34,  2.00it/s] 92%|█████████▏| 44342/48008 [6:22:29<30:53,  1.98it/s] 92%|█████████▏| 44343/48008 [6:22:30<30:20,  2.01it/s] 92%|█████████▏| 44344/48008 [6:22:31<31:07,  1.96it/s] 92%|█████████▏| 44345/48008 [6:22:31<30:31,  2.00it/s] 92%|█████████▏| 44346/48008 [6:22:31<28:57,  2.11it/s] 92%|█████████▏| 44347/48008 [6:22:33<43:09,  1.41it/s] 92%|█████████▏| 44348/48008 [6:22:33<38:57,  1.57it/s] 92%|█████████▏| 44349/48008 [6:22:34<36:46,  1.66it/s] 92%|█████████▏| 44350/48008 [6:22:34<34:52,  1.75it/s]                                                       {'loss': 4.2209, 'grad_norm': 0.16234850883483887, 'learning_rate': 1.5243292784535912e-05, 'epoch': 0.92}
 92%|█████████▏| 44350/48008 [6:22:34<34:52,  1.75it/s] 92%|█████████▏| 44351/48008 [6:22:35<34:18,  1.78it/s] 92%|█████████▏| 44352/48008 [6:22:35<32:46,  1.86it/s] 92%|█████████▏| 44353/48008 [6:22:36<32:29,  1.88it/s] 92%|█████████▏| 44354/48008 [6:22:36<31:52,  1.91it/s] 92%|█████████▏| 44355/48008 [6:22:37<29:50,  2.04it/s] 92%|█████████▏| 44356/48008 [6:22:37<30:20,  2.01it/s] 92%|█████████▏| 44357/48008 [6:22:38<29:57,  2.03it/s] 92%|█████████▏| 44358/48008 [6:22:38<30:10,  2.02it/s] 92%|█████████▏| 44359/48008 [6:22:39<30:19,  2.01it/s] 92%|█████████▏| 44360/48008 [6:22:39<30:00,  2.03it/s] 92%|█████████▏| 44361/48008 [6:22:40<29:40,  2.05it/s] 92%|█████████▏| 44362/48008 [6:22:40<33:00,  1.84it/s] 92%|█████████▏| 44363/48008 [6:22:41<31:53,  1.91it/s] 92%|█████████▏| 44364/48008 [6:22:41<29:49,  2.04it/s] 92%|█████████▏| 44365/48008 [6:22:42<30:18,  2.00it/s] 92%|█████████▏| 44366/48008 [6:22:42<29:58,  2.03it/s] 92%|█████████▏| 44367/48008 [6:22:43<30:08,  2.01it/s] 92%|█████████▏| 44368/48008 [6:22:43<30:09,  2.01it/s] 92%|█████████▏| 44369/48008 [6:22:44<30:30,  1.99it/s] 92%|█████████▏| 44370/48008 [6:22:44<30:36,  1.98it/s] 92%|█████████▏| 44371/48008 [6:22:45<30:09,  2.01it/s] 92%|█████████▏| 44372/48008 [6:22:45<29:48,  2.03it/s] 92%|█████████▏| 44373/48008 [6:22:46<30:02,  2.02it/s] 92%|█████████▏| 44374/48008 [6:22:46<29:43,  2.04it/s] 92%|█████████▏| 44375/48008 [6:22:47<30:33,  1.98it/s] 92%|█████████▏| 44376/48008 [6:22:47<30:47,  1.97it/s] 92%|█████████▏| 44377/48008 [6:22:48<30:40,  1.97it/s] 92%|█████████▏| 44378/48008 [6:22:48<30:55,  1.96it/s] 92%|█████████▏| 44379/48008 [6:22:49<30:16,  2.00it/s] 92%|█████████▏| 44380/48008 [6:22:49<30:15,  2.00it/s] 92%|█████████▏| 44381/48008 [6:22:50<29:51,  2.02it/s] 92%|█████████▏| 44382/48008 [6:22:50<29:35,  2.04it/s] 92%|█████████▏| 44383/48008 [6:22:51<29:24,  2.05it/s] 92%|█████████▏| 44384/48008 [6:22:51<29:20,  2.06it/s] 92%|█████████▏| 44385/48008 [6:22:52<29:58,  2.01it/s] 92%|█████████▏| 44386/48008 [6:22:52<28:30,  2.12it/s] 92%|█████████▏| 44387/48008 [6:22:52<27:28,  2.20it/s] 92%|█████████▏| 44388/48008 [6:22:53<27:56,  2.16it/s] 92%|█████████▏| 44389/48008 [6:22:53<28:34,  2.11it/s] 92%|█████████▏| 44390/48008 [6:22:54<27:30,  2.19it/s] 92%|█████████▏| 44391/48008 [6:22:54<28:55,  2.08it/s] 92%|█████████▏| 44392/48008 [6:22:55<28:53,  2.09it/s] 92%|█████████▏| 44393/48008 [6:22:55<29:15,  2.06it/s] 92%|█████████▏| 44394/48008 [6:22:56<29:04,  2.07it/s] 92%|█████████▏| 44395/48008 [6:22:56<29:28,  2.04it/s] 92%|█████████▏| 44396/48008 [6:22:57<28:08,  2.14it/s] 92%|█████████▏| 44397/48008 [6:22:57<28:45,  2.09it/s] 92%|█████████▏| 44398/48008 [6:22:58<29:09,  2.06it/s] 92%|█████████▏| 44399/48008 [6:22:58<30:07,  2.00it/s] 92%|█████████▏| 44400/48008 [6:22:59<29:46,  2.02it/s]                                                       {'loss': 4.2447, 'grad_norm': 0.09632822871208191, 'learning_rate': 1.5034994167638728e-05, 'epoch': 0.92}
 92%|█████████▏| 44400/48008 [6:22:59<29:46,  2.02it/s] 92%|█████████▏| 44401/48008 [6:22:59<29:26,  2.04it/s] 92%|█████████▏| 44402/48008 [6:23:00<29:12,  2.06it/s] 92%|█████████▏| 44403/48008 [6:23:00<29:07,  2.06it/s] 92%|█████████▏| 44404/48008 [6:23:01<29:28,  2.04it/s] 92%|█████████▏| 44405/48008 [6:23:01<30:00,  2.00it/s] 92%|█████████▏| 44406/48008 [6:23:02<36:43,  1.63it/s] 92%|█████████▏| 44407/48008 [6:23:03<35:01,  1.71it/s] 93%|█████████▎| 44408/48008 [6:23:03<33:33,  1.79it/s] 93%|█████████▎| 44409/48008 [6:23:04<32:32,  1.84it/s] 93%|█████████▎| 44410/48008 [6:23:04<32:29,  1.85it/s] 93%|█████████▎| 44411/48008 [6:23:05<30:09,  1.99it/s] 93%|█████████▎| 44412/48008 [6:23:05<28:33,  2.10it/s] 93%|█████████▎| 44413/48008 [6:23:05<29:01,  2.06it/s] 93%|█████████▎| 44414/48008 [6:23:06<29:58,  2.00it/s] 93%|█████████▎| 44415/48008 [6:23:06<28:25,  2.11it/s] 93%|█████████▎| 44416/48008 [6:23:07<28:32,  2.10it/s] 93%|█████████▎| 44417/48008 [6:23:07<28:34,  2.09it/s] 93%|█████████▎| 44418/48008 [6:23:08<28:37,  2.09it/s] 93%|█████████▎| 44419/48008 [6:23:08<29:21,  2.04it/s] 93%|█████████▎| 44420/48008 [6:23:09<32:35,  1.83it/s] 93%|█████████▎| 44421/48008 [6:23:10<31:50,  1.88it/s] 93%|█████████▎| 44422/48008 [6:23:10<30:52,  1.94it/s] 93%|█████████▎| 44423/48008 [6:23:11<30:11,  1.98it/s] 93%|█████████▎| 44424/48008 [6:23:11<29:46,  2.01it/s] 93%|█████████▎| 44425/48008 [6:23:12<29:26,  2.03it/s] 93%|█████████▎| 44426/48008 [6:23:12<29:42,  2.01it/s] 93%|█████████▎| 44427/48008 [6:23:12<29:24,  2.03it/s] 93%|█████████▎| 44428/48008 [6:23:13<29:29,  2.02it/s] 93%|█████████▎| 44429/48008 [6:23:13<29:41,  2.01it/s] 93%|█████████▎| 44430/48008 [6:23:15<43:10,  1.38it/s] 93%|█████████▎| 44431/48008 [6:23:15<39:12,  1.52it/s] 93%|█████████▎| 44432/48008 [6:23:16<36:00,  1.66it/s] 93%|█████████▎| 44433/48008 [6:23:16<32:35,  1.83it/s] 93%|█████████▎| 44434/48008 [6:23:17<30:11,  1.97it/s] 93%|█████████▎| 44435/48008 [6:23:17<30:20,  1.96it/s] 93%|█████████▎| 44436/48008 [6:23:18<29:50,  1.99it/s] 93%|█████████▎| 44437/48008 [6:23:18<29:29,  2.02it/s] 93%|█████████▎| 44438/48008 [6:23:18<28:01,  2.12it/s] 93%|█████████▎| 44439/48008 [6:23:19<28:49,  2.06it/s] 93%|█████████▎| 44440/48008 [6:23:19<27:34,  2.16it/s] 93%|█████████▎| 44441/48008 [6:23:20<27:53,  2.13it/s] 93%|█████████▎| 44442/48008 [6:23:20<28:05,  2.12it/s] 93%|█████████▎| 44443/48008 [6:23:21<28:12,  2.11it/s] 93%|█████████▎| 44444/48008 [6:23:22<31:49,  1.87it/s] 93%|█████████▎| 44445/48008 [6:23:23<44:35,  1.33it/s] 93%|█████████▎| 44446/48008 [6:23:23<40:12,  1.48it/s] 93%|█████████▎| 44447/48008 [6:23:24<37:03,  1.60it/s] 93%|█████████▎| 44448/48008 [6:23:24<34:52,  1.70it/s] 93%|█████████▎| 44449/48008 [6:23:25<32:56,  1.80it/s] 93%|█████████▎| 44450/48008 [6:23:25<31:58,  1.85it/s]                                                       {'loss': 4.2692, 'grad_norm': 0.09522165358066559, 'learning_rate': 1.4826695550741543e-05, 'epoch': 0.93}
 93%|█████████▎| 44450/48008 [6:23:25<31:58,  1.85it/s] 93%|█████████▎| 44451/48008 [6:23:26<31:55,  1.86it/s] 93%|█████████▎| 44452/48008 [6:23:26<31:20,  1.89it/s] 93%|█████████▎| 44453/48008 [6:23:27<30:59,  1.91it/s] 93%|█████████▎| 44454/48008 [6:23:27<30:16,  1.96it/s] 93%|█████████▎| 44455/48008 [6:23:28<33:09,  1.79it/s] 93%|█████████▎| 44456/48008 [6:23:28<32:14,  1.84it/s] 93%|█████████▎| 44457/48008 [6:23:29<31:06,  1.90it/s] 93%|█████████▎| 44458/48008 [6:23:29<30:19,  1.95it/s] 93%|█████████▎| 44459/48008 [6:23:30<29:47,  1.99it/s] 93%|█████████▎| 44460/48008 [6:23:30<27:37,  2.14it/s] 93%|█████████▎| 44461/48008 [6:23:31<26:45,  2.21it/s] 93%|█████████▎| 44462/48008 [6:23:31<27:41,  2.13it/s] 93%|█████████▎| 44463/48008 [6:23:32<27:54,  2.12it/s] 93%|█████████▎| 44464/48008 [6:23:32<26:51,  2.20it/s] 93%|█████████▎| 44465/48008 [6:23:33<27:59,  2.11it/s] 93%|█████████▎| 44466/48008 [6:23:33<31:30,  1.87it/s] 93%|█████████▎| 44467/48008 [6:23:34<37:39,  1.57it/s] 93%|█████████▎| 44468/48008 [6:23:35<35:48,  1.65it/s] 93%|█████████▎| 44469/48008 [6:23:35<34:13,  1.72it/s] 93%|█████████▎| 44470/48008 [6:23:36<32:25,  1.82it/s] 93%|█████████▎| 44471/48008 [6:23:36<31:06,  1.89it/s] 93%|█████████▎| 44472/48008 [6:23:37<30:13,  1.95it/s] 93%|█████████▎| 44473/48008 [6:23:38<43:25,  1.36it/s] 93%|█████████▎| 44474/48008 [6:23:38<38:49,  1.52it/s] 93%|█████████▎| 44475/48008 [6:23:39<34:31,  1.71it/s] 93%|█████████▎| 44476/48008 [6:23:39<32:37,  1.80it/s] 93%|█████████▎| 44477/48008 [6:23:40<31:17,  1.88it/s] 93%|█████████▎| 44478/48008 [6:23:40<29:16,  2.01it/s] 93%|█████████▎| 44479/48008 [6:23:41<27:46,  2.12it/s] 93%|█████████▎| 44480/48008 [6:23:41<26:43,  2.20it/s] 93%|█████████▎| 44481/48008 [6:23:41<25:58,  2.26it/s] 93%|█████████▎| 44482/48008 [6:23:42<26:40,  2.20it/s] 93%|█████████▎| 44483/48008 [6:23:42<27:01,  2.17it/s] 93%|█████████▎| 44484/48008 [6:23:43<27:24,  2.14it/s] 93%|█████████▎| 44485/48008 [6:23:43<27:39,  2.12it/s] 93%|█████████▎| 44486/48008 [6:23:44<28:10,  2.08it/s] 93%|█████████▎| 44487/48008 [6:23:44<26:59,  2.17it/s] 93%|█████████▎| 44488/48008 [6:23:45<27:41,  2.12it/s] 93%|█████████▎| 44489/48008 [6:23:45<27:51,  2.11it/s] 93%|█████████▎| 44490/48008 [6:23:46<27:58,  2.10it/s] 93%|█████████▎| 44491/48008 [6:23:46<27:57,  2.10it/s] 93%|█████████▎| 44492/48008 [6:23:47<27:58,  2.09it/s] 93%|█████████▎| 44493/48008 [6:23:48<35:04,  1.67it/s] 93%|█████████▎| 44494/48008 [6:23:48<33:00,  1.77it/s] 93%|█████████▎| 44495/48008 [6:23:49<31:31,  1.86it/s] 93%|█████████▎| 44496/48008 [6:23:49<30:29,  1.92it/s] 93%|█████████▎| 44497/48008 [6:23:49<29:43,  1.97it/s] 93%|█████████▎| 44498/48008 [6:23:50<29:09,  2.01it/s] 93%|█████████▎| 44499/48008 [6:23:50<29:17,  2.00it/s] 93%|█████████▎| 44500/48008 [6:23:51<28:53,  2.02it/s]                                                        93%|█████████▎| 44500/48008 [6:23:51<28:53,  2.02it/s]{'loss': 4.2268, 'grad_norm': 0.1079106256365776, 'learning_rate': 1.4618396933844361e-05, 'epoch': 0.93}
 93%|█████████▎| 44501/48008 [6:23:51<29:06,  2.01it/s] 93%|█████████▎| 44502/48008 [6:23:52<28:43,  2.03it/s] 93%|█████████▎| 44503/48008 [6:23:52<26:42,  2.19it/s] 93%|█████████▎| 44504/48008 [6:23:53<27:08,  2.15it/s] 93%|█████████▎| 44505/48008 [6:23:53<27:27,  2.13it/s] 93%|█████████▎| 44506/48008 [6:23:54<27:36,  2.11it/s] 93%|█████████▎| 44507/48008 [6:23:54<28:24,  2.05it/s] 93%|█████████▎| 44508/48008 [6:23:55<27:09,  2.15it/s] 93%|█████████▎| 44509/48008 [6:23:55<27:23,  2.13it/s] 93%|█████████▎| 44510/48008 [6:23:56<27:35,  2.11it/s] 93%|█████████▎| 44511/48008 [6:23:56<27:41,  2.11it/s] 93%|█████████▎| 44512/48008 [6:23:57<27:44,  2.10it/s] 93%|█████████▎| 44513/48008 [6:23:57<27:51,  2.09it/s] 93%|█████████▎| 44514/48008 [6:23:58<27:52,  2.09it/s] 93%|█████████▎| 44515/48008 [6:23:58<28:23,  2.05it/s] 93%|█████████▎| 44516/48008 [6:23:58<27:07,  2.15it/s] 93%|█████████▎| 44517/48008 [6:23:59<27:23,  2.12it/s] 93%|█████████▎| 44518/48008 [6:24:00<41:00,  1.42it/s] 93%|█████████▎| 44519/48008 [6:24:01<37:03,  1.57it/s] 93%|█████████▎| 44520/48008 [6:24:01<33:11,  1.75it/s] 93%|█████████▎| 44521/48008 [6:24:02<31:30,  1.84it/s] 93%|█████████▎| 44522/48008 [6:24:02<29:17,  1.98it/s] 93%|█████████▎| 44523/48008 [6:24:02<27:45,  2.09it/s] 93%|█████████▎| 44524/48008 [6:24:03<28:10,  2.06it/s] 93%|█████████▎| 44525/48008 [6:24:03<28:27,  2.04it/s] 93%|█████████▎| 44526/48008 [6:24:04<28:18,  2.05it/s] 93%|█████████▎| 44527/48008 [6:24:04<28:51,  2.01it/s] 93%|█████████▎| 44528/48008 [6:24:05<29:35,  1.96it/s] 93%|█████████▎| 44529/48008 [6:24:05<29:00,  2.00it/s] 93%|█████████▎| 44530/48008 [6:24:06<29:19,  1.98it/s] 93%|█████████▎| 44531/48008 [6:24:06<28:50,  2.01it/s] 93%|█████████▎| 44532/48008 [6:24:07<27:20,  2.12it/s] 93%|█████████▎| 44533/48008 [6:24:07<27:26,  2.11it/s] 93%|█████████▎| 44534/48008 [6:24:08<27:33,  2.10it/s] 93%|█████████▎| 44535/48008 [6:24:08<26:28,  2.19it/s] 93%|█████████▎| 44536/48008 [6:24:09<27:30,  2.10it/s] 93%|█████████▎| 44537/48008 [6:24:09<27:34,  2.10it/s] 93%|█████████▎| 44538/48008 [6:24:10<26:27,  2.19it/s] 93%|█████████▎| 44539/48008 [6:24:10<26:52,  2.15it/s] 93%|█████████▎| 44540/48008 [6:24:11<27:31,  2.10it/s] 93%|█████████▎| 44541/48008 [6:24:11<28:40,  2.01it/s] 93%|█████████▎| 44542/48008 [6:24:12<28:21,  2.04it/s] 93%|█████████▎| 44543/48008 [6:24:12<27:03,  2.13it/s] 93%|█████████▎| 44544/48008 [6:24:13<27:11,  2.12it/s] 93%|█████████▎| 44545/48008 [6:24:13<27:20,  2.11it/s] 93%|█████████▎| 44546/48008 [6:24:14<28:30,  2.02it/s] 93%|█████████▎| 44547/48008 [6:24:14<28:17,  2.04it/s] 93%|█████████▎| 44548/48008 [6:24:15<28:07,  2.05it/s] 93%|█████████▎| 44549/48008 [6:24:15<28:00,  2.06it/s] 93%|█████████▎| 44550/48008 [6:24:15<27:56,  2.06it/s]                                                       {'loss': 4.1799, 'grad_norm': 0.09412562847137451, 'learning_rate': 1.4410098316947177e-05, 'epoch': 0.93}
 93%|█████████▎| 44550/48008 [6:24:16<27:56,  2.06it/s] 93%|█████████▎| 44551/48008 [6:24:16<27:53,  2.07it/s] 93%|█████████▎| 44552/48008 [6:24:16<28:13,  2.04it/s] 93%|█████████▎| 44553/48008 [6:24:17<28:27,  2.02it/s] 93%|█████████▎| 44554/48008 [6:24:17<27:03,  2.13it/s] 93%|█████████▎| 44555/48008 [6:24:18<26:05,  2.21it/s] 93%|█████████▎| 44556/48008 [6:24:18<25:22,  2.27it/s] 93%|█████████▎| 44557/48008 [6:24:19<26:00,  2.21it/s] 93%|█████████▎| 44558/48008 [6:24:19<25:20,  2.27it/s] 93%|█████████▎| 44559/48008 [6:24:20<26:37,  2.16it/s] 93%|█████████▎| 44560/48008 [6:24:20<25:45,  2.23it/s] 93%|█████████▎| 44561/48008 [6:24:21<26:41,  2.15it/s] 93%|█████████▎| 44562/48008 [6:24:21<26:56,  2.13it/s] 93%|█████████▎| 44563/48008 [6:24:21<26:01,  2.21it/s] 93%|█████████▎| 44564/48008 [6:24:22<26:29,  2.17it/s] 93%|█████████▎| 44565/48008 [6:24:22<25:06,  2.29it/s] 93%|█████████▎| 44566/48008 [6:24:23<25:49,  2.22it/s] 93%|█████████▎| 44567/48008 [6:24:23<26:21,  2.18it/s] 93%|█████████▎| 44568/48008 [6:24:24<26:46,  2.14it/s] 93%|█████████▎| 44569/48008 [6:24:24<25:50,  2.22it/s] 93%|█████████▎| 44570/48008 [6:24:25<25:14,  2.27it/s] 93%|█████████▎| 44571/48008 [6:24:25<26:19,  2.18it/s] 93%|█████████▎| 44572/48008 [6:24:26<25:31,  2.24it/s] 93%|█████████▎| 44573/48008 [6:24:26<26:14,  2.18it/s] 93%|█████████▎| 44574/48008 [6:24:27<29:56,  1.91it/s] 93%|█████████▎| 44575/48008 [6:24:27<29:36,  1.93it/s] 93%|█████████▎| 44576/48008 [6:24:28<28:58,  1.97it/s] 93%|█████████▎| 44577/48008 [6:24:28<28:32,  2.00it/s] 93%|█████████▎| 44578/48008 [6:24:29<28:41,  1.99it/s] 93%|█████████▎| 44579/48008 [6:24:29<28:47,  1.98it/s] 93%|█████████▎| 44580/48008 [6:24:30<29:00,  1.97it/s] 93%|█████████▎| 44581/48008 [6:24:30<28:55,  1.98it/s] 93%|█████████▎| 44582/48008 [6:24:31<28:47,  1.98it/s] 93%|█████████▎| 44583/48008 [6:24:31<29:03,  1.96it/s] 93%|█████████▎| 44584/48008 [6:24:32<28:57,  1.97it/s] 93%|█████████▎| 44585/48008 [6:24:32<28:27,  2.01it/s] 93%|█████████▎| 44586/48008 [6:24:33<28:03,  2.03it/s] 93%|█████████▎| 44587/48008 [6:24:33<28:18,  2.01it/s] 93%|█████████▎| 44588/48008 [6:24:34<28:01,  2.03it/s] 93%|█████████▎| 44589/48008 [6:24:34<28:50,  1.98it/s] 93%|█████████▎| 44590/48008 [6:24:35<28:23,  2.01it/s] 93%|█████████▎| 44591/48008 [6:24:35<28:40,  1.99it/s] 93%|█████████▎| 44592/48008 [6:24:36<28:16,  2.01it/s] 93%|█████████▎| 44593/48008 [6:24:36<28:34,  1.99it/s] 93%|█████████▎| 44594/48008 [6:24:37<27:05,  2.10it/s] 93%|█████████▎| 44595/48008 [6:24:37<27:33,  2.06it/s] 93%|█████████▎| 44596/48008 [6:24:38<28:09,  2.02it/s] 93%|█████████▎| 44597/48008 [6:24:38<27:49,  2.04it/s] 93%|█████████▎| 44598/48008 [6:24:39<26:35,  2.14it/s] 93%|█████████▎| 44599/48008 [6:24:40<39:52,  1.42it/s] 93%|█████████▎| 44600/48008 [6:24:40<36:29,  1.56it/s]                                                       {'loss': 4.218, 'grad_norm': 0.10181744396686554, 'learning_rate': 1.4201799700049992e-05, 'epoch': 0.93}
 93%|█████████▎| 44600/48008 [6:24:40<36:29,  1.56it/s] 93%|█████████▎| 44601/48008 [6:24:41<32:39,  1.74it/s] 93%|█████████▎| 44602/48008 [6:24:41<31:21,  1.81it/s] 93%|█████████▎| 44603/48008 [6:24:42<30:28,  1.86it/s] 93%|█████████▎| 44604/48008 [6:24:42<29:56,  1.89it/s] 93%|█████████▎| 44605/48008 [6:24:43<29:31,  1.92it/s] 93%|█████████▎| 44606/48008 [6:24:43<28:50,  1.97it/s] 93%|█████████▎| 44607/48008 [6:24:44<29:02,  1.95it/s] 93%|█████████▎| 44608/48008 [6:24:44<28:28,  1.99it/s] 93%|█████████▎| 44609/48008 [6:24:45<28:00,  2.02it/s] 93%|█████████▎| 44610/48008 [6:24:45<27:44,  2.04it/s] 93%|█████████▎| 44611/48008 [6:24:46<27:54,  2.03it/s] 93%|█████████▎| 44612/48008 [6:24:46<27:38,  2.05it/s] 93%|█████████▎| 44613/48008 [6:24:47<27:32,  2.05it/s] 93%|█████████▎| 44614/48008 [6:24:47<26:20,  2.15it/s] 93%|█████████▎| 44615/48008 [6:24:48<27:33,  2.05it/s] 93%|█████████▎| 44616/48008 [6:24:48<27:26,  2.06it/s] 93%|█████████▎| 44617/48008 [6:24:49<27:56,  2.02it/s] 93%|█████████▎| 44618/48008 [6:24:49<27:43,  2.04it/s] 93%|█████████▎| 44619/48008 [6:24:50<28:11,  2.00it/s] 93%|█████████▎| 44620/48008 [6:24:50<27:51,  2.03it/s] 93%|█████████▎| 44621/48008 [6:24:50<26:30,  2.13it/s] 93%|█████████▎| 44622/48008 [6:24:51<26:36,  2.12it/s] 93%|█████████▎| 44623/48008 [6:24:51<27:04,  2.08it/s] 93%|█████████▎| 44624/48008 [6:24:52<27:25,  2.06it/s] 93%|█████████▎| 44625/48008 [6:24:52<28:18,  1.99it/s] 93%|█████████▎| 44626/48008 [6:24:53<27:55,  2.02it/s] 93%|█████████▎| 44627/48008 [6:24:54<34:18,  1.64it/s] 93%|█████████▎| 44628/48008 [6:24:54<32:31,  1.73it/s] 93%|█████████▎| 44629/48008 [6:24:55<30:51,  1.82it/s] 93%|█████████▎| 44630/48008 [6:24:55<28:36,  1.97it/s] 93%|█████████▎| 44631/48008 [6:24:56<27:00,  2.08it/s] 93%|█████████▎| 44632/48008 [6:24:56<26:59,  2.08it/s] 93%|█████████▎| 44633/48008 [6:24:57<26:56,  2.09it/s] 93%|█████████▎| 44634/48008 [6:24:57<26:54,  2.09it/s] 93%|█████████▎| 44635/48008 [6:24:58<27:52,  2.02it/s] 93%|█████████▎| 44636/48008 [6:24:58<28:15,  1.99it/s] 93%|█████████▎| 44637/48008 [6:24:59<27:45,  2.02it/s] 93%|█████████▎| 44638/48008 [6:24:59<28:30,  1.97it/s] 93%|█████████▎| 44639/48008 [6:25:00<28:30,  1.97it/s] 93%|█████████▎| 44640/48008 [6:25:00<28:39,  1.96it/s] 93%|█████████▎| 44641/48008 [6:25:01<28:10,  1.99it/s] 93%|█████████▎| 44642/48008 [6:25:01<28:16,  1.98it/s] 93%|█████████▎| 44643/48008 [6:25:02<28:18,  1.98it/s] 93%|█████████▎| 44644/48008 [6:25:02<27:51,  2.01it/s] 93%|█████████▎| 44645/48008 [6:25:03<30:47,  1.82it/s] 93%|█████████▎| 44646/48008 [6:25:03<29:38,  1.89it/s] 93%|█████████▎| 44647/48008 [6:25:04<28:50,  1.94it/s] 93%|█████████▎| 44648/48008 [6:25:05<41:12,  1.36it/s] 93%|█████████▎| 44649/48008 [6:25:05<36:57,  1.51it/s] 93%|█████████▎| 44650/48008 [6:25:06<33:55,  1.65it/s]                                                       {'loss': 4.2403, 'grad_norm': 0.1031150221824646, 'learning_rate': 1.3993501083152808e-05, 'epoch': 0.93} 93%|█████████▎| 44650/48008 [6:25:06<33:55,  1.65it/s]
 93%|█████████▎| 44651/48008 [6:25:06<31:52,  1.76it/s] 93%|█████████▎| 44652/48008 [6:25:07<30:24,  1.84it/s] 93%|█████████▎| 44653/48008 [6:25:07<29:19,  1.91it/s] 93%|█████████▎| 44654/48008 [6:25:08<27:28,  2.03it/s] 93%|█████████▎| 44655/48008 [6:25:08<27:17,  2.05it/s] 93%|█████████▎| 44656/48008 [6:25:09<38:00,  1.47it/s] 93%|█████████▎| 44657/48008 [6:25:10<35:04,  1.59it/s] 93%|█████████▎| 44658/48008 [6:25:10<31:31,  1.77it/s] 93%|█████████▎| 44659/48008 [6:25:12<42:57,  1.30it/s] 93%|█████████▎| 44660/48008 [6:25:12<38:42,  1.44it/s] 93%|█████████▎| 44661/48008 [6:25:13<35:12,  1.58it/s] 93%|█████████▎| 44662/48008 [6:25:13<33:00,  1.69it/s] 93%|█████████▎| 44663/48008 [6:25:14<31:45,  1.76it/s] 93%|█████████▎| 44664/48008 [6:25:14<36:53,  1.51it/s] 93%|█████████▎| 44665/48008 [6:25:15<33:52,  1.64it/s] 93%|█████████▎| 44666/48008 [6:25:16<38:19,  1.45it/s] 93%|█████████▎| 44667/48008 [6:25:17<38:05,  1.46it/s] 93%|█████████▎| 44668/48008 [6:25:17<34:39,  1.61it/s] 93%|█████████▎| 44669/48008 [6:25:18<38:54,  1.43it/s] 93%|█████████▎| 44670/48008 [6:25:18<35:17,  1.58it/s] 93%|█████████▎| 44671/48008 [6:25:19<33:39,  1.65it/s] 93%|█████████▎| 44672/48008 [6:25:19<31:31,  1.76it/s] 93%|█████████▎| 44673/48008 [6:25:20<30:01,  1.85it/s] 93%|█████████▎| 44674/48008 [6:25:20<29:02,  1.91it/s] 93%|█████████▎| 44675/48008 [6:25:21<27:14,  2.04it/s] 93%|█████████▎| 44676/48008 [6:25:21<26:02,  2.13it/s] 93%|█████████▎| 44677/48008 [6:25:22<26:12,  2.12it/s] 93%|█████████▎| 44678/48008 [6:25:22<26:18,  2.11it/s] 93%|█████████▎| 44679/48008 [6:25:23<25:21,  2.19it/s] 93%|█████████▎| 44680/48008 [6:25:23<25:46,  2.15it/s] 93%|█████████▎| 44681/48008 [6:25:24<26:18,  2.11it/s] 93%|█████████▎| 44682/48008 [6:25:24<26:47,  2.07it/s] 93%|█████████▎| 44683/48008 [6:25:25<26:45,  2.07it/s] 93%|█████████▎| 44684/48008 [6:25:25<26:40,  2.08it/s] 93%|█████████▎| 44685/48008 [6:25:25<25:36,  2.16it/s] 93%|█████████▎| 44686/48008 [6:25:26<26:28,  2.09it/s] 93%|█████████▎| 44687/48008 [6:25:26<27:02,  2.05it/s] 93%|█████████▎| 44688/48008 [6:25:27<26:55,  2.05it/s] 93%|█████████▎| 44689/48008 [6:25:27<26:47,  2.06it/s] 93%|█████████▎| 44690/48008 [6:25:28<26:40,  2.07it/s] 93%|█████████▎| 44691/48008 [6:25:28<27:27,  2.01it/s] 93%|█████████▎| 44692/48008 [6:25:29<27:36,  2.00it/s] 93%|█████████▎| 44693/48008 [6:25:29<27:19,  2.02it/s] 93%|█████████▎| 44694/48008 [6:25:30<27:03,  2.04it/s] 93%|█████████▎| 44695/48008 [6:25:31<30:04,  1.84it/s] 93%|█████████▎| 44696/48008 [6:25:31<29:36,  1.86it/s] 93%|█████████▎| 44697/48008 [6:25:31<27:34,  2.00it/s] 93%|█████████▎| 44698/48008 [6:25:32<27:17,  2.02it/s] 93%|█████████▎| 44699/48008 [6:25:32<27:23,  2.01it/s] 93%|█████████▎| 44700/48008 [6:25:33<27:32,  2.00it/s]                                                       {'loss': 4.2445, 'grad_norm': 0.1022057980298996, 'learning_rate': 1.3785202466255625e-05, 'epoch': 0.93}
 93%|█████████▎| 44700/48008 [6:25:33<27:32,  2.00it/s] 93%|█████████▎| 44701/48008 [6:25:33<26:06,  2.11it/s] 93%|█████████▎| 44702/48008 [6:25:34<26:54,  2.05it/s] 93%|█████████▎| 44703/48008 [6:25:34<26:47,  2.06it/s] 93%|█████████▎| 44704/48008 [6:25:35<27:18,  2.02it/s] 93%|█████████▎| 44705/48008 [6:25:35<27:28,  2.00it/s] 93%|█████████▎| 44706/48008 [6:25:36<27:08,  2.03it/s] 93%|█████████▎| 44707/48008 [6:25:36<26:53,  2.05it/s] 93%|█████████▎| 44708/48008 [6:25:37<25:41,  2.14it/s] 93%|█████████▎| 44709/48008 [6:25:38<38:33,  1.43it/s] 93%|█████████▎| 44710/48008 [6:25:39<35:36,  1.54it/s] 93%|█████████▎| 44711/48008 [6:25:39<31:46,  1.73it/s] 93%|█████████▎| 44712/48008 [6:25:39<30:35,  1.80it/s] 93%|█████████▎| 44713/48008 [6:25:40<29:37,  1.85it/s] 93%|█████████▎| 44714/48008 [6:25:40<28:58,  1.89it/s] 93%|█████████▎| 44715/48008 [6:25:41<28:30,  1.93it/s] 93%|█████████▎| 44716/48008 [6:25:41<27:50,  1.97it/s] 93%|█████████▎| 44717/48008 [6:25:42<27:25,  2.00it/s] 93%|█████████▎| 44718/48008 [6:25:43<39:48,  1.38it/s] 93%|█████████▎| 44719/48008 [6:25:44<36:10,  1.51it/s] 93%|█████████▎| 44720/48008 [6:25:44<33:12,  1.65it/s] 93%|█████████▎| 44721/48008 [6:25:45<31:07,  1.76it/s] 93%|█████████▎| 44722/48008 [6:25:45<30:00,  1.82it/s] 93%|█████████▎| 44723/48008 [6:25:46<28:55,  1.89it/s] 93%|█████████▎| 44724/48008 [6:25:46<31:17,  1.75it/s] 93%|█████████▎| 44725/48008 [6:25:47<29:47,  1.84it/s] 93%|█████████▎| 44726/48008 [6:25:47<28:41,  1.91it/s] 93%|█████████▎| 44727/48008 [6:25:48<27:56,  1.96it/s] 93%|█████████▎| 44728/48008 [6:25:48<27:59,  1.95it/s] 93%|█████████▎| 44729/48008 [6:25:49<26:24,  2.07it/s] 93%|█████████▎| 44730/48008 [6:25:49<27:00,  2.02it/s] 93%|█████████▎| 44731/48008 [6:25:50<26:50,  2.04it/s] 93%|█████████▎| 44732/48008 [6:25:50<26:41,  2.05it/s] 93%|█████████▎| 44733/48008 [6:25:51<27:11,  2.01it/s] 93%|█████████▎| 44734/48008 [6:25:51<27:15,  2.00it/s] 93%|█████████▎| 44735/48008 [6:25:52<30:06,  1.81it/s] 93%|█████████▎| 44736/48008 [6:25:52<28:51,  1.89it/s] 93%|█████████▎| 44737/48008 [6:25:53<28:01,  1.94it/s] 93%|█████████▎| 44738/48008 [6:25:53<27:53,  1.95it/s] 93%|█████████▎| 44739/48008 [6:25:54<26:17,  2.07it/s] 93%|█████████▎| 44740/48008 [6:25:54<26:09,  2.08it/s] 93%|█████████▎| 44741/48008 [6:25:55<26:08,  2.08it/s] 93%|█████████▎| 44742/48008 [6:25:55<26:29,  2.06it/s] 93%|█████████▎| 44743/48008 [6:25:56<26:41,  2.04it/s] 93%|█████████▎| 44744/48008 [6:25:56<26:32,  2.05it/s] 93%|█████████▎| 44745/48008 [6:25:57<26:27,  2.06it/s] 93%|█████████▎| 44746/48008 [6:25:57<26:20,  2.06it/s] 93%|█████████▎| 44747/48008 [6:25:58<25:11,  2.16it/s] 93%|█████████▎| 44748/48008 [6:25:58<25:28,  2.13it/s] 93%|█████████▎| 44749/48008 [6:25:59<26:35,  2.04it/s] 93%|█████████▎| 44750/48008 [6:25:59<25:22,  2.14it/s]                                                       {'loss': 4.2413, 'grad_norm': 0.10710353404283524, 'learning_rate': 1.3576903849358441e-05, 'epoch': 0.93}
 93%|█████████▎| 44750/48008 [6:25:59<25:22,  2.14it/s] 93%|█████████▎| 44751/48008 [6:26:00<25:58,  2.09it/s] 93%|█████████▎| 44752/48008 [6:26:00<29:08,  1.86it/s] 93%|█████████▎| 44753/48008 [6:26:01<28:12,  1.92it/s] 93%|█████████▎| 44754/48008 [6:26:01<26:28,  2.05it/s] 93%|█████████▎| 44755/48008 [6:26:02<26:22,  2.06it/s] 93%|█████████▎| 44756/48008 [6:26:02<26:16,  2.06it/s] 93%|█████████▎| 44757/48008 [6:26:02<25:06,  2.16it/s] 93%|█████████▎| 44758/48008 [6:26:03<24:19,  2.23it/s] 93%|█████████▎| 44759/48008 [6:26:03<24:47,  2.18it/s] 93%|█████████▎| 44760/48008 [6:26:04<28:20,  1.91it/s] 93%|█████████▎| 44761/48008 [6:26:05<28:21,  1.91it/s] 93%|█████████▎| 44762/48008 [6:26:05<27:33,  1.96it/s] 93%|█████████▎| 44763/48008 [6:26:06<27:24,  1.97it/s] 93%|█████████▎| 44764/48008 [6:26:06<26:59,  2.00it/s] 93%|█████████▎| 44765/48008 [6:26:07<27:15,  1.98it/s] 93%|█████████▎| 44766/48008 [6:26:07<27:19,  1.98it/s] 93%|█████████▎| 44767/48008 [6:26:08<26:49,  2.01it/s] 93%|█████████▎| 44768/48008 [6:26:08<26:32,  2.03it/s] 93%|█████████▎| 44769/48008 [6:26:08<26:43,  2.02it/s] 93%|█████████▎| 44770/48008 [6:26:10<38:58,  1.38it/s] 93%|█████████▎| 44771/48008 [6:26:10<35:21,  1.53it/s] 93%|█████████▎| 44772/48008 [6:26:11<32:53,  1.64it/s] 93%|█████████▎| 44773/48008 [6:26:11<33:52,  1.59it/s] 93%|█████████▎| 44774/48008 [6:26:12<31:48,  1.69it/s] 93%|█████████▎| 44775/48008 [6:26:12<30:22,  1.77it/s] 93%|█████████▎| 44776/48008 [6:26:13<27:58,  1.93it/s] 93%|█████████▎| 44777/48008 [6:26:13<28:15,  1.91it/s] 93%|█████████▎| 44778/48008 [6:26:14<27:52,  1.93it/s] 93%|█████████▎| 44779/48008 [6:26:14<27:13,  1.98it/s] 93%|█████████▎| 44780/48008 [6:26:15<25:48,  2.09it/s] 93%|█████████▎| 44781/48008 [6:26:15<26:27,  2.03it/s] 93%|█████████▎| 44782/48008 [6:26:16<26:19,  2.04it/s] 93%|█████████▎| 44783/48008 [6:26:16<26:31,  2.03it/s] 93%|█████████▎| 44784/48008 [6:26:17<26:18,  2.04it/s] 93%|█████████▎| 44785/48008 [6:26:17<26:11,  2.05it/s] 93%|█████████▎| 44786/48008 [6:26:18<24:58,  2.15it/s] 93%|█████████▎| 44787/48008 [6:26:18<25:50,  2.08it/s] 93%|█████████▎| 44788/48008 [6:26:19<24:45,  2.17it/s] 93%|█████████▎| 44789/48008 [6:26:19<25:41,  2.09it/s] 93%|█████████▎| 44790/48008 [6:26:20<28:50,  1.86it/s] 93%|█████████▎| 44791/48008 [6:26:20<26:53,  1.99it/s] 93%|█████████▎| 44792/48008 [6:26:21<27:13,  1.97it/s] 93%|█████████▎| 44793/48008 [6:26:21<26:48,  2.00it/s] 93%|█████████▎| 44794/48008 [6:26:22<26:31,  2.02it/s] 93%|█████████▎| 44795/48008 [6:26:22<26:34,  2.01it/s] 93%|█████████▎| 44796/48008 [6:26:23<26:20,  2.03it/s] 93%|█████████▎| 44797/48008 [6:26:23<26:07,  2.05it/s] 93%|█████████▎| 44798/48008 [6:26:24<24:55,  2.15it/s] 93%|█████████▎| 44799/48008 [6:26:24<24:07,  2.22it/s] 93%|█████████▎| 44800/48008 [6:26:24<24:53,  2.15it/s]                                                       {'loss': 4.2511, 'grad_norm': 0.09887178242206573, 'learning_rate': 1.3368605232461257e-05, 'epoch': 0.93}
 93%|█████████▎| 44800/48008 [6:26:24<24:53,  2.15it/s] 93%|█████████▎| 44801/48008 [6:26:25<24:03,  2.22it/s] 93%|█████████▎| 44802/48008 [6:26:25<24:32,  2.18it/s] 93%|█████████▎| 44803/48008 [6:26:26<23:52,  2.24it/s] 93%|█████████▎| 44804/48008 [6:26:26<24:44,  2.16it/s] 93%|█████████▎| 44805/48008 [6:26:27<31:19,  1.70it/s] 93%|█████████▎| 44806/48008 [6:26:28<28:32,  1.87it/s] 93%|█████████▎| 44807/48008 [6:26:28<28:04,  1.90it/s] 93%|█████████▎| 44808/48008 [6:26:28<26:18,  2.03it/s] 93%|█████████▎| 44809/48008 [6:26:29<26:47,  1.99it/s] 93%|█████████▎| 44810/48008 [6:26:30<27:03,  1.97it/s] 93%|█████████▎| 44811/48008 [6:26:30<27:10,  1.96it/s] 93%|█████████▎| 44812/48008 [6:26:31<26:43,  1.99it/s] 93%|█████████▎| 44813/48008 [6:26:31<26:21,  2.02it/s] 93%|█████████▎| 44814/48008 [6:26:31<26:04,  2.04it/s] 93%|█████████▎| 44815/48008 [6:26:32<26:22,  2.02it/s] 93%|█████████▎| 44816/48008 [6:26:32<26:12,  2.03it/s] 93%|█████████▎| 44817/48008 [6:26:33<25:57,  2.05it/s] 93%|█████████▎| 44818/48008 [6:26:33<25:48,  2.06it/s] 93%|█████████▎| 44819/48008 [6:26:34<26:39,  1.99it/s] 93%|█████████▎| 44820/48008 [6:26:34<26:19,  2.02it/s] 93%|█████████▎| 44821/48008 [6:26:35<25:03,  2.12it/s] 93%|█████████▎| 44822/48008 [6:26:35<25:32,  2.08it/s] 93%|█████████▎| 44823/48008 [6:26:36<24:28,  2.17it/s] 93%|█████████▎| 44824/48008 [6:26:36<24:42,  2.15it/s] 93%|█████████▎| 44825/48008 [6:26:37<23:53,  2.22it/s] 93%|█████████▎| 44826/48008 [6:26:37<24:46,  2.14it/s] 93%|█████████▎| 44827/48008 [6:26:38<25:21,  2.09it/s] 93%|█████████▎| 44828/48008 [6:26:38<25:45,  2.06it/s] 93%|█████████▎| 44829/48008 [6:26:39<25:37,  2.07it/s] 93%|█████████▎| 44830/48008 [6:26:39<24:31,  2.16it/s] 93%|█████████▎| 44831/48008 [6:26:40<25:20,  2.09it/s] 93%|█████████▎| 44832/48008 [6:26:41<39:35,  1.34it/s] 93%|█████████▎| 44833/48008 [6:26:41<35:20,  1.50it/s] 93%|█████████▎| 44834/48008 [6:26:42<32:59,  1.60it/s] 93%|█████████▎| 44835/48008 [6:26:43<31:07,  1.70it/s] 93%|█████████▎| 44836/48008 [6:26:43<29:19,  1.80it/s] 93%|█████████▎| 44837/48008 [6:26:44<29:07,  1.81it/s] 93%|█████████▎| 44838/48008 [6:26:45<42:04,  1.26it/s] 93%|█████████▎| 44839/48008 [6:26:45<36:00,  1.47it/s] 93%|█████████▎| 44840/48008 [6:26:47<45:01,  1.17it/s] 93%|█████████▎| 44841/48008 [6:26:47<39:09,  1.35it/s] 93%|█████████▎| 44842/48008 [6:26:47<33:25,  1.58it/s] 93%|█████████▎| 44843/48008 [6:26:48<31:34,  1.67it/s] 93%|█████████▎| 44844/48008 [6:26:49<38:10,  1.38it/s] 93%|█████████▎| 44845/48008 [6:26:49<33:15,  1.59it/s] 93%|█████████▎| 44846/48008 [6:26:50<29:51,  1.76it/s] 93%|█████████▎| 44847/48008 [6:26:51<34:46,  1.52it/s] 93%|█████████▎| 44848/48008 [6:26:51<31:53,  1.65it/s] 93%|█████████▎| 44849/48008 [6:26:52<29:58,  1.76it/s] 93%|█████████▎| 44850/48008 [6:26:52<29:00,  1.81it/s]                                                       {'loss': 4.2069, 'grad_norm': 0.11328750848770142, 'learning_rate': 1.3160306615564072e-05, 'epoch': 0.93} 93%|█████████▎| 44850/48008 [6:26:52<29:00,  1.81it/s]
 93%|█████████▎| 44851/48008 [6:26:53<28:15,  1.86it/s] 93%|█████████▎| 44852/48008 [6:26:53<27:25,  1.92it/s] 93%|█████████▎| 44853/48008 [6:26:54<26:50,  1.96it/s] 93%|█████████▎| 44854/48008 [6:26:54<26:43,  1.97it/s] 93%|█████████▎| 44855/48008 [6:26:55<25:17,  2.08it/s] 93%|█████████▎| 44856/48008 [6:26:55<24:13,  2.17it/s] 93%|█████████▎| 44857/48008 [6:26:55<24:35,  2.14it/s] 93%|█████████▎| 44858/48008 [6:26:56<25:21,  2.07it/s] 93%|█████████▎| 44859/48008 [6:26:56<24:19,  2.16it/s] 93%|█████████▎| 44860/48008 [6:26:57<25:14,  2.08it/s] 93%|█████████▎| 44861/48008 [6:26:57<25:52,  2.03it/s] 93%|█████████▎| 44862/48008 [6:26:58<34:29,  1.52it/s] 93%|█████████▎| 44863/48008 [6:27:00<43:48,  1.20it/s] 93%|█████████▎| 44864/48008 [6:27:00<38:11,  1.37it/s] 93%|█████████▎| 44865/48008 [6:27:01<34:12,  1.53it/s] 93%|█████████▎| 44866/48008 [6:27:01<31:49,  1.65it/s] 93%|█████████▎| 44867/48008 [6:27:02<30:44,  1.70it/s] 93%|█████████▎| 44868/48008 [6:27:02<29:23,  1.78it/s] 93%|█████████▎| 44869/48008 [6:27:03<28:04,  1.86it/s] 93%|█████████▎| 44870/48008 [6:27:03<27:14,  1.92it/s] 93%|█████████▎| 44871/48008 [6:27:04<32:49,  1.59it/s] 93%|█████████▎| 44872/48008 [6:27:05<30:31,  1.71it/s] 93%|█████████▎| 44873/48008 [6:27:05<28:54,  1.81it/s] 93%|█████████▎| 44874/48008 [6:27:05<27:47,  1.88it/s] 93%|█████████▎| 44875/48008 [6:27:06<26:56,  1.94it/s] 93%|█████████▎| 44876/48008 [6:27:06<26:23,  1.98it/s] 93%|█████████▎| 44877/48008 [6:27:07<26:19,  1.98it/s] 93%|█████████▎| 44878/48008 [6:27:07<26:15,  1.99it/s] 93%|█████████▎| 44879/48008 [6:27:08<24:52,  2.10it/s] 93%|█████████▎| 44880/48008 [6:27:08<24:54,  2.09it/s] 93%|█████████▎| 44881/48008 [6:27:09<25:47,  2.02it/s] 93%|█████████▎| 44882/48008 [6:27:09<25:57,  2.01it/s] 93%|█████████▎| 44883/48008 [6:27:10<26:35,  1.96it/s] 93%|█████████▎| 44884/48008 [6:27:10<26:09,  1.99it/s] 93%|█████████▎| 44885/48008 [6:27:11<26:46,  1.94it/s] 93%|█████████▎| 44886/48008 [6:27:11<25:14,  2.06it/s] 93%|█████████▎| 44887/48008 [6:27:12<28:07,  1.85it/s] 94%|█████████▎| 44888/48008 [6:27:13<27:50,  1.87it/s] 94%|█████████▎| 44889/48008 [6:27:13<27:00,  1.92it/s] 94%|█████████▎| 44890/48008 [6:27:14<27:21,  1.90it/s] 94%|█████████▎| 44891/48008 [6:27:14<26:37,  1.95it/s] 94%|█████████▎| 44892/48008 [6:27:15<26:27,  1.96it/s] 94%|█████████▎| 44893/48008 [6:27:15<26:54,  1.93it/s] 94%|█████████▎| 44894/48008 [6:27:16<26:20,  1.97it/s] 94%|█████████▎| 44895/48008 [6:27:16<25:49,  2.01it/s] 94%|█████████▎| 44896/48008 [6:27:17<25:31,  2.03it/s] 94%|█████████▎| 44897/48008 [6:27:17<25:40,  2.02it/s] 94%|█████████▎| 44898/48008 [6:27:18<25:22,  2.04it/s] 94%|█████████▎| 44899/48008 [6:27:18<25:36,  2.02it/s] 94%|█████████▎| 44900/48008 [6:27:19<26:04,  1.99it/s]                                                       {'loss': 4.2809, 'grad_norm': 0.09856398403644562, 'learning_rate': 1.295200799866689e-05, 'epoch': 0.94} 94%|█████████▎| 44900/48008 [6:27:19<26:04,  1.99it/s]
 94%|█████████▎| 44901/48008 [6:27:19<25:42,  2.01it/s] 94%|█████████▎| 44902/48008 [6:27:20<26:00,  1.99it/s] 94%|█████████▎| 44903/48008 [6:27:20<26:06,  1.98it/s] 94%|█████████▎| 44904/48008 [6:27:21<25:44,  2.01it/s] 94%|█████████▎| 44905/48008 [6:27:21<25:54,  2.00it/s] 94%|█████████▎| 44906/48008 [6:27:22<25:33,  2.02it/s] 94%|█████████▎| 44907/48008 [6:27:22<25:23,  2.04it/s] 94%|█████████▎| 44908/48008 [6:27:23<31:16,  1.65it/s] 94%|█████████▎| 44909/48008 [6:27:24<32:18,  1.60it/s] 94%|█████████▎| 44910/48008 [6:27:24<36:12,  1.43it/s] 94%|█████████▎| 44911/48008 [6:27:25<32:48,  1.57it/s] 94%|█████████▎| 44912/48008 [6:27:26<36:36,  1.41it/s] 94%|█████████▎| 44913/48008 [6:27:26<33:25,  1.54it/s] 94%|█████████▎| 44914/48008 [6:27:27<29:50,  1.73it/s] 94%|█████████▎| 44915/48008 [6:27:27<28:40,  1.80it/s] 94%|█████████▎| 44916/48008 [6:27:28<27:32,  1.87it/s] 94%|█████████▎| 44917/48008 [6:27:28<27:04,  1.90it/s] 94%|█████████▎| 44918/48008 [6:27:29<26:43,  1.93it/s] 94%|█████████▎| 44919/48008 [6:27:29<26:11,  1.97it/s] 94%|█████████▎| 44920/48008 [6:27:30<24:47,  2.08it/s] 94%|█████████▎| 44921/48008 [6:27:30<24:49,  2.07it/s] 94%|█████████▎| 44922/48008 [6:27:31<24:48,  2.07it/s] 94%|█████████▎| 44923/48008 [6:27:31<24:47,  2.07it/s] 94%|█████████▎| 44924/48008 [6:27:32<27:45,  1.85it/s] 94%|█████████▎| 44925/48008 [6:27:32<26:49,  1.92it/s] 94%|█████████▎| 44926/48008 [6:27:33<25:11,  2.04it/s] 94%|█████████▎| 44927/48008 [6:27:33<25:00,  2.05it/s] 94%|█████████▎| 44928/48008 [6:27:34<23:55,  2.15it/s] 94%|█████████▎| 44929/48008 [6:27:34<24:09,  2.12it/s] 94%|█████████▎| 44930/48008 [6:27:34<24:20,  2.11it/s] 94%|█████████▎| 44931/48008 [6:27:35<22:53,  2.24it/s] 94%|█████████▎| 44932/48008 [6:27:36<26:23,  1.94it/s] 94%|█████████▎| 44933/48008 [6:27:36<26:45,  1.91it/s] 94%|█████████▎| 44934/48008 [6:27:37<26:08,  1.96it/s] 94%|█████████▎| 44935/48008 [6:27:37<25:44,  1.99it/s] 94%|█████████▎| 44936/48008 [6:27:38<25:21,  2.02it/s] 94%|█████████▎| 44937/48008 [6:27:38<25:31,  2.01it/s] 94%|█████████▎| 44938/48008 [6:27:39<26:09,  1.96it/s] 94%|█████████▎| 44939/48008 [6:27:39<26:03,  1.96it/s] 94%|█████████▎| 44940/48008 [6:27:40<25:40,  1.99it/s] 94%|█████████▎| 44941/48008 [6:27:40<24:19,  2.10it/s] 94%|█████████▎| 44942/48008 [6:27:40<23:20,  2.19it/s] 94%|█████████▎| 44943/48008 [6:27:42<35:37,  1.43it/s] 94%|█████████▎| 44944/48008 [6:27:42<31:18,  1.63it/s] 94%|█████████▎| 44945/48008 [6:27:43<29:18,  1.74it/s] 94%|█████████▎| 44946/48008 [6:27:43<26:54,  1.90it/s] 94%|█████████▎| 44947/48008 [6:27:43<26:14,  1.94it/s] 94%|█████████▎| 44948/48008 [6:27:44<25:41,  1.99it/s] 94%|█████████▎| 44949/48008 [6:27:44<25:18,  2.01it/s] 94%|█████████▎| 44950/48008 [6:27:45<25:40,  1.98it/s]                                                       {'loss': 4.2722, 'grad_norm': 0.09777553379535675, 'learning_rate': 1.2743709381769705e-05, 'epoch': 0.94} 94%|█████████▎| 44950/48008 [6:27:45<25:40,  1.98it/s]
 94%|█████████▎| 44951/48008 [6:27:45<25:22,  2.01it/s] 94%|█████████▎| 44952/48008 [6:27:46<25:09,  2.03it/s] 94%|█████████▎| 44953/48008 [6:27:46<24:57,  2.04it/s] 94%|█████████▎| 44954/48008 [6:27:47<24:47,  2.05it/s] 94%|█████████▎| 44955/48008 [6:27:47<24:39,  2.06it/s] 94%|█████████▎| 44956/48008 [6:27:48<24:31,  2.07it/s] 94%|█████████▎| 44957/48008 [6:27:48<23:30,  2.16it/s] 94%|█████████▎| 44958/48008 [6:27:49<23:48,  2.13it/s] 94%|█████████▎| 44959/48008 [6:27:49<24:25,  2.08it/s] 94%|█████████▎| 44960/48008 [6:27:50<24:41,  2.06it/s] 94%|█████████▎| 44961/48008 [6:27:50<24:35,  2.06it/s] 94%|█████████▎| 44962/48008 [6:27:51<24:33,  2.07it/s] 94%|█████████▎| 44963/48008 [6:27:51<23:32,  2.16it/s] 94%|█████████▎| 44964/48008 [6:27:52<23:48,  2.13it/s] 94%|█████████▎| 44965/48008 [6:27:52<23:58,  2.11it/s] 94%|█████████▎| 44966/48008 [6:27:53<24:44,  2.05it/s] 94%|█████████▎| 44967/48008 [6:27:54<36:23,  1.39it/s] 94%|█████████▎| 44968/48008 [6:27:55<44:24,  1.14it/s] 94%|█████████▎| 44969/48008 [6:27:56<38:22,  1.32it/s] 94%|█████████▎| 44970/48008 [6:27:56<33:10,  1.53it/s] 94%|█████████▎| 44971/48008 [6:27:56<30:29,  1.66it/s] 94%|█████████▎| 44972/48008 [6:27:57<29:00,  1.74it/s] 94%|█████████▎| 44973/48008 [6:27:58<30:31,  1.66it/s] 94%|█████████▎| 44974/48008 [6:27:58<27:41,  1.83it/s] 94%|█████████▎| 44975/48008 [6:27:59<32:40,  1.55it/s] 94%|█████████▎| 44976/48008 [6:27:59<31:06,  1.62it/s] 94%|█████████▎| 44977/48008 [6:28:00<29:04,  1.74it/s] 94%|█████████▎| 44978/48008 [6:28:00<26:40,  1.89it/s] 94%|█████████▎| 44979/48008 [6:28:02<37:40,  1.34it/s] 94%|█████████▎| 44980/48008 [6:28:02<34:15,  1.47it/s] 94%|█████████▎| 44981/48008 [6:28:03<32:08,  1.57it/s] 94%|█████████▎| 44982/48008 [6:28:03<29:48,  1.69it/s] 94%|█████████▎| 44983/48008 [6:28:04<34:09,  1.48it/s] 94%|█████████▎| 44984/48008 [6:28:04<30:11,  1.67it/s] 94%|█████████▎| 44985/48008 [6:28:05<28:46,  1.75it/s] 94%|█████████▎| 44986/48008 [6:28:06<27:59,  1.80it/s] 94%|█████████▎| 44987/48008 [6:28:06<27:26,  1.83it/s] 94%|█████████▎| 44988/48008 [6:28:07<26:28,  1.90it/s] 94%|█████████▎| 44989/48008 [6:28:07<25:44,  1.95it/s] 94%|█████████▎| 44990/48008 [6:28:07<24:19,  2.07it/s] 94%|█████████▎| 44991/48008 [6:28:08<24:14,  2.07it/s] 94%|█████████▎| 44992/48008 [6:28:09<27:12,  1.85it/s] 94%|█████████▎| 44993/48008 [6:28:09<25:18,  1.99it/s] 94%|█████████▎| 44994/48008 [6:28:09<23:58,  2.10it/s] 94%|█████████▎| 44995/48008 [6:28:10<24:51,  2.02it/s] 94%|█████████▎| 44996/48008 [6:28:10<25:01,  2.01it/s] 94%|█████████▎| 44997/48008 [6:28:11<25:37,  1.96it/s] 94%|█████████▎| 44998/48008 [6:28:11<25:09,  1.99it/s] 94%|█████████▎| 44999/48008 [6:28:12<23:51,  2.10it/s] 94%|█████████▎| 45000/48008 [6:28:12<24:17,  2.06it/s]                                                        94%|█████████▎| 45000/48008 [6:28:12<24:17,  2.06it/s]{'loss': 4.2988, 'grad_norm': 0.10207638889551163, 'learning_rate': 1.2535410764872521e-05, 'epoch': 0.94}
 94%|█████████▎| 45001/48008 [6:28:13<24:37,  2.04it/s] 94%|█████████▎| 45002/48008 [6:28:13<25:22,  1.97it/s] 94%|█████████▎| 45003/48008 [6:28:14<24:55,  2.01it/s] 94%|█████████▎| 45004/48008 [6:28:14<23:41,  2.11it/s] 94%|█████████▎| 45005/48008 [6:28:15<24:07,  2.08it/s] 94%|█████████▎| 45006/48008 [6:28:15<24:06,  2.08it/s] 94%|█████████▎| 45007/48008 [6:28:16<24:25,  2.05it/s] 94%|█████████▍| 45008/48008 [6:28:16<24:43,  2.02it/s] 94%|█████████▍| 45009/48008 [6:28:17<23:32,  2.12it/s] 94%|█████████▍| 45010/48008 [6:28:17<26:34,  1.88it/s] 94%|█████████▍| 45011/48008 [6:28:18<26:27,  1.89it/s] 94%|█████████▍| 45012/48008 [6:28:18<26:13,  1.90it/s] 94%|█████████▍| 45013/48008 [6:28:19<26:10,  1.91it/s] 94%|█████████▍| 45014/48008 [6:28:19<24:30,  2.04it/s] 94%|█████████▍| 45015/48008 [6:28:20<23:18,  2.14it/s] 94%|█████████▍| 45016/48008 [6:28:20<26:28,  1.88it/s] 94%|█████████▍| 45017/48008 [6:28:21<25:59,  1.92it/s] 94%|█████████▍| 45018/48008 [6:28:21<23:50,  2.09it/s] 94%|█████████▍| 45019/48008 [6:28:22<23:53,  2.09it/s] 94%|█████████▍| 45020/48008 [6:28:22<24:49,  2.01it/s] 94%|█████████▍| 45021/48008 [6:28:23<24:36,  2.02it/s] 94%|█████████▍| 45022/48008 [6:28:23<24:23,  2.04it/s] 94%|█████████▍| 45023/48008 [6:28:24<24:37,  2.02it/s] 94%|█████████▍| 45024/48008 [6:28:24<24:27,  2.03it/s] 94%|█████████▍| 45025/48008 [6:28:25<27:07,  1.83it/s] 94%|█████████▍| 45026/48008 [6:28:25<25:11,  1.97it/s] 94%|█████████▍| 45027/48008 [6:28:27<36:16,  1.37it/s] 94%|█████████▍| 45028/48008 [6:28:27<32:49,  1.51it/s] 94%|█████████▍| 45029/48008 [6:28:28<29:11,  1.70it/s] 94%|█████████▍| 45030/48008 [6:28:28<27:37,  1.80it/s] 94%|█████████▍| 45031/48008 [6:28:29<26:51,  1.85it/s] 94%|█████████▍| 45032/48008 [6:28:29<28:45,  1.72it/s] 94%|█████████▍| 45033/48008 [6:28:30<27:19,  1.81it/s] 94%|█████████▍| 45034/48008 [6:28:30<26:12,  1.89it/s] 94%|█████████▍| 45035/48008 [6:28:31<25:30,  1.94it/s] 94%|█████████▍| 45036/48008 [6:28:31<25:00,  1.98it/s] 94%|█████████▍| 45037/48008 [6:28:32<24:37,  2.01it/s] 94%|█████████▍| 45038/48008 [6:28:32<24:24,  2.03it/s] 94%|█████████▍| 45039/48008 [6:28:33<24:36,  2.01it/s] 94%|█████████▍| 45040/48008 [6:28:33<24:38,  2.01it/s] 94%|█████████▍| 45041/48008 [6:28:34<24:42,  2.00it/s] 94%|█████████▍| 45042/48008 [6:28:34<24:52,  1.99it/s] 94%|█████████▍| 45043/48008 [6:28:35<23:35,  2.09it/s] 94%|█████████▍| 45044/48008 [6:28:35<23:39,  2.09it/s] 94%|█████████▍| 45045/48008 [6:28:36<23:43,  2.08it/s] 94%|█████████▍| 45046/48008 [6:28:36<22:46,  2.17it/s] 94%|█████████▍| 45047/48008 [6:28:36<23:26,  2.11it/s] 94%|█████████▍| 45048/48008 [6:28:37<24:05,  2.05it/s] 94%|█████████▍| 45049/48008 [6:28:38<24:31,  2.01it/s] 94%|█████████▍| 45050/48008 [6:28:38<24:54,  1.98it/s]                                                       {'loss': 4.268, 'grad_norm': 0.09814468026161194, 'learning_rate': 1.2327112147975338e-05, 'epoch': 0.94} 94%|█████████▍| 45050/48008 [6:28:38<24:54,  1.98it/s]
 94%|█████████▍| 45051/48008 [6:28:39<24:36,  2.00it/s] 94%|█████████▍| 45052/48008 [6:28:39<24:44,  1.99it/s] 94%|█████████▍| 45053/48008 [6:28:39<23:25,  2.10it/s] 94%|█████████▍| 45054/48008 [6:28:40<22:35,  2.18it/s] 94%|█████████▍| 45055/48008 [6:28:41<25:41,  1.92it/s] 94%|█████████▍| 45056/48008 [6:28:41<25:04,  1.96it/s] 94%|█████████▍| 45057/48008 [6:28:41<24:39,  1.99it/s] 94%|█████████▍| 45058/48008 [6:28:42<27:08,  1.81it/s] 94%|█████████▍| 45059/48008 [6:28:43<26:03,  1.89it/s] 94%|█████████▍| 45060/48008 [6:28:43<25:59,  1.89it/s] 94%|█████████▍| 45061/48008 [6:28:44<25:16,  1.94it/s] 94%|█████████▍| 45062/48008 [6:28:44<23:49,  2.06it/s] 94%|█████████▍| 45063/48008 [6:28:45<23:47,  2.06it/s] 94%|█████████▍| 45064/48008 [6:28:45<22:44,  2.16it/s] 94%|█████████▍| 45065/48008 [6:28:45<22:57,  2.14it/s] 94%|█████████▍| 45066/48008 [6:28:46<23:47,  2.06it/s] 94%|█████████▍| 45067/48008 [6:28:46<23:43,  2.07it/s] 94%|█████████▍| 45068/48008 [6:28:47<22:42,  2.16it/s] 94%|█████████▍| 45069/48008 [6:28:47<22:58,  2.13it/s] 94%|█████████▍| 45070/48008 [6:28:48<23:03,  2.12it/s] 94%|█████████▍| 45071/48008 [6:28:48<22:16,  2.20it/s] 94%|█████████▍| 45072/48008 [6:28:49<23:00,  2.13it/s] 94%|█████████▍| 45073/48008 [6:28:49<23:39,  2.07it/s] 94%|█████████▍| 45074/48008 [6:28:50<23:58,  2.04it/s] 94%|█████████▍| 45075/48008 [6:28:50<24:24,  2.00it/s] 94%|█████████▍| 45076/48008 [6:28:51<24:59,  1.96it/s] 94%|█████████▍| 45077/48008 [6:28:51<24:31,  1.99it/s] 94%|█████████▍| 45078/48008 [6:28:52<23:14,  2.10it/s] 94%|█████████▍| 45079/48008 [6:28:52<22:23,  2.18it/s] 94%|█████████▍| 45080/48008 [6:28:53<21:45,  2.24it/s] 94%|█████████▍| 45081/48008 [6:28:53<22:36,  2.16it/s] 94%|█████████▍| 45082/48008 [6:28:54<22:55,  2.13it/s] 94%|█████████▍| 45083/48008 [6:28:54<23:20,  2.09it/s] 94%|█████████▍| 45084/48008 [6:28:55<23:44,  2.05it/s] 94%|█████████▍| 45085/48008 [6:28:55<23:34,  2.07it/s] 94%|█████████▍| 45086/48008 [6:28:56<23:32,  2.07it/s] 94%|█████████▍| 45087/48008 [6:28:56<23:29,  2.07it/s] 94%|█████████▍| 45088/48008 [6:28:56<23:27,  2.08it/s] 94%|█████████▍| 45089/48008 [6:28:57<22:29,  2.16it/s] 94%|█████████▍| 45090/48008 [6:28:57<21:47,  2.23it/s] 94%|█████████▍| 45091/48008 [6:28:58<22:13,  2.19it/s] 94%|█████████▍| 45092/48008 [6:28:58<22:36,  2.15it/s] 94%|█████████▍| 45093/48008 [6:28:59<22:48,  2.13it/s] 94%|█████████▍| 45094/48008 [6:28:59<22:59,  2.11it/s] 94%|█████████▍| 45095/48008 [6:29:00<22:10,  2.19it/s] 94%|█████████▍| 45096/48008 [6:29:00<23:01,  2.11it/s] 94%|█████████▍| 45097/48008 [6:29:01<22:09,  2.19it/s] 94%|█████████▍| 45098/48008 [6:29:01<22:28,  2.16it/s] 94%|█████████▍| 45099/48008 [6:29:02<22:40,  2.14it/s] 94%|█████████▍| 45100/48008 [6:29:02<22:51,  2.12it/s]                                                        94%|█████████▍| 45100/48008 [6:29:02<22:51,  2.12it/s]{'loss': 4.1919, 'grad_norm': 0.0973084419965744, 'learning_rate': 1.2118813531078154e-05, 'epoch': 0.94}
 94%|█████████▍| 45101/48008 [6:29:03<23:54,  2.03it/s] 94%|█████████▍| 45102/48008 [6:29:03<23:40,  2.05it/s] 94%|█████████▍| 45103/48008 [6:29:04<23:31,  2.06it/s] 94%|█████████▍| 45104/48008 [6:29:04<23:27,  2.06it/s] 94%|█████████▍| 45105/48008 [6:29:04<23:23,  2.07it/s] 94%|█████████▍| 45106/48008 [6:29:06<34:34,  1.40it/s] 94%|█████████▍| 45107/48008 [6:29:06<31:13,  1.55it/s] 94%|█████████▍| 45108/48008 [6:29:07<29:08,  1.66it/s] 94%|█████████▍| 45109/48008 [6:29:07<27:40,  1.75it/s] 94%|█████████▍| 45110/48008 [6:29:08<26:53,  1.80it/s] 94%|█████████▍| 45111/48008 [6:29:08<26:05,  1.85it/s] 94%|█████████▍| 45112/48008 [6:29:09<25:11,  1.92it/s] 94%|█████████▍| 45113/48008 [6:29:09<27:26,  1.76it/s] 94%|█████████▍| 45114/48008 [6:29:10<26:11,  1.84it/s] 94%|█████████▍| 45115/48008 [6:29:10<25:55,  1.86it/s] 94%|█████████▍| 45116/48008 [6:29:11<25:05,  1.92it/s] 94%|█████████▍| 45117/48008 [6:29:11<24:55,  1.93it/s] 94%|█████████▍| 45118/48008 [6:29:12<24:43,  1.95it/s] 94%|█████████▍| 45119/48008 [6:29:12<24:18,  1.98it/s] 94%|█████████▍| 45120/48008 [6:29:13<23:57,  2.01it/s] 94%|█████████▍| 45121/48008 [6:29:13<22:48,  2.11it/s] 94%|█████████▍| 45122/48008 [6:29:14<23:10,  2.08it/s] 94%|█████████▍| 45123/48008 [6:29:14<23:07,  2.08it/s] 94%|█████████▍| 45124/48008 [6:29:15<23:23,  2.05it/s] 94%|█████████▍| 45125/48008 [6:29:15<23:21,  2.06it/s] 94%|█████████▍| 45126/48008 [6:29:16<24:10,  1.99it/s] 94%|█████████▍| 45127/48008 [6:29:16<23:51,  2.01it/s] 94%|█████████▍| 45128/48008 [6:29:17<22:41,  2.11it/s] 94%|█████████▍| 45129/48008 [6:29:17<22:49,  2.10it/s] 94%|█████████▍| 45130/48008 [6:29:18<22:54,  2.09it/s] 94%|█████████▍| 45131/48008 [6:29:18<23:00,  2.08it/s] 94%|█████████▍| 45132/48008 [6:29:19<22:03,  2.17it/s] 94%|█████████▍| 45133/48008 [6:29:19<21:23,  2.24it/s] 94%|█████████▍| 45134/48008 [6:29:19<20:56,  2.29it/s] 94%|█████████▍| 45135/48008 [6:29:20<21:56,  2.18it/s] 94%|█████████▍| 45136/48008 [6:29:20<22:36,  2.12it/s] 94%|█████████▍| 45137/48008 [6:29:21<22:45,  2.10it/s] 94%|█████████▍| 45138/48008 [6:29:21<23:42,  2.02it/s] 94%|█████████▍| 45139/48008 [6:29:22<26:19,  1.82it/s] 94%|█████████▍| 45140/48008 [6:29:23<25:41,  1.86it/s] 94%|█████████▍| 45141/48008 [6:29:23<25:39,  1.86it/s] 94%|█████████▍| 45142/48008 [6:29:24<23:54,  2.00it/s] 94%|█████████▍| 45143/48008 [6:29:24<23:32,  2.03it/s] 94%|█████████▍| 45144/48008 [6:29:25<23:22,  2.04it/s] 94%|█████████▍| 45145/48008 [6:29:25<26:01,  1.83it/s] 94%|█████████▍| 45146/48008 [6:29:26<25:06,  1.90it/s] 94%|█████████▍| 45147/48008 [6:29:26<27:13,  1.75it/s] 94%|█████████▍| 45148/48008 [6:29:27<25:51,  1.84it/s] 94%|█████████▍| 45149/48008 [6:29:27<27:43,  1.72it/s] 94%|█████████▍| 45150/48008 [6:29:28<26:38,  1.79it/s]                                                        94%|█████████▍| 45150/48008 [6:29:28<26:38,  1.79it/s]{'loss': 4.2406, 'grad_norm': 0.10474397242069244, 'learning_rate': 1.191051491418097e-05, 'epoch': 0.94}
 94%|█████████▍| 45151/48008 [6:29:28<25:32,  1.86it/s] 94%|█████████▍| 45152/48008 [6:29:29<24:47,  1.92it/s] 94%|█████████▍| 45153/48008 [6:29:30<24:59,  1.90it/s] 94%|█████████▍| 45154/48008 [6:29:30<24:54,  1.91it/s] 94%|█████████▍| 45155/48008 [6:29:31<24:21,  1.95it/s] 94%|█████████▍| 45156/48008 [6:29:31<24:16,  1.96it/s] 94%|█████████▍| 45157/48008 [6:29:32<24:06,  1.97it/s] 94%|█████████▍| 45158/48008 [6:29:32<23:59,  1.98it/s] 94%|█████████▍| 45159/48008 [6:29:33<26:24,  1.80it/s] 94%|█████████▍| 45160/48008 [6:29:33<25:22,  1.87it/s] 94%|█████████▍| 45161/48008 [6:29:34<24:51,  1.91it/s] 94%|█████████▍| 45162/48008 [6:29:34<23:21,  2.03it/s] 94%|█████████▍| 45163/48008 [6:29:35<23:07,  2.05it/s] 94%|█████████▍| 45164/48008 [6:29:35<23:23,  2.03it/s] 94%|█████████▍| 45165/48008 [6:29:36<28:50,  1.64it/s] 94%|█████████▍| 45166/48008 [6:29:37<37:57,  1.25it/s] 94%|█████████▍| 45167/48008 [6:29:38<39:01,  1.21it/s] 94%|█████████▍| 45168/48008 [6:29:39<34:58,  1.35it/s] 94%|█████████▍| 45169/48008 [6:29:39<31:48,  1.49it/s] 94%|█████████▍| 45170/48008 [6:29:40<28:09,  1.68it/s] 94%|█████████▍| 45171/48008 [6:29:40<26:32,  1.78it/s] 94%|█████████▍| 45172/48008 [6:29:41<25:24,  1.86it/s] 94%|█████████▍| 45173/48008 [6:29:41<24:34,  1.92it/s] 94%|█████████▍| 45174/48008 [6:29:41<23:56,  1.97it/s] 94%|█████████▍| 45175/48008 [6:29:42<23:56,  1.97it/s] 94%|█████████▍| 45176/48008 [6:29:42<23:31,  2.01it/s] 94%|█████████▍| 45177/48008 [6:29:43<23:50,  1.98it/s] 94%|█████████▍| 45178/48008 [6:29:44<23:58,  1.97it/s] 94%|█████████▍| 45179/48008 [6:29:44<23:31,  2.00it/s] 94%|█████████▍| 45180/48008 [6:29:44<22:20,  2.11it/s] 94%|█████████▍| 45181/48008 [6:29:45<22:25,  2.10it/s] 94%|█████████▍| 45182/48008 [6:29:45<22:50,  2.06it/s] 94%|█████████▍| 45183/48008 [6:29:46<23:02,  2.04it/s] 94%|█████████▍| 45184/48008 [6:29:46<22:56,  2.05it/s] 94%|█████████▍| 45185/48008 [6:29:47<23:36,  1.99it/s] 94%|█████████▍| 45186/48008 [6:29:48<34:06,  1.38it/s] 94%|█████████▍| 45187/48008 [6:29:49<30:38,  1.53it/s] 94%|█████████▍| 45188/48008 [6:29:49<28:48,  1.63it/s] 94%|█████████▍| 45189/48008 [6:29:50<32:32,  1.44it/s] 94%|█████████▍| 45190/48008 [6:29:51<35:04,  1.34it/s] 94%|█████████▍| 45191/48008 [6:29:51<31:21,  1.50it/s] 94%|█████████▍| 45192/48008 [6:29:52<28:41,  1.64it/s] 94%|█████████▍| 45193/48008 [6:29:53<32:22,  1.45it/s] 94%|█████████▍| 45194/48008 [6:29:53<30:00,  1.56it/s] 94%|█████████▍| 45195/48008 [6:29:54<30:24,  1.54it/s] 94%|█████████▍| 45196/48008 [6:29:54<28:24,  1.65it/s] 94%|█████████▍| 45197/48008 [6:29:55<32:11,  1.45it/s] 94%|█████████▍| 45198/48008 [6:29:56<29:12,  1.60it/s] 94%|█████████▍| 45199/48008 [6:29:56<27:13,  1.72it/s] 94%|█████████▍| 45200/48008 [6:29:57<25:47,  1.81it/s]                                                        94%|█████████▍| 45200/48008 [6:29:57<25:47,  1.81it/s]{'loss': 4.3143, 'grad_norm': 0.09956420212984085, 'learning_rate': 1.1702216297283787e-05, 'epoch': 0.94}
 94%|█████████▍| 45201/48008 [6:29:57<23:56,  1.95it/s] 94%|█████████▍| 45202/48008 [6:29:58<22:34,  2.07it/s] 94%|█████████▍| 45203/48008 [6:29:58<21:39,  2.16it/s] 94%|█████████▍| 45204/48008 [6:29:58<21:57,  2.13it/s] 94%|█████████▍| 45205/48008 [6:29:59<27:35,  1.69it/s] 94%|█████████▍| 45206/48008 [6:30:00<26:01,  1.79it/s] 94%|█████████▍| 45207/48008 [6:30:00<24:57,  1.87it/s] 94%|█████████▍| 45208/48008 [6:30:01<24:32,  1.90it/s] 94%|█████████▍| 45209/48008 [6:30:01<22:28,  2.08it/s] 94%|█████████▍| 45210/48008 [6:30:02<33:13,  1.40it/s] 94%|█████████▍| 45211/48008 [6:30:03<29:53,  1.56it/s] 94%|█████████▍| 45212/48008 [6:30:03<27:59,  1.66it/s] 94%|█████████▍| 45213/48008 [6:30:04<26:38,  1.75it/s] 94%|█████████▍| 45214/48008 [6:30:05<30:52,  1.51it/s] 94%|█████████▍| 45215/48008 [6:30:05<28:53,  1.61it/s] 94%|█████████▍| 45216/48008 [6:30:06<27:13,  1.71it/s] 94%|█████████▍| 45217/48008 [6:30:06<26:01,  1.79it/s] 94%|█████████▍| 45218/48008 [6:30:07<25:25,  1.83it/s] 94%|█████████▍| 45219/48008 [6:30:07<23:36,  1.97it/s] 94%|█████████▍| 45220/48008 [6:30:08<22:18,  2.08it/s] 94%|█████████▍| 45221/48008 [6:30:08<22:19,  2.08it/s] 94%|█████████▍| 45222/48008 [6:30:09<23:06,  2.01it/s] 94%|█████████▍| 45223/48008 [6:30:09<21:57,  2.11it/s] 94%|█████████▍| 45224/48008 [6:30:10<22:06,  2.10it/s] 94%|█████████▍| 45225/48008 [6:30:10<22:42,  2.04it/s] 94%|█████████▍| 45226/48008 [6:30:11<22:31,  2.06it/s] 94%|█████████▍| 45227/48008 [6:30:11<22:22,  2.07it/s] 94%|█████████▍| 45228/48008 [6:30:12<22:21,  2.07it/s] 94%|█████████▍| 45229/48008 [6:30:12<22:18,  2.08it/s] 94%|█████████▍| 45230/48008 [6:30:13<22:12,  2.08it/s] 94%|█████████▍| 45231/48008 [6:30:13<22:28,  2.06it/s] 94%|█████████▍| 45232/48008 [6:30:14<22:52,  2.02it/s] 94%|█████████▍| 45233/48008 [6:30:14<23:13,  1.99it/s] 94%|█████████▍| 45234/48008 [6:30:15<23:30,  1.97it/s] 94%|█████████▍| 45235/48008 [6:30:15<23:27,  1.97it/s] 94%|█████████▍| 45236/48008 [6:30:15<22:11,  2.08it/s] 94%|█████████▍| 45237/48008 [6:30:16<22:38,  2.04it/s] 94%|█████████▍| 45238/48008 [6:30:17<23:17,  1.98it/s] 94%|█████████▍| 45239/48008 [6:30:17<23:28,  1.97it/s] 94%|█████████▍| 45240/48008 [6:30:18<23:01,  2.00it/s] 94%|█████████▍| 45241/48008 [6:30:18<22:46,  2.02it/s] 94%|█████████▍| 45242/48008 [6:30:19<22:36,  2.04it/s] 94%|█████████▍| 45243/48008 [6:30:19<22:49,  2.02it/s] 94%|█████████▍| 45244/48008 [6:30:20<22:55,  2.01it/s] 94%|█████████▍| 45245/48008 [6:30:20<22:39,  2.03it/s] 94%|█████████▍| 45246/48008 [6:30:20<22:30,  2.05it/s] 94%|█████████▍| 45247/48008 [6:30:21<22:23,  2.06it/s] 94%|█████████▍| 45248/48008 [6:30:21<22:16,  2.06it/s] 94%|█████████▍| 45249/48008 [6:30:22<22:45,  2.02it/s] 94%|█████████▍| 45250/48008 [6:30:22<22:52,  2.01it/s]                                                       {'loss': 4.2746, 'grad_norm': 0.10539024323225021, 'learning_rate': 1.1493917680386603e-05, 'epoch': 0.94}
 94%|█████████▍| 45250/48008 [6:30:22<22:52,  2.01it/s] 94%|█████████▍| 45251/48008 [6:30:23<22:39,  2.03it/s] 94%|█████████▍| 45252/48008 [6:30:23<21:34,  2.13it/s] 94%|█████████▍| 45253/48008 [6:30:24<21:46,  2.11it/s] 94%|█████████▍| 45254/48008 [6:30:24<20:57,  2.19it/s] 94%|█████████▍| 45255/48008 [6:30:25<21:16,  2.16it/s] 94%|█████████▍| 45256/48008 [6:30:25<21:35,  2.12it/s] 94%|█████████▍| 45257/48008 [6:30:26<21:58,  2.09it/s] 94%|█████████▍| 45258/48008 [6:30:26<21:57,  2.09it/s] 94%|█████████▍| 45259/48008 [6:30:27<22:12,  2.06it/s] 94%|█████████▍| 45260/48008 [6:30:27<21:13,  2.16it/s] 94%|█████████▍| 45261/48008 [6:30:28<22:07,  2.07it/s] 94%|█████████▍| 45262/48008 [6:30:28<21:11,  2.16it/s] 94%|█████████▍| 45263/48008 [6:30:29<21:27,  2.13it/s] 94%|█████████▍| 45264/48008 [6:30:29<21:55,  2.09it/s] 94%|█████████▍| 45265/48008 [6:30:30<21:52,  2.09it/s] 94%|█████████▍| 45266/48008 [6:30:30<22:44,  2.01it/s] 94%|█████████▍| 45267/48008 [6:30:31<22:30,  2.03it/s] 94%|█████████▍| 45268/48008 [6:30:31<22:23,  2.04it/s] 94%|█████████▍| 45269/48008 [6:30:32<24:50,  1.84it/s] 94%|█████████▍| 45270/48008 [6:30:32<23:54,  1.91it/s] 94%|█████████▍| 45271/48008 [6:30:33<23:18,  1.96it/s] 94%|█████████▍| 45272/48008 [6:30:33<22:52,  1.99it/s] 94%|█████████▍| 45273/48008 [6:30:34<21:40,  2.10it/s] 94%|█████████▍| 45274/48008 [6:30:34<27:11,  1.68it/s] 94%|█████████▍| 45275/48008 [6:30:35<25:38,  1.78it/s] 94%|█████████▍| 45276/48008 [6:30:36<29:51,  1.52it/s] 94%|█████████▍| 45277/48008 [6:30:36<27:28,  1.66it/s] 94%|█████████▍| 45278/48008 [6:30:37<26:16,  1.73it/s] 94%|█████████▍| 45279/48008 [6:30:37<25:00,  1.82it/s] 94%|█████████▍| 45280/48008 [6:30:38<24:32,  1.85it/s] 94%|█████████▍| 45281/48008 [6:30:38<23:46,  1.91it/s] 94%|█████████▍| 45282/48008 [6:30:39<23:26,  1.94it/s] 94%|█████████▍| 45283/48008 [6:30:39<22:59,  1.98it/s] 94%|█████████▍| 45284/48008 [6:30:40<22:40,  2.00it/s] 94%|█████████▍| 45285/48008 [6:30:40<22:38,  2.00it/s] 94%|█████████▍| 45286/48008 [6:30:41<22:43,  2.00it/s] 94%|█████████▍| 45287/48008 [6:30:41<22:24,  2.02it/s] 94%|█████████▍| 45288/48008 [6:30:42<22:15,  2.04it/s] 94%|█████████▍| 45289/48008 [6:30:42<22:07,  2.05it/s] 94%|█████████▍| 45290/48008 [6:30:43<22:01,  2.06it/s] 94%|█████████▍| 45291/48008 [6:30:43<22:30,  2.01it/s] 94%|█████████▍| 45292/48008 [6:30:44<22:17,  2.03it/s] 94%|█████████▍| 45293/48008 [6:30:44<22:28,  2.01it/s] 94%|█████████▍| 45294/48008 [6:30:45<21:22,  2.12it/s] 94%|█████████▍| 45295/48008 [6:30:45<21:49,  2.07it/s] 94%|█████████▍| 45296/48008 [6:30:45<20:25,  2.21it/s] 94%|█████████▍| 45297/48008 [6:30:46<21:11,  2.13it/s] 94%|█████████▍| 45298/48008 [6:30:47<21:55,  2.06it/s] 94%|█████████▍| 45299/48008 [6:30:47<20:56,  2.16it/s] 94%|█████████▍| 45300/48008 [6:30:47<21:39,  2.08it/s]                                                       {'loss': 4.2215, 'grad_norm': 0.09845428168773651, 'learning_rate': 1.128561906348942e-05, 'epoch': 0.94} 94%|█████████▍| 45300/48008 [6:30:47<21:39,  2.08it/s]
 94%|█████████▍| 45301/48008 [6:30:48<21:42,  2.08it/s] 94%|█████████▍| 45302/48008 [6:30:48<21:59,  2.05it/s] 94%|█████████▍| 45303/48008 [6:30:49<20:59,  2.15it/s] 94%|█████████▍| 45304/48008 [6:30:49<21:12,  2.12it/s] 94%|█████████▍| 45305/48008 [6:30:50<21:18,  2.11it/s] 94%|█████████▍| 45306/48008 [6:30:50<21:41,  2.08it/s] 94%|█████████▍| 45307/48008 [6:30:51<20:49,  2.16it/s] 94%|█████████▍| 45308/48008 [6:30:51<21:31,  2.09it/s] 94%|█████████▍| 45309/48008 [6:30:52<21:36,  2.08it/s] 94%|█████████▍| 45310/48008 [6:30:52<20:43,  2.17it/s] 94%|█████████▍| 45311/48008 [6:30:53<20:07,  2.23it/s] 94%|█████████▍| 45312/48008 [6:30:53<20:53,  2.15it/s] 94%|█████████▍| 45313/48008 [6:30:54<23:42,  1.90it/s] 94%|█████████▍| 45314/48008 [6:30:54<25:43,  1.75it/s] 94%|█████████▍| 45315/48008 [6:30:55<24:49,  1.81it/s] 94%|█████████▍| 45316/48008 [6:30:55<24:37,  1.82it/s] 94%|█████████▍| 45317/48008 [6:30:56<24:11,  1.85it/s] 94%|█████████▍| 45318/48008 [6:30:56<23:40,  1.89it/s] 94%|█████████▍| 45319/48008 [6:30:57<22:58,  1.95it/s] 94%|█████████▍| 45320/48008 [6:30:57<21:40,  2.07it/s] 94%|█████████▍| 45321/48008 [6:30:58<21:38,  2.07it/s] 94%|█████████▍| 45322/48008 [6:30:58<21:55,  2.04it/s] 94%|█████████▍| 45323/48008 [6:30:59<21:51,  2.05it/s] 94%|█████████▍| 45324/48008 [6:30:59<22:03,  2.03it/s] 94%|█████████▍| 45325/48008 [6:31:00<27:07,  1.65it/s] 94%|█████████▍| 45326/48008 [6:31:01<35:52,  1.25it/s] 94%|█████████▍| 45327/48008 [6:31:02<32:05,  1.39it/s] 94%|█████████▍| 45328/48008 [6:31:02<28:57,  1.54it/s] 94%|█████████▍| 45329/48008 [6:31:03<25:48,  1.73it/s] 94%|█████████▍| 45330/48008 [6:31:03<25:03,  1.78it/s] 94%|█████████▍| 45331/48008 [6:31:04<23:57,  1.86it/s] 94%|█████████▍| 45332/48008 [6:31:04<23:42,  1.88it/s] 94%|█████████▍| 45333/48008 [6:31:05<23:00,  1.94it/s] 94%|█████████▍| 45334/48008 [6:31:05<21:37,  2.06it/s] 94%|█████████▍| 45335/48008 [6:31:06<21:49,  2.04it/s] 94%|█████████▍| 45336/48008 [6:31:06<21:41,  2.05it/s] 94%|█████████▍| 45337/48008 [6:31:07<20:43,  2.15it/s] 94%|█████████▍| 45338/48008 [6:31:07<21:27,  2.07it/s] 94%|█████████▍| 45339/48008 [6:31:08<21:26,  2.07it/s] 94%|█████████▍| 45340/48008 [6:31:08<21:44,  2.04it/s] 94%|█████████▍| 45341/48008 [6:31:09<21:40,  2.05it/s] 94%|█████████▍| 45342/48008 [6:31:09<21:38,  2.05it/s] 94%|█████████▍| 45343/48008 [6:31:10<21:31,  2.06it/s] 94%|█████████▍| 45344/48008 [6:31:10<21:57,  2.02it/s] 94%|█████████▍| 45345/48008 [6:31:11<22:22,  1.98it/s] 94%|█████████▍| 45346/48008 [6:31:11<22:49,  1.94it/s] 94%|█████████▍| 45347/48008 [6:31:13<32:38,  1.36it/s] 94%|█████████▍| 45348/48008 [6:31:13<28:23,  1.56it/s] 94%|█████████▍| 45349/48008 [6:31:13<24:56,  1.78it/s] 94%|█████████▍| 45350/48008 [6:31:14<24:08,  1.84it/s]                                                       {'loss': 4.2778, 'grad_norm': 0.10062111914157867, 'learning_rate': 1.1077320446592234e-05, 'epoch': 0.94} 94%|█████████▍| 45350/48008 [6:31:14<24:08,  1.84it/s]
 94%|█████████▍| 45351/48008 [6:31:14<23:19,  1.90it/s] 94%|█████████▍| 45352/48008 [6:31:15<22:38,  1.95it/s] 94%|█████████▍| 45353/48008 [6:31:15<22:30,  1.97it/s] 94%|█████████▍| 45354/48008 [6:31:16<22:07,  2.00it/s] 94%|█████████▍| 45355/48008 [6:31:16<21:51,  2.02it/s] 94%|█████████▍| 45356/48008 [6:31:17<22:06,  2.00it/s] 94%|█████████▍| 45357/48008 [6:31:17<21:52,  2.02it/s] 94%|█████████▍| 45358/48008 [6:31:18<20:51,  2.12it/s] 94%|█████████▍| 45359/48008 [6:31:18<20:09,  2.19it/s] 94%|█████████▍| 45360/48008 [6:31:19<21:12,  2.08it/s] 94%|█████████▍| 45361/48008 [6:31:19<21:08,  2.09it/s] 94%|█████████▍| 45362/48008 [6:31:20<21:22,  2.06it/s] 94%|█████████▍| 45363/48008 [6:31:20<21:45,  2.03it/s] 94%|█████████▍| 45364/48008 [6:31:21<21:37,  2.04it/s] 94%|█████████▍| 45365/48008 [6:31:21<21:29,  2.05it/s] 94%|█████████▍| 45366/48008 [6:31:22<21:24,  2.06it/s] 94%|█████████▍| 45367/48008 [6:31:22<21:49,  2.02it/s] 95%|█████████▍| 45368/48008 [6:31:23<21:57,  2.00it/s] 95%|█████████▍| 45369/48008 [6:31:23<21:57,  2.00it/s] 95%|█████████▍| 45370/48008 [6:31:24<21:46,  2.02it/s] 95%|█████████▍| 45371/48008 [6:31:24<21:57,  2.00it/s] 95%|█████████▍| 45372/48008 [6:31:25<21:39,  2.03it/s] 95%|█████████▍| 45373/48008 [6:31:25<21:58,  2.00it/s] 95%|█████████▍| 45374/48008 [6:31:26<22:28,  1.95it/s] 95%|█████████▍| 45375/48008 [6:31:26<21:11,  2.07it/s] 95%|█████████▍| 45376/48008 [6:31:27<21:44,  2.02it/s] 95%|█████████▍| 45377/48008 [6:31:27<26:48,  1.64it/s] 95%|█████████▍| 45378/48008 [6:31:29<35:16,  1.24it/s] 95%|█████████▍| 45379/48008 [6:31:29<31:20,  1.40it/s] 95%|█████████▍| 45380/48008 [6:31:30<28:16,  1.55it/s] 95%|█████████▍| 45381/48008 [6:31:30<26:06,  1.68it/s] 95%|█████████▍| 45382/48008 [6:31:31<24:31,  1.78it/s] 95%|█████████▍| 45383/48008 [6:31:31<23:58,  1.83it/s] 95%|█████████▍| 45384/48008 [6:31:32<23:06,  1.89it/s] 95%|█████████▍| 45385/48008 [6:31:32<22:26,  1.95it/s] 95%|█████████▍| 45386/48008 [6:31:33<22:03,  1.98it/s] 95%|█████████▍| 45387/48008 [6:31:33<22:27,  1.95it/s] 95%|█████████▍| 45388/48008 [6:31:34<21:59,  1.99it/s] 95%|█████████▍| 45389/48008 [6:31:34<20:51,  2.09it/s] 95%|█████████▍| 45390/48008 [6:31:34<20:00,  2.18it/s] 95%|█████████▍| 45391/48008 [6:31:35<20:50,  2.09it/s] 95%|█████████▍| 45392/48008 [6:31:35<20:47,  2.10it/s] 95%|█████████▍| 45393/48008 [6:31:36<20:51,  2.09it/s] 95%|█████████▍| 45394/48008 [6:31:37<26:04,  1.67it/s] 95%|█████████▍| 45395/48008 [6:31:37<24:35,  1.77it/s] 95%|█████████▍| 45396/48008 [6:31:38<23:44,  1.83it/s] 95%|█████████▍| 45397/48008 [6:31:38<22:53,  1.90it/s] 95%|█████████▍| 45398/48008 [6:31:39<22:46,  1.91it/s] 95%|█████████▍| 45399/48008 [6:31:39<22:13,  1.96it/s] 95%|█████████▍| 45400/48008 [6:31:40<22:20,  1.95it/s]                                                       {'loss': 4.2923, 'grad_norm': 0.14188113808631897, 'learning_rate': 1.0869021829695051e-05, 'epoch': 0.95}
 95%|█████████▍| 45400/48008 [6:31:40<22:20,  1.95it/s] 95%|█████████▍| 45401/48008 [6:31:40<22:29,  1.93it/s] 95%|█████████▍| 45402/48008 [6:31:41<21:09,  2.05it/s] 95%|█████████▍| 45403/48008 [6:31:41<20:15,  2.14it/s] 95%|█████████▍| 45404/48008 [6:31:42<30:24,  1.43it/s] 95%|█████████▍| 45405/48008 [6:31:43<27:52,  1.56it/s] 95%|█████████▍| 45406/48008 [6:31:43<26:05,  1.66it/s] 95%|█████████▍| 45407/48008 [6:31:44<24:29,  1.77it/s] 95%|█████████▍| 45408/48008 [6:31:44<22:34,  1.92it/s] 95%|█████████▍| 45409/48008 [6:31:45<22:22,  1.94it/s] 95%|█████████▍| 45410/48008 [6:31:45<21:01,  2.06it/s] 95%|█████████▍| 45411/48008 [6:31:46<20:55,  2.07it/s] 95%|█████████▍| 45412/48008 [6:31:46<20:53,  2.07it/s] 95%|█████████▍| 45413/48008 [6:31:47<20:52,  2.07it/s] 95%|█████████▍| 45414/48008 [6:31:47<20:50,  2.07it/s] 95%|█████████▍| 45415/48008 [6:31:48<20:49,  2.07it/s] 95%|█████████▍| 45416/48008 [6:31:48<20:47,  2.08it/s] 95%|█████████▍| 45417/48008 [6:31:49<21:29,  2.01it/s] 95%|█████████▍| 45418/48008 [6:31:49<23:44,  1.82it/s] 95%|█████████▍| 45419/48008 [6:31:50<21:59,  1.96it/s] 95%|█████████▍| 45420/48008 [6:31:50<24:09,  1.79it/s] 95%|█████████▍| 45421/48008 [6:31:51<23:23,  1.84it/s] 95%|█████████▍| 45422/48008 [6:31:51<22:56,  1.88it/s] 95%|█████████▍| 45423/48008 [6:31:52<22:16,  1.93it/s] 95%|█████████▍| 45424/48008 [6:31:52<22:33,  1.91it/s] 95%|█████████▍| 45425/48008 [6:31:53<21:54,  1.96it/s] 95%|█████████▍| 45426/48008 [6:31:53<22:07,  1.94it/s] 95%|█████████▍| 45427/48008 [6:31:54<21:38,  1.99it/s] 95%|█████████▍| 45428/48008 [6:31:54<22:07,  1.94it/s] 95%|█████████▍| 45429/48008 [6:31:55<20:49,  2.06it/s] 95%|█████████▍| 45430/48008 [6:31:55<19:54,  2.16it/s] 95%|█████████▍| 45431/48008 [6:31:56<20:05,  2.14it/s] 95%|█████████▍| 45432/48008 [6:31:56<19:26,  2.21it/s] 95%|█████████▍| 45433/48008 [6:31:57<19:46,  2.17it/s] 95%|█████████▍| 45434/48008 [6:31:57<20:14,  2.12it/s] 95%|█████████▍| 45435/48008 [6:31:58<19:30,  2.20it/s] 95%|█████████▍| 45436/48008 [6:31:58<19:49,  2.16it/s] 95%|█████████▍| 45437/48008 [6:31:58<19:14,  2.23it/s] 95%|█████████▍| 45438/48008 [6:31:59<18:48,  2.28it/s] 95%|█████████▍| 45439/48008 [6:31:59<20:02,  2.14it/s] 95%|█████████▍| 45440/48008 [6:32:00<25:19,  1.69it/s] 95%|█████████▍| 45441/48008 [6:32:01<24:15,  1.76it/s] 95%|█████████▍| 45442/48008 [6:32:01<23:10,  1.85it/s] 95%|█████████▍| 45443/48008 [6:32:02<22:25,  1.91it/s] 95%|█████████▍| 45444/48008 [6:32:02<21:01,  2.03it/s] 95%|█████████▍| 45445/48008 [6:32:03<21:21,  2.00it/s] 95%|█████████▍| 45446/48008 [6:32:03<21:23,  2.00it/s] 95%|█████████▍| 45447/48008 [6:32:04<30:59,  1.38it/s] 95%|█████████▍| 45448/48008 [6:32:05<30:22,  1.40it/s] 95%|█████████▍| 45449/48008 [6:32:06<26:36,  1.60it/s] 95%|█████████▍| 45450/48008 [6:32:06<23:54,  1.78it/s]                                                       {'loss': 4.2292, 'grad_norm': 0.10947787761688232, 'learning_rate': 1.0660723212797867e-05, 'epoch': 0.95} 95%|█████████▍| 45450/48008 [6:32:06<23:54,  1.78it/s]
 95%|█████████▍| 45451/48008 [6:32:06<23:12,  1.84it/s] 95%|█████████▍| 45452/48008 [6:32:07<21:38,  1.97it/s] 95%|█████████▍| 45453/48008 [6:32:07<20:25,  2.09it/s] 95%|█████████▍| 45454/48008 [6:32:08<19:35,  2.17it/s] 95%|█████████▍| 45455/48008 [6:32:08<19:52,  2.14it/s] 95%|█████████▍| 45456/48008 [6:32:09<20:03,  2.12it/s] 95%|█████████▍| 45457/48008 [6:32:09<20:41,  2.06it/s] 95%|█████████▍| 45458/48008 [6:32:10<30:21,  1.40it/s] 95%|█████████▍| 45459/48008 [6:32:11<29:49,  1.42it/s] 95%|█████████▍| 45460/48008 [6:32:12<29:26,  1.44it/s] 95%|█████████▍| 45461/48008 [6:32:12<26:40,  1.59it/s] 95%|█████████▍| 45462/48008 [6:32:13<25:17,  1.68it/s] 95%|█████████▍| 45463/48008 [6:32:13<24:20,  1.74it/s] 95%|█████████▍| 45464/48008 [6:32:14<23:05,  1.84it/s] 95%|█████████▍| 45465/48008 [6:32:14<22:32,  1.88it/s] 95%|█████████▍| 45466/48008 [6:32:15<21:03,  2.01it/s] 95%|█████████▍| 45467/48008 [6:32:15<20:48,  2.04it/s] 95%|█████████▍| 45468/48008 [6:32:16<23:07,  1.83it/s] 95%|█████████▍| 45469/48008 [6:32:16<22:19,  1.90it/s] 95%|█████████▍| 45470/48008 [6:32:17<21:43,  1.95it/s] 95%|█████████▍| 45471/48008 [6:32:18<23:45,  1.78it/s] 95%|█████████▍| 45472/48008 [6:32:18<23:11,  1.82it/s] 95%|█████████▍| 45473/48008 [6:32:19<22:21,  1.89it/s] 95%|█████████▍| 45474/48008 [6:32:19<20:56,  2.02it/s] 95%|█████████▍| 45475/48008 [6:32:20<23:11,  1.82it/s] 95%|█████████▍| 45476/48008 [6:32:20<22:36,  1.87it/s] 95%|█████████▍| 45477/48008 [6:32:21<21:56,  1.92it/s] 95%|█████████▍| 45478/48008 [6:32:21<21:28,  1.96it/s] 95%|█████████▍| 45479/48008 [6:32:22<21:22,  1.97it/s] 95%|█████████▍| 45480/48008 [6:32:22<21:02,  2.00it/s] 95%|█████████▍| 45481/48008 [6:32:23<31:41,  1.33it/s] 95%|█████████▍| 45482/48008 [6:32:24<28:14,  1.49it/s] 95%|█████████▍| 45483/48008 [6:32:24<25:50,  1.63it/s] 95%|█████████▍| 45484/48008 [6:32:25<24:09,  1.74it/s] 95%|█████████▍| 45485/48008 [6:32:25<22:08,  1.90it/s] 95%|█████████▍| 45486/48008 [6:32:26<21:47,  1.93it/s] 95%|█████████▍| 45487/48008 [6:32:27<32:58,  1.27it/s] 95%|█████████▍| 45488/48008 [6:32:28<28:18,  1.48it/s] 95%|█████████▍| 45489/48008 [6:32:28<26:33,  1.58it/s] 95%|█████████▍| 45490/48008 [6:32:29<25:07,  1.67it/s] 95%|█████████▍| 45491/48008 [6:32:29<22:46,  1.84it/s] 95%|█████████▍| 45492/48008 [6:32:30<22:15,  1.88it/s] 95%|█████████▍| 45493/48008 [6:32:31<28:50,  1.45it/s] 95%|█████████▍| 45494/48008 [6:32:31<26:43,  1.57it/s] 95%|█████████▍| 45495/48008 [6:32:32<27:10,  1.54it/s] 95%|█████████▍| 45496/48008 [6:32:32<25:04,  1.67it/s] 95%|█████████▍| 45497/48008 [6:32:33<23:34,  1.77it/s] 95%|█████████▍| 45498/48008 [6:32:33<21:43,  1.93it/s] 95%|█████████▍| 45499/48008 [6:32:34<20:26,  2.05it/s] 95%|█████████▍| 45500/48008 [6:32:34<20:38,  2.03it/s]                                                       {'loss': 4.245, 'grad_norm': 0.09848549962043762, 'learning_rate': 1.0452424595900684e-05, 'epoch': 0.95}
 95%|█████████▍| 45500/48008 [6:32:34<20:38,  2.03it/s] 95%|█████████▍| 45501/48008 [6:32:35<20:28,  2.04it/s] 95%|█████████▍| 45502/48008 [6:32:35<20:23,  2.05it/s] 95%|█████████▍| 45503/48008 [6:32:36<20:14,  2.06it/s] 95%|█████████▍| 45504/48008 [6:32:36<20:27,  2.04it/s] 95%|█████████▍| 45505/48008 [6:32:37<20:23,  2.05it/s] 95%|█████████▍| 45506/48008 [6:32:37<20:17,  2.06it/s] 95%|█████████▍| 45507/48008 [6:32:38<20:31,  2.03it/s] 95%|█████████▍| 45508/48008 [6:32:38<20:24,  2.04it/s] 95%|█████████▍| 45509/48008 [6:32:39<20:48,  2.00it/s] 95%|█████████▍| 45510/48008 [6:32:40<30:09,  1.38it/s] 95%|█████████▍| 45511/48008 [6:32:41<34:01,  1.22it/s] 95%|█████████▍| 45512/48008 [6:32:41<29:49,  1.39it/s] 95%|█████████▍| 45513/48008 [6:32:42<27:18,  1.52it/s] 95%|█████████▍| 45514/48008 [6:32:42<24:16,  1.71it/s] 95%|█████████▍| 45515/48008 [6:32:43<22:12,  1.87it/s] 95%|█████████▍| 45516/48008 [6:32:43<22:02,  1.88it/s] 95%|█████████▍| 45517/48008 [6:32:44<21:25,  1.94it/s] 95%|█████████▍| 45518/48008 [6:32:44<21:17,  1.95it/s] 95%|█████████▍| 45519/48008 [6:32:45<20:54,  1.98it/s] 95%|█████████▍| 45520/48008 [6:32:45<19:50,  2.09it/s] 95%|█████████▍| 45521/48008 [6:32:46<19:47,  2.09it/s] 95%|█████████▍| 45522/48008 [6:32:46<24:49,  1.67it/s] 95%|█████████▍| 45523/48008 [6:32:47<23:20,  1.77it/s] 95%|█████████▍| 45524/48008 [6:32:47<22:21,  1.85it/s] 95%|█████████▍| 45525/48008 [6:32:48<21:34,  1.92it/s] 95%|█████████▍| 45526/48008 [6:32:48<21:32,  1.92it/s] 95%|█████████▍| 45527/48008 [6:32:49<21:00,  1.97it/s] 95%|█████████▍| 45528/48008 [6:32:49<20:38,  2.00it/s] 95%|█████████▍| 45529/48008 [6:32:50<19:37,  2.11it/s] 95%|█████████▍| 45530/48008 [6:32:50<18:53,  2.19it/s] 95%|█████████▍| 45531/48008 [6:32:51<19:08,  2.16it/s] 95%|█████████▍| 45532/48008 [6:32:51<18:34,  2.22it/s] 95%|█████████▍| 45533/48008 [6:32:52<18:58,  2.17it/s] 95%|█████████▍| 45534/48008 [6:32:52<19:29,  2.12it/s] 95%|█████████▍| 45535/48008 [6:32:53<19:53,  2.07it/s] 95%|█████████▍| 45536/48008 [6:32:53<19:04,  2.16it/s] 95%|█████████▍| 45537/48008 [6:32:54<19:57,  2.06it/s] 95%|█████████▍| 45538/48008 [6:32:54<19:52,  2.07it/s] 95%|█████████▍| 45539/48008 [6:32:54<19:53,  2.07it/s] 95%|█████████▍| 45540/48008 [6:32:55<19:51,  2.07it/s] 95%|█████████▍| 45541/48008 [6:32:55<20:04,  2.05it/s] 95%|█████████▍| 45542/48008 [6:32:56<24:50,  1.65it/s] 95%|█████████▍| 45543/48008 [6:32:57<23:20,  1.76it/s] 95%|█████████▍| 45544/48008 [6:32:57<22:33,  1.82it/s] 95%|█████████▍| 45545/48008 [6:32:58<21:58,  1.87it/s] 95%|█████████▍| 45546/48008 [6:32:58<20:30,  2.00it/s] 95%|█████████▍| 45547/48008 [6:32:59<20:14,  2.03it/s] 95%|█████████▍| 45548/48008 [6:32:59<19:17,  2.13it/s] 95%|█████████▍| 45549/48008 [6:33:00<19:27,  2.11it/s] 95%|█████████▍| 45550/48008 [6:33:00<19:29,  2.10it/s]                                                       {'loss': 4.2593, 'grad_norm': 0.10822489112615585, 'learning_rate': 1.02441259790035e-05, 'epoch': 0.95} 95%|█████████▍| 45550/48008 [6:33:00<19:29,  2.10it/s]
 95%|█████████▍| 45551/48008 [6:33:01<18:46,  2.18it/s] 95%|█████████▍| 45552/48008 [6:33:01<19:20,  2.12it/s] 95%|█████████▍| 45553/48008 [6:33:02<19:41,  2.08it/s] 95%|█████████▍| 45554/48008 [6:33:02<20:08,  2.03it/s] 95%|█████████▍| 45555/48008 [6:33:02<19:13,  2.13it/s] 95%|█████████▍| 45556/48008 [6:33:03<19:22,  2.11it/s] 95%|█████████▍| 45557/48008 [6:33:03<19:25,  2.10it/s] 95%|█████████▍| 45558/48008 [6:33:04<19:30,  2.09it/s] 95%|█████████▍| 45559/48008 [6:33:04<19:45,  2.07it/s] 95%|█████████▍| 45560/48008 [6:33:05<19:44,  2.07it/s] 95%|█████████▍| 45561/48008 [6:33:05<19:56,  2.05it/s] 95%|█████████▍| 45562/48008 [6:33:06<20:33,  1.98it/s] 95%|█████████▍| 45563/48008 [6:33:07<22:39,  1.80it/s] 95%|█████████▍| 45564/48008 [6:33:07<21:44,  1.87it/s] 95%|█████████▍| 45565/48008 [6:33:08<23:24,  1.74it/s] 95%|█████████▍| 45566/48008 [6:33:08<22:33,  1.80it/s] 95%|█████████▍| 45567/48008 [6:33:09<21:36,  1.88it/s] 95%|█████████▍| 45568/48008 [6:33:09<21:29,  1.89it/s] 95%|█████████▍| 45569/48008 [6:33:10<21:10,  1.92it/s] 95%|█████████▍| 45570/48008 [6:33:10<19:54,  2.04it/s] 95%|█████████▍| 45571/48008 [6:33:11<19:48,  2.05it/s] 95%|█████████▍| 45572/48008 [6:33:11<20:03,  2.02it/s] 95%|█████████▍| 45573/48008 [6:33:12<20:08,  2.01it/s] 95%|█████████▍| 45574/48008 [6:33:12<19:57,  2.03it/s] 95%|█████████▍| 45575/48008 [6:33:13<19:02,  2.13it/s] 95%|█████████▍| 45576/48008 [6:33:13<19:10,  2.11it/s] 95%|█████████▍| 45577/48008 [6:33:14<28:43,  1.41it/s] 95%|█████████▍| 45578/48008 [6:33:15<25:55,  1.56it/s] 95%|█████████▍| 45579/48008 [6:33:15<24:16,  1.67it/s] 95%|█████████▍| 45580/48008 [6:33:16<22:45,  1.78it/s] 95%|█████████▍| 45581/48008 [6:33:16<22:18,  1.81it/s] 95%|█████████▍| 45582/48008 [6:33:17<21:27,  1.88it/s] 95%|█████████▍| 45583/48008 [6:33:17<21:03,  1.92it/s] 95%|█████████▍| 45584/48008 [6:33:18<20:35,  1.96it/s] 95%|█████████▍| 45585/48008 [6:33:18<20:17,  1.99it/s] 95%|█████████▍| 45586/48008 [6:33:19<19:13,  2.10it/s] 95%|█████████▍| 45587/48008 [6:33:19<19:18,  2.09it/s] 95%|█████████▍| 45588/48008 [6:33:20<19:15,  2.10it/s] 95%|█████████▍| 45589/48008 [6:33:20<19:32,  2.06it/s] 95%|█████████▍| 45590/48008 [6:33:21<19:28,  2.07it/s] 95%|█████████▍| 45591/48008 [6:33:21<19:43,  2.04it/s] 95%|█████████▍| 45592/48008 [6:33:22<19:35,  2.05it/s] 95%|█████████▍| 45593/48008 [6:33:22<18:43,  2.15it/s] 95%|█████████▍| 45594/48008 [6:33:23<18:56,  2.12it/s] 95%|█████████▍| 45595/48008 [6:33:23<18:17,  2.20it/s] 95%|█████████▍| 45596/48008 [6:33:23<18:37,  2.16it/s] 95%|█████████▍| 45597/48008 [6:33:24<18:48,  2.14it/s] 95%|█████████▍| 45598/48008 [6:33:24<19:10,  2.09it/s] 95%|█████████▍| 45599/48008 [6:33:25<18:27,  2.18it/s] 95%|█████████▍| 45600/48008 [6:33:25<18:41,  2.15it/s]                                                       {'loss': 4.2228, 'grad_norm': 0.10612735152244568, 'learning_rate': 1.0035827362106316e-05, 'epoch': 0.95}
 95%|█████████▍| 45600/48008 [6:33:25<18:41,  2.15it/s] 95%|█████████▍| 45601/48008 [6:33:26<18:53,  2.12it/s] 95%|█████████▍| 45602/48008 [6:33:26<19:01,  2.11it/s] 95%|█████████▍| 45603/48008 [6:33:27<19:04,  2.10it/s] 95%|█████████▍| 45604/48008 [6:33:27<19:07,  2.10it/s] 95%|█████████▍| 45605/48008 [6:33:28<28:25,  1.41it/s] 95%|█████████▍| 45606/48008 [6:33:29<25:56,  1.54it/s] 95%|█████████▍| 45607/48008 [6:33:30<26:15,  1.52it/s] 95%|█████████▌| 45608/48008 [6:33:30<24:26,  1.64it/s] 95%|█████████▌| 45609/48008 [6:33:31<23:23,  1.71it/s] 95%|█████████▌| 45610/48008 [6:33:31<21:21,  1.87it/s] 95%|█████████▌| 45611/48008 [6:33:32<20:42,  1.93it/s] 95%|█████████▌| 45612/48008 [6:33:32<20:12,  1.98it/s] 95%|█████████▌| 45613/48008 [6:33:32<19:09,  2.08it/s] 95%|█████████▌| 45614/48008 [6:33:33<19:51,  2.01it/s] 95%|█████████▌| 45615/48008 [6:33:33<18:29,  2.16it/s] 95%|█████████▌| 45616/48008 [6:33:34<19:14,  2.07it/s] 95%|█████████▌| 45617/48008 [6:33:34<19:12,  2.07it/s] 95%|█████████▌| 45618/48008 [6:33:35<19:09,  2.08it/s] 95%|█████████▌| 45619/48008 [6:33:35<19:09,  2.08it/s] 95%|█████████▌| 45620/48008 [6:33:36<19:21,  2.06it/s] 95%|█████████▌| 45621/48008 [6:33:36<18:31,  2.15it/s] 95%|█████████▌| 45622/48008 [6:33:37<17:52,  2.22it/s] 95%|█████████▌| 45623/48008 [6:33:37<18:47,  2.12it/s] 95%|█████████▌| 45624/48008 [6:33:38<19:05,  2.08it/s] 95%|█████████▌| 45625/48008 [6:33:38<19:28,  2.04it/s] 95%|█████████▌| 45626/48008 [6:33:39<28:31,  1.39it/s] 95%|█████████▌| 45627/48008 [6:33:40<25:57,  1.53it/s] 95%|█████████▌| 45628/48008 [6:33:40<24:22,  1.63it/s] 95%|█████████▌| 45629/48008 [6:33:41<23:12,  1.71it/s] 95%|█████████▌| 45630/48008 [6:33:41<21:09,  1.87it/s] 95%|█████████▌| 45631/48008 [6:33:42<20:28,  1.94it/s] 95%|█████████▌| 45632/48008 [6:33:42<19:18,  2.05it/s] 95%|█████████▌| 45633/48008 [6:33:43<19:31,  2.03it/s] 95%|█████████▌| 45634/48008 [6:33:43<19:23,  2.04it/s] 95%|█████████▌| 45635/48008 [6:33:44<19:47,  2.00it/s] 95%|█████████▌| 45636/48008 [6:33:44<19:31,  2.02it/s] 95%|█████████▌| 45637/48008 [6:33:45<19:24,  2.04it/s] 95%|█████████▌| 45638/48008 [6:33:45<19:20,  2.04it/s] 95%|█████████▌| 45639/48008 [6:33:46<19:12,  2.06it/s] 95%|█████████▌| 45640/48008 [6:33:46<19:28,  2.03it/s] 95%|█████████▌| 45641/48008 [6:33:47<20:04,  1.97it/s] 95%|█████████▌| 45642/48008 [6:33:47<19:46,  1.99it/s] 95%|█████████▌| 45643/48008 [6:33:48<19:45,  2.00it/s] 95%|█████████▌| 45644/48008 [6:33:48<19:35,  2.01it/s] 95%|█████████▌| 45645/48008 [6:33:49<24:00,  1.64it/s] 95%|█████████▌| 45646/48008 [6:33:50<22:41,  1.73it/s] 95%|█████████▌| 45647/48008 [6:33:50<23:48,  1.65it/s] 95%|█████████▌| 45648/48008 [6:33:51<21:37,  1.82it/s] 95%|█████████▌| 45649/48008 [6:33:51<21:12,  1.85it/s] 95%|█████████▌| 45650/48008 [6:33:52<22:45,  1.73it/s]                                                       {'loss': 4.2359, 'grad_norm': 0.10689368098974228, 'learning_rate': 9.827528745209131e-06, 'epoch': 0.95} 95%|█████████▌| 45650/48008 [6:33:52<22:45,  1.73it/s]
 95%|█████████▌| 45651/48008 [6:33:52<21:53,  1.79it/s] 95%|█████████▌| 45652/48008 [6:33:53<21:00,  1.87it/s] 95%|█████████▌| 45653/48008 [6:33:53<20:36,  1.90it/s] 95%|█████████▌| 45654/48008 [6:33:54<19:20,  2.03it/s] 95%|█████████▌| 45655/48008 [6:33:54<19:28,  2.01it/s] 95%|█████████▌| 45656/48008 [6:33:55<19:32,  2.01it/s] 95%|█████████▌| 45657/48008 [6:33:55<19:24,  2.02it/s] 95%|█████████▌| 45658/48008 [6:33:56<23:58,  1.63it/s] 95%|█████████▌| 45659/48008 [6:33:57<21:41,  1.80it/s] 95%|█████████▌| 45660/48008 [6:33:57<21:16,  1.84it/s] 95%|█████████▌| 45661/48008 [6:33:58<20:32,  1.91it/s] 95%|█████████▌| 45662/48008 [6:33:58<20:16,  1.93it/s] 95%|█████████▌| 45663/48008 [6:33:59<28:52,  1.35it/s] 95%|█████████▌| 45664/48008 [6:34:00<25:51,  1.51it/s] 95%|█████████▌| 45665/48008 [6:34:00<23:57,  1.63it/s] 95%|█████████▌| 45666/48008 [6:34:01<22:23,  1.74it/s] 95%|█████████▌| 45667/48008 [6:34:01<21:44,  1.79it/s] 95%|█████████▌| 45668/48008 [6:34:02<21:32,  1.81it/s] 95%|█████████▌| 45669/48008 [6:34:02<19:55,  1.96it/s] 95%|█████████▌| 45670/48008 [6:34:03<19:33,  1.99it/s] 95%|█████████▌| 45671/48008 [6:34:03<19:44,  1.97it/s] 95%|█████████▌| 45672/48008 [6:34:04<18:40,  2.09it/s] 95%|█████████▌| 45673/48008 [6:34:04<18:55,  2.06it/s] 95%|█████████▌| 45674/48008 [6:34:05<18:47,  2.07it/s] 95%|█████████▌| 45675/48008 [6:34:05<21:01,  1.85it/s] 95%|█████████▌| 45676/48008 [6:34:06<20:23,  1.91it/s] 95%|█████████▌| 45677/48008 [6:34:06<20:11,  1.92it/s] 95%|█████████▌| 45678/48008 [6:34:07<19:59,  1.94it/s] 95%|█████████▌| 45679/48008 [6:34:07<19:38,  1.98it/s] 95%|█████████▌| 45680/48008 [6:34:08<19:43,  1.97it/s] 95%|█████████▌| 45681/48008 [6:34:08<19:44,  1.96it/s] 95%|█████████▌| 45682/48008 [6:34:09<19:23,  2.00it/s] 95%|█████████▌| 45683/48008 [6:34:09<19:25,  1.99it/s] 95%|█████████▌| 45684/48008 [6:34:10<19:16,  2.01it/s] 95%|█████████▌| 45685/48008 [6:34:10<19:04,  2.03it/s] 95%|█████████▌| 45686/48008 [6:34:12<27:50,  1.39it/s] 95%|█████████▌| 45687/48008 [6:34:12<24:19,  1.59it/s] 95%|█████████▌| 45688/48008 [6:34:13<22:51,  1.69it/s] 95%|█████████▌| 45689/48008 [6:34:13<20:50,  1.85it/s] 95%|█████████▌| 45690/48008 [6:34:13<20:09,  1.92it/s] 95%|█████████▌| 45691/48008 [6:34:14<20:00,  1.93it/s] 95%|█████████▌| 45692/48008 [6:34:14<19:32,  1.98it/s] 95%|█████████▌| 45693/48008 [6:34:15<19:17,  2.00it/s] 95%|█████████▌| 45694/48008 [6:34:15<18:21,  2.10it/s] 95%|█████████▌| 45695/48008 [6:34:16<18:20,  2.10it/s] 95%|█████████▌| 45696/48008 [6:34:16<18:48,  2.05it/s] 95%|█████████▌| 45697/48008 [6:34:17<18:42,  2.06it/s] 95%|█████████▌| 45698/48008 [6:34:17<17:57,  2.14it/s] 95%|█████████▌| 45699/48008 [6:34:18<18:51,  2.04it/s] 95%|█████████▌| 45700/48008 [6:34:18<18:45,  2.05it/s]                                                       {'loss': 4.2646, 'grad_norm': 0.10588619112968445, 'learning_rate': 9.619230128311949e-06, 'epoch': 0.95}
 95%|█████████▌| 45700/48008 [6:34:18<18:45,  2.05it/s] 95%|█████████▌| 45701/48008 [6:34:19<20:56,  1.84it/s] 95%|█████████▌| 45702/48008 [6:34:19<19:24,  1.98it/s] 95%|█████████▌| 45703/48008 [6:34:20<19:26,  1.98it/s] 95%|█████████▌| 45704/48008 [6:34:21<21:21,  1.80it/s] 95%|█████████▌| 45705/48008 [6:34:21<20:29,  1.87it/s] 95%|█████████▌| 45706/48008 [6:34:22<20:07,  1.91it/s] 95%|█████████▌| 45707/48008 [6:34:22<19:37,  1.95it/s] 95%|█████████▌| 45708/48008 [6:34:22<19:14,  1.99it/s] 95%|█████████▌| 45709/48008 [6:34:23<18:18,  2.09it/s] 95%|█████████▌| 45710/48008 [6:34:23<18:22,  2.08it/s] 95%|█████████▌| 45711/48008 [6:34:24<18:21,  2.09it/s] 95%|█████████▌| 45712/48008 [6:34:24<17:38,  2.17it/s] 95%|█████████▌| 45713/48008 [6:34:25<17:52,  2.14it/s] 95%|█████████▌| 45714/48008 [6:34:25<18:00,  2.12it/s] 95%|█████████▌| 45715/48008 [6:34:26<18:23,  2.08it/s] 95%|█████████▌| 45716/48008 [6:34:26<18:24,  2.07it/s] 95%|█████████▌| 45717/48008 [6:34:27<18:51,  2.02it/s] 95%|█████████▌| 45718/48008 [6:34:27<19:01,  2.01it/s] 95%|█████████▌| 45719/48008 [6:34:28<18:47,  2.03it/s] 95%|█████████▌| 45720/48008 [6:34:28<19:09,  1.99it/s] 95%|█████████▌| 45721/48008 [6:34:29<19:27,  1.96it/s] 95%|█████████▌| 45722/48008 [6:34:29<18:21,  2.08it/s] 95%|█████████▌| 45723/48008 [6:34:30<18:17,  2.08it/s] 95%|█████████▌| 45724/48008 [6:34:30<18:44,  2.03it/s] 95%|█████████▌| 45725/48008 [6:34:31<19:16,  1.97it/s] 95%|█████████▌| 45726/48008 [6:34:31<18:59,  2.00it/s] 95%|█████████▌| 45727/48008 [6:34:32<18:45,  2.03it/s] 95%|█████████▌| 45728/48008 [6:34:32<18:41,  2.03it/s] 95%|█████████▌| 45729/48008 [6:34:33<18:37,  2.04it/s] 95%|█████████▌| 45730/48008 [6:34:33<17:48,  2.13it/s] 95%|█████████▌| 45731/48008 [6:34:34<18:37,  2.04it/s] 95%|█████████▌| 45732/48008 [6:34:34<17:45,  2.14it/s] 95%|█████████▌| 45733/48008 [6:34:35<22:21,  1.70it/s] 95%|█████████▌| 45734/48008 [6:34:35<21:24,  1.77it/s] 95%|█████████▌| 45735/48008 [6:34:36<19:44,  1.92it/s] 95%|█████████▌| 45736/48008 [6:34:36<19:14,  1.97it/s] 95%|█████████▌| 45737/48008 [6:34:37<19:21,  1.95it/s] 95%|█████████▌| 45738/48008 [6:34:37<19:30,  1.94it/s] 95%|█████████▌| 45739/48008 [6:34:38<19:07,  1.98it/s] 95%|█████████▌| 45740/48008 [6:34:38<19:07,  1.98it/s] 95%|█████████▌| 45741/48008 [6:34:39<18:50,  2.00it/s] 95%|█████████▌| 45742/48008 [6:34:39<18:53,  2.00it/s] 95%|█████████▌| 45743/48008 [6:34:40<18:57,  1.99it/s] 95%|█████████▌| 45744/48008 [6:34:40<19:08,  1.97it/s] 95%|█████████▌| 45745/48008 [6:34:41<19:19,  1.95it/s] 95%|█████████▌| 45746/48008 [6:34:41<18:58,  1.99it/s] 95%|█████████▌| 45747/48008 [6:34:42<18:00,  2.09it/s] 95%|█████████▌| 45748/48008 [6:34:42<18:02,  2.09it/s] 95%|█████████▌| 45749/48008 [6:34:43<18:20,  2.05it/s] 95%|█████████▌| 45750/48008 [6:34:43<18:52,  1.99it/s]                                                       {'loss': 4.2495, 'grad_norm': 0.0997820645570755, 'learning_rate': 9.410931511414765e-06, 'epoch': 0.95}
 95%|█████████▌| 45750/48008 [6:34:43<18:52,  1.99it/s] 95%|█████████▌| 45751/48008 [6:34:44<18:56,  1.99it/s] 95%|█████████▌| 45752/48008 [6:34:44<17:58,  2.09it/s] 95%|█████████▌| 45753/48008 [6:34:45<18:17,  2.05it/s] 95%|█████████▌| 45754/48008 [6:34:45<18:39,  2.01it/s] 95%|█████████▌| 45755/48008 [6:34:46<17:44,  2.12it/s] 95%|█████████▌| 45756/48008 [6:34:46<17:08,  2.19it/s] 95%|█████████▌| 45757/48008 [6:34:47<17:43,  2.12it/s] 95%|█████████▌| 45758/48008 [6:34:47<17:47,  2.11it/s] 95%|█████████▌| 45759/48008 [6:34:48<18:06,  2.07it/s] 95%|█████████▌| 45760/48008 [6:34:48<18:33,  2.02it/s] 95%|█████████▌| 45761/48008 [6:34:49<18:25,  2.03it/s] 95%|█████████▌| 45762/48008 [6:34:49<20:31,  1.82it/s] 95%|█████████▌| 45763/48008 [6:34:50<19:46,  1.89it/s] 95%|█████████▌| 45764/48008 [6:34:50<19:29,  1.92it/s] 95%|█████████▌| 45765/48008 [6:34:51<19:45,  1.89it/s] 95%|█████████▌| 45766/48008 [6:34:51<19:14,  1.94it/s] 95%|█████████▌| 45767/48008 [6:34:52<18:47,  1.99it/s] 95%|█████████▌| 45768/48008 [6:34:52<18:31,  2.02it/s] 95%|█████████▌| 45769/48008 [6:34:53<18:21,  2.03it/s] 95%|█████████▌| 45770/48008 [6:34:53<17:27,  2.14it/s] 95%|█████████▌| 45771/48008 [6:34:54<17:33,  2.12it/s] 95%|█████████▌| 45772/48008 [6:34:54<16:58,  2.20it/s] 95%|█████████▌| 45773/48008 [6:34:55<17:56,  2.08it/s] 95%|█████████▌| 45774/48008 [6:34:55<17:58,  2.07it/s] 95%|█████████▌| 45775/48008 [6:34:56<18:25,  2.02it/s] 95%|█████████▌| 45776/48008 [6:34:56<18:52,  1.97it/s] 95%|█████████▌| 45777/48008 [6:34:57<19:00,  1.96it/s] 95%|█████████▌| 45778/48008 [6:34:57<19:16,  1.93it/s] 95%|█████████▌| 45779/48008 [6:34:58<18:07,  2.05it/s] 95%|█████████▌| 45780/48008 [6:34:58<18:00,  2.06it/s] 95%|█████████▌| 45781/48008 [6:34:59<17:58,  2.06it/s] 95%|█████████▌| 45782/48008 [6:34:59<17:14,  2.15it/s] 95%|█████████▌| 45783/48008 [6:35:00<19:31,  1.90it/s] 95%|█████████▌| 45784/48008 [6:35:00<18:18,  2.02it/s] 95%|█████████▌| 45785/48008 [6:35:01<18:11,  2.04it/s] 95%|█████████▌| 45786/48008 [6:35:01<18:05,  2.05it/s] 95%|█████████▌| 45787/48008 [6:35:02<18:02,  2.05it/s] 95%|█████████▌| 45788/48008 [6:35:02<18:15,  2.03it/s] 95%|█████████▌| 45789/48008 [6:35:02<17:25,  2.12it/s] 95%|█████████▌| 45790/48008 [6:35:03<17:57,  2.06it/s] 95%|█████████▌| 45791/48008 [6:35:03<18:11,  2.03it/s] 95%|█████████▌| 45792/48008 [6:35:04<18:41,  1.98it/s] 95%|█████████▌| 45793/48008 [6:35:05<18:25,  2.00it/s] 95%|█████████▌| 45794/48008 [6:35:05<18:49,  1.96it/s] 95%|█████████▌| 45795/48008 [6:35:06<18:29,  1.99it/s] 95%|█████████▌| 45796/48008 [6:35:07<24:32,  1.50it/s] 95%|█████████▌| 45797/48008 [6:35:07<22:41,  1.62it/s] 95%|█████████▌| 45798/48008 [6:35:08<21:28,  1.72it/s] 95%|█████████▌| 45799/48008 [6:35:08<20:21,  1.81it/s] 95%|█████████▌| 45800/48008 [6:35:08<18:52,  1.95it/s]                                                       {'loss': 4.2347, 'grad_norm': 0.11517034471035004, 'learning_rate': 9.20263289451758e-06, 'epoch': 0.95}
 95%|█████████▌| 45800/48008 [6:35:08<18:52,  1.95it/s] 95%|█████████▌| 45801/48008 [6:35:09<18:31,  1.98it/s] 95%|█████████▌| 45802/48008 [6:35:09<17:34,  2.09it/s] 95%|█████████▌| 45803/48008 [6:35:10<17:33,  2.09it/s] 95%|█████████▌| 45804/48008 [6:35:10<16:52,  2.18it/s] 95%|█████████▌| 45805/48008 [6:35:11<16:27,  2.23it/s] 95%|█████████▌| 45806/48008 [6:35:11<17:06,  2.15it/s] 95%|█████████▌| 45807/48008 [6:35:12<17:17,  2.12it/s] 95%|█████████▌| 45808/48008 [6:35:12<17:23,  2.11it/s] 95%|█████████▌| 45809/48008 [6:35:13<17:56,  2.04it/s] 95%|█████████▌| 45810/48008 [6:35:13<18:16,  2.00it/s] 95%|█████████▌| 45811/48008 [6:35:14<17:25,  2.10it/s] 95%|█████████▌| 45812/48008 [6:35:15<21:48,  1.68it/s] 95%|█████████▌| 45813/48008 [6:35:15<20:55,  1.75it/s] 95%|█████████▌| 45814/48008 [6:35:16<19:59,  1.83it/s] 95%|█████████▌| 45815/48008 [6:35:16<19:12,  1.90it/s] 95%|█████████▌| 45816/48008 [6:35:17<19:08,  1.91it/s] 95%|█████████▌| 45817/48008 [6:35:17<18:39,  1.96it/s] 95%|█████████▌| 45818/48008 [6:35:17<17:34,  2.08it/s] 95%|█████████▌| 45819/48008 [6:35:18<17:58,  2.03it/s] 95%|█████████▌| 45820/48008 [6:35:18<18:21,  1.99it/s] 95%|█████████▌| 45821/48008 [6:35:19<18:43,  1.95it/s] 95%|█████████▌| 45822/48008 [6:35:19<18:24,  1.98it/s] 95%|█████████▌| 45823/48008 [6:35:20<22:24,  1.62it/s] 95%|█████████▌| 45824/48008 [6:35:21<20:12,  1.80it/s] 95%|█████████▌| 45825/48008 [6:35:21<19:50,  1.83it/s] 95%|█████████▌| 45826/48008 [6:35:22<19:11,  1.89it/s] 95%|█████████▌| 45827/48008 [6:35:22<19:05,  1.90it/s] 95%|█████████▌| 45828/48008 [6:35:23<18:34,  1.96it/s] 95%|█████████▌| 45829/48008 [6:35:23<18:17,  1.98it/s] 95%|█████████▌| 45830/48008 [6:35:24<18:43,  1.94it/s] 95%|█████████▌| 45831/48008 [6:35:24<18:23,  1.97it/s] 95%|█████████▌| 45832/48008 [6:35:25<18:05,  2.00it/s] 95%|█████████▌| 45833/48008 [6:35:25<17:52,  2.03it/s] 95%|█████████▌| 45834/48008 [6:35:26<17:44,  2.04it/s] 95%|█████████▌| 45835/48008 [6:35:26<19:44,  1.83it/s] 95%|█████████▌| 45836/48008 [6:35:27<19:18,  1.87it/s] 95%|█████████▌| 45837/48008 [6:35:27<18:42,  1.93it/s] 95%|█████████▌| 45838/48008 [6:35:28<18:57,  1.91it/s] 95%|█████████▌| 45839/48008 [6:35:29<20:38,  1.75it/s] 95%|█████████▌| 45840/48008 [6:35:29<19:41,  1.83it/s] 95%|█████████▌| 45841/48008 [6:35:30<19:31,  1.85it/s] 95%|█████████▌| 45842/48008 [6:35:30<18:52,  1.91it/s] 95%|█████████▌| 45843/48008 [6:35:31<18:23,  1.96it/s] 95%|█████████▌| 45844/48008 [6:35:31<18:30,  1.95it/s] 95%|█████████▌| 45845/48008 [6:35:32<18:08,  1.99it/s] 95%|█████████▌| 45846/48008 [6:35:32<18:08,  1.99it/s] 95%|█████████▌| 45847/48008 [6:35:33<17:55,  2.01it/s] 96%|█████████▌| 45848/48008 [6:35:33<17:45,  2.03it/s] 96%|█████████▌| 45849/48008 [6:35:33<16:51,  2.13it/s] 96%|█████████▌| 45850/48008 [6:35:35<25:16,  1.42it/s]{'loss': 4.2595, 'grad_norm': 0.09091375768184662, 'learning_rate': 8.994334277620398e-06, 'epoch': 0.96}                                                        96%|█████████▌| 45850/48008 [6:35:35<25:16,  1.42it/s]
 96%|█████████▌| 45851/48008 [6:35:35<23:11,  1.55it/s] 96%|█████████▌| 45852/48008 [6:35:36<20:42,  1.74it/s] 96%|█████████▌| 45853/48008 [6:35:36<19:39,  1.83it/s] 96%|█████████▌| 45854/48008 [6:35:37<18:58,  1.89it/s] 96%|█████████▌| 45855/48008 [6:35:37<18:28,  1.94it/s] 96%|█████████▌| 45856/48008 [6:35:37<17:02,  2.10it/s] 96%|█████████▌| 45857/48008 [6:35:38<16:23,  2.19it/s] 96%|█████████▌| 45858/48008 [6:35:38<15:58,  2.24it/s] 96%|█████████▌| 45859/48008 [6:35:39<18:26,  1.94it/s] 96%|█████████▌| 45860/48008 [6:35:40<18:21,  1.95it/s] 96%|█████████▌| 45861/48008 [6:35:40<18:00,  1.99it/s] 96%|█████████▌| 45862/48008 [6:35:40<17:06,  2.09it/s] 96%|█████████▌| 45863/48008 [6:35:41<21:23,  1.67it/s] 96%|█████████▌| 45864/48008 [6:35:42<19:24,  1.84it/s] 96%|█████████▌| 45865/48008 [6:35:42<18:45,  1.90it/s] 96%|█████████▌| 45866/48008 [6:35:43<17:34,  2.03it/s] 96%|█████████▌| 45867/48008 [6:35:43<21:45,  1.64it/s] 96%|█████████▌| 45868/48008 [6:35:44<19:41,  1.81it/s] 96%|█████████▌| 45869/48008 [6:35:44<19:21,  1.84it/s] 96%|█████████▌| 45870/48008 [6:35:45<18:40,  1.91it/s] 96%|█████████▌| 45871/48008 [6:35:45<17:30,  2.03it/s] 96%|█████████▌| 45872/48008 [6:35:46<17:38,  2.02it/s] 96%|█████████▌| 45873/48008 [6:35:46<16:47,  2.12it/s] 96%|█████████▌| 45874/48008 [6:35:47<18:55,  1.88it/s] 96%|█████████▌| 45875/48008 [6:35:47<18:47,  1.89it/s] 96%|█████████▌| 45876/48008 [6:35:48<18:17,  1.94it/s] 96%|█████████▌| 45877/48008 [6:35:48<18:19,  1.94it/s] 96%|█████████▌| 45878/48008 [6:35:49<20:00,  1.77it/s] 96%|█████████▌| 45879/48008 [6:35:50<19:07,  1.86it/s] 96%|█████████▌| 45880/48008 [6:35:50<17:49,  1.99it/s] 96%|█████████▌| 45881/48008 [6:35:50<17:35,  2.02it/s] 96%|█████████▌| 45882/48008 [6:35:51<17:24,  2.04it/s] 96%|█████████▌| 45883/48008 [6:35:51<16:37,  2.13it/s] 96%|█████████▌| 45884/48008 [6:35:52<17:00,  2.08it/s] 96%|█████████▌| 45885/48008 [6:35:52<17:12,  2.06it/s] 96%|█████████▌| 45886/48008 [6:35:53<16:27,  2.15it/s] 96%|█████████▌| 45887/48008 [6:35:53<17:03,  2.07it/s] 96%|█████████▌| 45888/48008 [6:35:54<19:04,  1.85it/s] 96%|█████████▌| 45889/48008 [6:35:54<18:28,  1.91it/s] 96%|█████████▌| 45890/48008 [6:35:55<18:02,  1.96it/s] 96%|█████████▌| 45891/48008 [6:35:55<17:58,  1.96it/s] 96%|█████████▌| 45892/48008 [6:35:56<16:59,  2.07it/s] 96%|█████████▌| 45893/48008 [6:35:57<19:00,  1.85it/s] 96%|█████████▌| 45894/48008 [6:35:57<18:40,  1.89it/s] 96%|█████████▌| 45895/48008 [6:35:58<18:22,  1.92it/s] 96%|█████████▌| 45896/48008 [6:35:58<17:59,  1.96it/s] 96%|█████████▌| 45897/48008 [6:35:59<18:06,  1.94it/s] 96%|█████████▌| 45898/48008 [6:35:59<18:00,  1.95it/s] 96%|█████████▌| 45899/48008 [6:36:00<17:57,  1.96it/s] 96%|█████████▌| 45900/48008 [6:36:00<17:38,  1.99it/s]                                                       {'loss': 4.2565, 'grad_norm': 0.108970046043396, 'learning_rate': 8.786035660723213e-06, 'epoch': 0.96} 96%|█████████▌| 45900/48008 [6:36:00<17:38,  1.99it/s]
 96%|█████████▌| 45901/48008 [6:36:01<16:45,  2.10it/s] 96%|█████████▌| 45902/48008 [6:36:01<16:46,  2.09it/s] 96%|█████████▌| 45903/48008 [6:36:01<17:01,  2.06it/s] 96%|█████████▌| 45904/48008 [6:36:02<17:36,  1.99it/s] 96%|█████████▌| 45905/48008 [6:36:02<16:44,  2.09it/s] 96%|█████████▌| 45906/48008 [6:36:03<17:03,  2.05it/s] 96%|█████████▌| 45907/48008 [6:36:03<17:01,  2.06it/s] 96%|█████████▌| 45908/48008 [6:36:04<16:16,  2.15it/s] 96%|█████████▌| 45909/48008 [6:36:04<17:02,  2.05it/s] 96%|█████████▌| 45910/48008 [6:36:05<16:58,  2.06it/s] 96%|█████████▌| 45911/48008 [6:36:05<16:55,  2.06it/s] 96%|█████████▌| 45912/48008 [6:36:06<17:06,  2.04it/s] 96%|█████████▌| 45913/48008 [6:36:06<16:59,  2.06it/s] 96%|█████████▌| 45914/48008 [6:36:07<16:14,  2.15it/s] 96%|█████████▌| 45915/48008 [6:36:07<15:44,  2.22it/s] 96%|█████████▌| 45916/48008 [6:36:08<16:01,  2.18it/s] 96%|█████████▌| 45917/48008 [6:36:08<16:28,  2.12it/s] 96%|█████████▌| 45918/48008 [6:36:09<15:53,  2.19it/s] 96%|█████████▌| 45919/48008 [6:36:09<16:21,  2.13it/s] 96%|█████████▌| 45920/48008 [6:36:09<15:48,  2.20it/s] 96%|█████████▌| 45921/48008 [6:36:10<18:08,  1.92it/s] 96%|█████████▌| 45922/48008 [6:36:11<17:42,  1.96it/s] 96%|█████████▌| 45923/48008 [6:36:11<17:22,  2.00it/s] 96%|█████████▌| 45924/48008 [6:36:12<19:12,  1.81it/s] 96%|█████████▌| 45925/48008 [6:36:12<18:50,  1.84it/s] 96%|█████████▌| 45926/48008 [6:36:13<18:09,  1.91it/s] 96%|█████████▌| 45927/48008 [6:36:13<17:44,  1.96it/s] 96%|█████████▌| 45928/48008 [6:36:14<16:44,  2.07it/s] 96%|█████████▌| 45929/48008 [6:36:14<16:46,  2.07it/s] 96%|█████████▌| 45930/48008 [6:36:15<24:48,  1.40it/s] 96%|█████████▌| 45931/48008 [6:36:16<22:21,  1.55it/s] 96%|█████████▌| 45932/48008 [6:36:16<20:54,  1.65it/s] 96%|█████████▌| 45933/48008 [6:36:17<20:04,  1.72it/s] 96%|█████████▌| 45934/48008 [6:36:17<19:17,  1.79it/s] 96%|█████████▌| 45935/48008 [6:36:18<22:36,  1.53it/s] 96%|█████████▌| 45936/48008 [6:36:19<20:49,  1.66it/s] 96%|█████████▌| 45937/48008 [6:36:19<19:49,  1.74it/s] 96%|█████████▌| 45938/48008 [6:36:20<18:51,  1.83it/s] 96%|█████████▌| 45939/48008 [6:36:21<26:06,  1.32it/s] 96%|█████████▌| 45940/48008 [6:36:22<23:37,  1.46it/s] 96%|█████████▌| 45941/48008 [6:36:22<21:31,  1.60it/s] 96%|█████████▌| 45942/48008 [6:36:23<20:03,  1.72it/s] 96%|█████████▌| 45943/48008 [6:36:23<19:14,  1.79it/s] 96%|█████████▌| 45944/48008 [6:36:23<17:46,  1.94it/s] 96%|█████████▌| 45945/48008 [6:36:24<17:25,  1.97it/s] 96%|█████████▌| 45946/48008 [6:36:24<16:29,  2.08it/s] 96%|█████████▌| 45947/48008 [6:36:25<16:55,  2.03it/s] 96%|█████████▌| 45948/48008 [6:36:25<17:03,  2.01it/s] 96%|█████████▌| 45949/48008 [6:36:26<17:10,  2.00it/s] 96%|█████████▌| 45950/48008 [6:36:26<17:11,  1.99it/s]                                                       {'loss': 4.2274, 'grad_norm': 0.10287938266992569, 'learning_rate': 8.57773704382603e-06, 'epoch': 0.96}
 96%|█████████▌| 45950/48008 [6:36:26<17:11,  1.99it/s] 96%|█████████▌| 45951/48008 [6:36:27<18:59,  1.80it/s] 96%|█████████▌| 45952/48008 [6:36:28<18:31,  1.85it/s] 96%|█████████▌| 45953/48008 [6:36:28<18:19,  1.87it/s] 96%|█████████▌| 45954/48008 [6:36:29<18:09,  1.89it/s] 96%|█████████▌| 45955/48008 [6:36:29<17:55,  1.91it/s] 96%|█████████▌| 45956/48008 [6:36:30<17:41,  1.93it/s] 96%|█████████▌| 45957/48008 [6:36:30<17:57,  1.90it/s] 96%|█████████▌| 45958/48008 [6:36:31<17:30,  1.95it/s] 96%|█████████▌| 45959/48008 [6:36:31<17:11,  1.99it/s] 96%|█████████▌| 45960/48008 [6:36:32<17:34,  1.94it/s] 96%|█████████▌| 45961/48008 [6:36:32<19:11,  1.78it/s] 96%|█████████▌| 45962/48008 [6:36:33<18:33,  1.84it/s] 96%|█████████▌| 45963/48008 [6:36:33<17:55,  1.90it/s] 96%|█████████▌| 45964/48008 [6:36:34<16:47,  2.03it/s] 96%|█████████▌| 45965/48008 [6:36:34<16:01,  2.12it/s] 96%|█████████▌| 45966/48008 [6:36:35<16:23,  2.08it/s] 96%|█████████▌| 45967/48008 [6:36:35<16:34,  2.05it/s] 96%|█████████▌| 45968/48008 [6:36:36<16:57,  2.01it/s] 96%|█████████▌| 45969/48008 [6:36:36<16:08,  2.11it/s] 96%|█████████▌| 45970/48008 [6:36:37<24:03,  1.41it/s] 96%|█████████▌| 45971/48008 [6:36:38<21:46,  1.56it/s] 96%|█████████▌| 45972/48008 [6:36:38<20:33,  1.65it/s] 96%|█████████▌| 45973/48008 [6:36:39<18:39,  1.82it/s] 96%|█████████▌| 45974/48008 [6:36:39<18:22,  1.84it/s] 96%|█████████▌| 45975/48008 [6:36:40<17:45,  1.91it/s] 96%|█████████▌| 45976/48008 [6:36:40<17:56,  1.89it/s] 96%|█████████▌| 45977/48008 [6:36:41<18:01,  1.88it/s] 96%|█████████▌| 45978/48008 [6:36:41<17:32,  1.93it/s] 96%|█████████▌| 45979/48008 [6:36:42<17:24,  1.94it/s] 96%|█████████▌| 45980/48008 [6:36:42<17:05,  1.98it/s] 96%|█████████▌| 45981/48008 [6:36:43<18:50,  1.79it/s] 96%|█████████▌| 45982/48008 [6:36:44<18:04,  1.87it/s] 96%|█████████▌| 45983/48008 [6:36:44<17:48,  1.89it/s] 96%|█████████▌| 45984/48008 [6:36:45<17:19,  1.95it/s] 96%|█████████▌| 45985/48008 [6:36:45<17:02,  1.98it/s] 96%|█████████▌| 45986/48008 [6:36:46<16:49,  2.00it/s] 96%|█████████▌| 45987/48008 [6:36:46<16:50,  2.00it/s] 96%|█████████▌| 45988/48008 [6:36:47<16:37,  2.02it/s] 96%|█████████▌| 45989/48008 [6:36:47<16:31,  2.04it/s] 96%|█████████▌| 45990/48008 [6:36:47<16:27,  2.04it/s] 96%|█████████▌| 45991/48008 [6:36:48<18:20,  1.83it/s] 96%|█████████▌| 45992/48008 [6:36:49<18:08,  1.85it/s] 96%|█████████▌| 45993/48008 [6:36:49<17:34,  1.91it/s] 96%|█████████▌| 45994/48008 [6:36:50<24:54,  1.35it/s] 96%|█████████▌| 45995/48008 [6:36:51<22:38,  1.48it/s] 96%|█████████▌| 45996/48008 [6:36:51<20:40,  1.62it/s] 96%|█████████▌| 45997/48008 [6:36:52<19:43,  1.70it/s] 96%|█████████▌| 45998/48008 [6:36:52<18:53,  1.77it/s] 96%|█████████▌| 45999/48008 [6:36:53<17:24,  1.92it/s] 96%|█████████▌| 46000/48008 [6:36:53<17:02,  1.96it/s]                                                       {'loss': 4.2915, 'grad_norm': 0.09833767265081406, 'learning_rate': 8.369438426928845e-06, 'epoch': 0.96}
 96%|█████████▌| 46000/48008 [6:36:53<17:02,  1.96it/s] 96%|█████████▌| 46001/48008 [6:36:54<16:47,  1.99it/s] 96%|█████████▌| 46002/48008 [6:36:54<16:36,  2.01it/s] 96%|█████████▌| 46003/48008 [6:36:56<24:09,  1.38it/s] 96%|█████████▌| 46004/48008 [6:36:56<21:44,  1.54it/s] 96%|█████████▌| 46005/48008 [6:36:57<20:15,  1.65it/s] 96%|█████████▌| 46006/48008 [6:36:57<19:33,  1.71it/s] 96%|█████████▌| 46007/48008 [6:36:58<18:42,  1.78it/s] 96%|█████████▌| 46008/48008 [6:36:58<18:10,  1.83it/s] 96%|█████████▌| 46009/48008 [6:36:59<17:35,  1.89it/s] 96%|█████████▌| 46010/48008 [6:36:59<17:32,  1.90it/s] 96%|█████████▌| 46011/48008 [6:37:00<17:08,  1.94it/s] 96%|█████████▌| 46012/48008 [6:37:00<16:10,  2.06it/s] 96%|█████████▌| 46013/48008 [6:37:01<16:08,  2.06it/s] 96%|█████████▌| 46014/48008 [6:37:01<16:05,  2.07it/s] 96%|█████████▌| 46015/48008 [6:37:01<16:16,  2.04it/s] 96%|█████████▌| 46016/48008 [6:37:02<16:35,  2.00it/s] 96%|█████████▌| 46017/48008 [6:37:03<20:21,  1.63it/s] 96%|█████████▌| 46018/48008 [6:37:03<19:00,  1.74it/s] 96%|█████████▌| 46019/48008 [6:37:04<18:06,  1.83it/s] 96%|█████████▌| 46020/48008 [6:37:04<18:01,  1.84it/s] 96%|█████████▌| 46021/48008 [6:37:05<17:37,  1.88it/s] 96%|█████████▌| 46022/48008 [6:37:05<17:07,  1.93it/s] 96%|█████████▌| 46023/48008 [6:37:07<24:23,  1.36it/s] 96%|█████████▌| 46024/48008 [6:37:07<21:49,  1.52it/s] 96%|█████████▌| 46025/48008 [6:37:08<19:22,  1.71it/s] 96%|█████████▌| 46026/48008 [6:37:08<17:41,  1.87it/s] 96%|█████████▌| 46027/48008 [6:37:08<17:10,  1.92it/s] 96%|█████████▌| 46028/48008 [6:37:09<17:02,  1.94it/s] 96%|█████████▌| 46029/48008 [6:37:09<16:40,  1.98it/s] 96%|█████████▌| 46030/48008 [6:37:10<16:25,  2.01it/s] 96%|█████████▌| 46031/48008 [6:37:10<16:16,  2.03it/s] 96%|█████████▌| 46032/48008 [6:37:11<16:32,  1.99it/s] 96%|█████████▌| 46033/48008 [6:37:11<16:42,  1.97it/s] 96%|█████████▌| 46034/48008 [6:37:12<16:25,  2.00it/s] 96%|█████████▌| 46035/48008 [6:37:12<16:14,  2.02it/s] 96%|█████████▌| 46036/48008 [6:37:13<16:31,  1.99it/s] 96%|█████████▌| 46037/48008 [6:37:13<15:39,  2.10it/s] 96%|█████████▌| 46038/48008 [6:37:14<15:42,  2.09it/s] 96%|█████████▌| 46039/48008 [6:37:14<15:43,  2.09it/s] 96%|█████████▌| 46040/48008 [6:37:15<15:05,  2.17it/s] 96%|█████████▌| 46041/48008 [6:37:15<15:31,  2.11it/s] 96%|█████████▌| 46042/48008 [6:37:16<17:29,  1.87it/s] 96%|█████████▌| 46043/48008 [6:37:16<17:13,  1.90it/s] 96%|█████████▌| 46044/48008 [6:37:17<16:46,  1.95it/s] 96%|█████████▌| 46045/48008 [6:37:17<16:28,  1.99it/s] 96%|█████████▌| 46046/48008 [6:37:18<15:36,  2.09it/s] 96%|█████████▌| 46047/48008 [6:37:18<15:54,  2.06it/s] 96%|█████████▌| 46048/48008 [6:37:19<17:43,  1.84it/s] 96%|█████████▌| 46049/48008 [6:37:19<17:30,  1.87it/s] 96%|█████████▌| 46050/48008 [6:37:20<16:20,  2.00it/s]                                                       {'loss': 4.2318, 'grad_norm': 0.10515879094600677, 'learning_rate': 8.161139810031662e-06, 'epoch': 0.96} 96%|█████████▌| 46050/48008 [6:37:20<16:20,  2.00it/s]
 96%|█████████▌| 46051/48008 [6:37:20<16:25,  1.99it/s] 96%|█████████▌| 46052/48008 [6:37:21<16:12,  2.01it/s] 96%|█████████▌| 46053/48008 [6:37:21<15:25,  2.11it/s] 96%|█████████▌| 46054/48008 [6:37:22<14:52,  2.19it/s] 96%|█████████▌| 46055/48008 [6:37:22<15:39,  2.08it/s] 96%|█████████▌| 46056/48008 [6:37:23<15:39,  2.08it/s] 96%|█████████▌| 46057/48008 [6:37:23<15:40,  2.07it/s] 96%|█████████▌| 46058/48008 [6:37:24<16:03,  2.02it/s] 96%|█████████▌| 46059/48008 [6:37:24<15:57,  2.03it/s] 96%|█████████▌| 46060/48008 [6:37:25<15:14,  2.13it/s] 96%|█████████▌| 46061/48008 [6:37:25<14:43,  2.20it/s] 96%|█████████▌| 46062/48008 [6:37:26<15:11,  2.14it/s] 96%|█████████▌| 46063/48008 [6:37:26<15:33,  2.08it/s] 96%|█████████▌| 46064/48008 [6:37:27<17:28,  1.85it/s] 96%|█████████▌| 46065/48008 [6:37:27<18:47,  1.72it/s] 96%|█████████▌| 46066/48008 [6:37:28<19:42,  1.64it/s] 96%|█████████▌| 46067/48008 [6:37:29<17:50,  1.81it/s] 96%|█████████▌| 46068/48008 [6:37:29<16:32,  1.95it/s] 96%|█████████▌| 46069/48008 [6:37:29<16:26,  1.97it/s] 96%|█████████▌| 46070/48008 [6:37:30<16:22,  1.97it/s] 96%|█████████▌| 46071/48008 [6:37:30<16:20,  1.98it/s] 96%|█████████▌| 46072/48008 [6:37:31<16:20,  1.97it/s] 96%|█████████▌| 46073/48008 [6:37:31<16:05,  2.01it/s] 96%|█████████▌| 46074/48008 [6:37:32<15:54,  2.03it/s] 96%|█████████▌| 46075/48008 [6:37:32<15:08,  2.13it/s] 96%|█████████▌| 46076/48008 [6:37:33<15:14,  2.11it/s] 96%|█████████▌| 46077/48008 [6:37:34<19:08,  1.68it/s] 96%|█████████▌| 46078/48008 [6:37:34<18:14,  1.76it/s] 96%|█████████▌| 46079/48008 [6:37:35<17:59,  1.79it/s] 96%|█████████▌| 46080/48008 [6:37:35<17:28,  1.84it/s] 96%|█████████▌| 46081/48008 [6:37:36<18:46,  1.71it/s] 96%|█████████▌| 46082/48008 [6:37:36<17:43,  1.81it/s] 96%|█████████▌| 46083/48008 [6:37:37<17:15,  1.86it/s] 96%|█████████▌| 46084/48008 [6:37:37<16:43,  1.92it/s] 96%|█████████▌| 46085/48008 [6:37:38<16:53,  1.90it/s] 96%|█████████▌| 46086/48008 [6:37:38<16:25,  1.95it/s] 96%|█████████▌| 46087/48008 [6:37:39<15:29,  2.07it/s] 96%|█████████▌| 46088/48008 [6:37:39<15:27,  2.07it/s] 96%|█████████▌| 46089/48008 [6:37:40<15:26,  2.07it/s] 96%|█████████▌| 46090/48008 [6:37:40<15:37,  2.05it/s] 96%|█████████▌| 46091/48008 [6:37:41<15:30,  2.06it/s] 96%|█████████▌| 46092/48008 [6:37:41<15:27,  2.06it/s] 96%|█████████▌| 46093/48008 [6:37:42<14:29,  2.20it/s] 96%|█████████▌| 46094/48008 [6:37:42<14:06,  2.26it/s] 96%|█████████▌| 46095/48008 [6:37:43<16:21,  1.95it/s] 96%|█████████▌| 46096/48008 [6:37:43<16:14,  1.96it/s] 96%|█████████▌| 46097/48008 [6:37:44<15:58,  1.99it/s] 96%|█████████▌| 46098/48008 [6:37:44<15:46,  2.02it/s] 96%|█████████▌| 46099/48008 [6:37:45<15:03,  2.11it/s] 96%|█████████▌| 46100/48008 [6:37:45<15:06,  2.10it/s]                                                       {'loss': 4.2609, 'grad_norm': 0.11192961037158966, 'learning_rate': 7.952841193134478e-06, 'epoch': 0.96} 96%|█████████▌| 46100/48008 [6:37:45<15:06,  2.10it/s]
 96%|█████████▌| 46101/48008 [6:37:46<15:32,  2.05it/s] 96%|█████████▌| 46102/48008 [6:37:46<15:38,  2.03it/s] 96%|█████████▌| 46103/48008 [6:37:47<15:32,  2.04it/s] 96%|█████████▌| 46104/48008 [6:37:47<15:27,  2.05it/s] 96%|█████████▌| 46105/48008 [6:37:48<15:21,  2.07it/s] 96%|█████████▌| 46106/48008 [6:37:48<14:43,  2.15it/s] 96%|█████████▌| 46107/48008 [6:37:49<16:43,  1.89it/s] 96%|█████████▌| 46108/48008 [6:37:49<16:50,  1.88it/s] 96%|█████████▌| 46109/48008 [6:37:50<16:33,  1.91it/s] 96%|█████████▌| 46110/48008 [6:37:50<16:10,  1.96it/s] 96%|█████████▌| 46111/48008 [6:37:51<16:04,  1.97it/s] 96%|█████████▌| 46112/48008 [6:37:51<15:48,  2.00it/s] 96%|█████████▌| 46113/48008 [6:37:52<15:37,  2.02it/s] 96%|█████████▌| 46114/48008 [6:37:52<15:29,  2.04it/s] 96%|█████████▌| 46115/48008 [6:37:53<14:46,  2.13it/s] 96%|█████████▌| 46116/48008 [6:37:53<15:08,  2.08it/s] 96%|█████████▌| 46117/48008 [6:37:53<14:29,  2.17it/s] 96%|█████████▌| 46118/48008 [6:37:54<15:05,  2.09it/s] 96%|█████████▌| 46119/48008 [6:37:54<14:28,  2.17it/s] 96%|█████████▌| 46120/48008 [6:37:55<14:40,  2.15it/s] 96%|█████████▌| 46121/48008 [6:37:55<15:09,  2.07it/s] 96%|█████████▌| 46122/48008 [6:37:56<15:08,  2.07it/s] 96%|█████████▌| 46123/48008 [6:37:56<14:10,  2.22it/s] 96%|█████████▌| 46124/48008 [6:37:57<14:47,  2.12it/s] 96%|█████████▌| 46125/48008 [6:37:57<14:53,  2.11it/s] 96%|█████████▌| 46126/48008 [6:37:58<14:20,  2.19it/s] 96%|█████████▌| 46127/48008 [6:37:58<13:57,  2.25it/s] 96%|█████████▌| 46128/48008 [6:37:59<14:16,  2.20it/s] 96%|█████████▌| 46129/48008 [6:37:59<14:43,  2.13it/s] 96%|█████████▌| 46130/48008 [6:38:00<15:02,  2.08it/s] 96%|█████████▌| 46131/48008 [6:38:00<15:00,  2.08it/s] 96%|█████████▌| 46132/48008 [6:38:01<15:33,  2.01it/s] 96%|█████████▌| 46133/48008 [6:38:01<15:22,  2.03it/s] 96%|█████████▌| 46134/48008 [6:38:02<15:17,  2.04it/s] 96%|█████████▌| 46135/48008 [6:38:02<15:34,  2.00it/s] 96%|█████████▌| 46136/48008 [6:38:03<15:25,  2.02it/s] 96%|█████████▌| 46137/48008 [6:38:03<15:16,  2.04it/s] 96%|█████████▌| 46138/48008 [6:38:04<15:11,  2.05it/s] 96%|█████████▌| 46139/48008 [6:38:04<16:56,  1.84it/s] 96%|█████████▌| 46140/48008 [6:38:05<16:34,  1.88it/s] 96%|█████████▌| 46141/48008 [6:38:05<16:02,  1.94it/s] 96%|█████████▌| 46142/48008 [6:38:06<15:06,  2.06it/s] 96%|█████████▌| 46143/48008 [6:38:06<15:02,  2.07it/s] 96%|█████████▌| 46144/48008 [6:38:06<14:24,  2.16it/s] 96%|█████████▌| 46145/48008 [6:38:07<14:33,  2.13it/s] 96%|█████████▌| 46146/48008 [6:38:07<14:39,  2.12it/s] 96%|█████████▌| 46147/48008 [6:38:08<14:44,  2.10it/s] 96%|█████████▌| 46148/48008 [6:38:08<14:47,  2.10it/s] 96%|█████████▌| 46149/48008 [6:38:09<14:49,  2.09it/s] 96%|█████████▌| 46150/48008 [6:38:09<14:12,  2.18it/s]                                                       {'loss': 4.2229, 'grad_norm': 0.11362820118665695, 'learning_rate': 7.744542576237295e-06, 'epoch': 0.96}
 96%|█████████▌| 46150/48008 [6:38:09<14:12,  2.18it/s] 96%|█████████▌| 46151/48008 [6:38:10<14:47,  2.09it/s] 96%|█████████▌| 46152/48008 [6:38:10<15:21,  2.01it/s] 96%|█████████▌| 46153/48008 [6:38:11<15:27,  2.00it/s] 96%|█████████▌| 46154/48008 [6:38:12<18:57,  1.63it/s] 96%|█████████▌| 46155/48008 [6:38:12<17:41,  1.74it/s] 96%|█████████▌| 46156/48008 [6:38:13<17:04,  1.81it/s] 96%|█████████▌| 46157/48008 [6:38:13<16:23,  1.88it/s] 96%|█████████▌| 46158/48008 [6:38:14<16:09,  1.91it/s] 96%|█████████▌| 46159/48008 [6:38:14<15:56,  1.93it/s] 96%|█████████▌| 46160/48008 [6:38:15<15:35,  1.98it/s] 96%|█████████▌| 46161/48008 [6:38:15<15:36,  1.97it/s] 96%|█████████▌| 46162/48008 [6:38:16<22:29,  1.37it/s] 96%|█████████▌| 46163/48008 [6:38:17<20:09,  1.52it/s] 96%|█████████▌| 46164/48008 [6:38:17<18:33,  1.66it/s] 96%|█████████▌| 46165/48008 [6:38:18<17:26,  1.76it/s] 96%|█████████▌| 46166/48008 [6:38:18<16:36,  1.85it/s] 96%|█████████▌| 46167/48008 [6:38:19<16:04,  1.91it/s] 96%|█████████▌| 46168/48008 [6:38:19<16:04,  1.91it/s] 96%|█████████▌| 46169/48008 [6:38:20<15:38,  1.96it/s] 96%|█████████▌| 46170/48008 [6:38:20<14:46,  2.07it/s] 96%|█████████▌| 46171/48008 [6:38:21<14:59,  2.04it/s] 96%|█████████▌| 46172/48008 [6:38:21<15:05,  2.03it/s] 96%|█████████▌| 46173/48008 [6:38:22<15:10,  2.02it/s] 96%|█████████▌| 46174/48008 [6:38:22<15:02,  2.03it/s] 96%|█████████▌| 46175/48008 [6:38:23<14:18,  2.13it/s] 96%|█████████▌| 46176/48008 [6:38:24<18:01,  1.69it/s] 96%|█████████▌| 46177/48008 [6:38:24<17:32,  1.74it/s] 96%|█████████▌| 46178/48008 [6:38:25<16:53,  1.81it/s] 96%|█████████▌| 46179/48008 [6:38:25<16:15,  1.88it/s] 96%|█████████▌| 46180/48008 [6:38:26<16:00,  1.90it/s] 96%|█████████▌| 46181/48008 [6:38:26<15:37,  1.95it/s] 96%|█████████▌| 46182/48008 [6:38:27<15:34,  1.95it/s] 96%|█████████▌| 46183/48008 [6:38:27<14:42,  2.07it/s] 96%|█████████▌| 46184/48008 [6:38:27<14:04,  2.16it/s] 96%|█████████▌| 46185/48008 [6:38:29<21:17,  1.43it/s] 96%|█████████▌| 46186/48008 [6:38:29<19:51,  1.53it/s] 96%|█████████▌| 46187/48008 [6:38:30<17:39,  1.72it/s] 96%|█████████▌| 46188/48008 [6:38:30<16:46,  1.81it/s] 96%|█████████▌| 46189/48008 [6:38:31<16:10,  1.87it/s] 96%|█████████▌| 46190/48008 [6:38:31<15:41,  1.93it/s] 96%|█████████▌| 46191/48008 [6:38:32<14:48,  2.04it/s] 96%|█████████▌| 46192/48008 [6:38:32<16:29,  1.83it/s] 96%|█████████▌| 46193/48008 [6:38:33<16:16,  1.86it/s] 96%|█████████▌| 46194/48008 [6:38:33<15:48,  1.91it/s] 96%|█████████▌| 46195/48008 [6:38:34<15:58,  1.89it/s] 96%|█████████▌| 46196/48008 [6:38:34<16:06,  1.87it/s] 96%|█████████▌| 46197/48008 [6:38:35<15:41,  1.92it/s] 96%|█████████▌| 46198/48008 [6:38:35<15:22,  1.96it/s] 96%|█████████▌| 46199/48008 [6:38:36<15:21,  1.96it/s] 96%|█████████▌| 46200/48008 [6:38:36<15:19,  1.97it/s]                                                       {'loss': 4.2683, 'grad_norm': 0.10834456980228424, 'learning_rate': 7.53624395934011e-06, 'epoch': 0.96}
 96%|█████████▌| 46200/48008 [6:38:36<15:19,  1.97it/s] 96%|█████████▌| 46201/48008 [6:38:37<15:05,  2.00it/s] 96%|█████████▌| 46202/48008 [6:38:37<14:54,  2.02it/s] 96%|█████████▌| 46203/48008 [6:38:38<15:00,  2.00it/s] 96%|█████████▌| 46204/48008 [6:38:38<15:11,  1.98it/s] 96%|█████████▌| 46205/48008 [6:38:39<14:23,  2.09it/s] 96%|█████████▌| 46206/48008 [6:38:39<14:26,  2.08it/s] 96%|█████████▌| 46207/48008 [6:38:40<14:39,  2.05it/s] 96%|█████████▋| 46208/48008 [6:38:40<14:35,  2.06it/s] 96%|█████████▋| 46209/48008 [6:38:41<14:33,  2.06it/s] 96%|█████████▋| 46210/48008 [6:38:41<14:43,  2.03it/s] 96%|█████████▋| 46211/48008 [6:38:42<15:11,  1.97it/s] 96%|█████████▋| 46212/48008 [6:38:42<15:18,  1.95it/s] 96%|█████████▋| 46213/48008 [6:38:43<14:26,  2.07it/s] 96%|█████████▋| 46214/48008 [6:38:43<14:37,  2.04it/s] 96%|█████████▋| 46215/48008 [6:38:44<13:58,  2.14it/s] 96%|█████████▋| 46216/48008 [6:38:44<14:20,  2.08it/s] 96%|█████████▋| 46217/48008 [6:38:45<14:22,  2.08it/s] 96%|█████████▋| 46218/48008 [6:38:45<14:55,  2.00it/s] 96%|█████████▋| 46219/48008 [6:38:46<14:47,  2.02it/s] 96%|█████████▋| 46220/48008 [6:38:46<14:53,  2.00it/s] 96%|█████████▋| 46221/48008 [6:38:47<14:10,  2.10it/s] 96%|█████████▋| 46222/48008 [6:38:47<14:15,  2.09it/s] 96%|█████████▋| 46223/48008 [6:38:47<14:15,  2.09it/s] 96%|█████████▋| 46224/48008 [6:38:48<14:39,  2.03it/s] 96%|█████████▋| 46225/48008 [6:38:49<14:32,  2.04it/s] 96%|█████████▋| 46226/48008 [6:38:49<14:48,  2.01it/s] 96%|█████████▋| 46227/48008 [6:38:50<14:52,  1.99it/s] 96%|█████████▋| 46228/48008 [6:38:50<14:08,  2.10it/s] 96%|█████████▋| 46229/48008 [6:38:50<14:22,  2.06it/s] 96%|█████████▋| 46230/48008 [6:38:51<14:40,  2.02it/s] 96%|█████████▋| 46231/48008 [6:38:51<14:54,  1.99it/s] 96%|█████████▋| 46232/48008 [6:38:52<14:53,  1.99it/s] 96%|█████████▋| 46233/48008 [6:38:52<14:39,  2.02it/s] 96%|█████████▋| 46234/48008 [6:38:53<13:58,  2.11it/s] 96%|█████████▋| 46235/48008 [6:38:53<14:03,  2.10it/s] 96%|█████████▋| 46236/48008 [6:38:54<14:06,  2.09it/s] 96%|█████████▋| 46237/48008 [6:38:54<13:33,  2.18it/s] 96%|█████████▋| 46238/48008 [6:38:55<13:46,  2.14it/s] 96%|█████████▋| 46239/48008 [6:38:55<13:19,  2.21it/s] 96%|█████████▋| 46240/48008 [6:38:56<12:58,  2.27it/s] 96%|█████████▋| 46241/48008 [6:38:56<12:44,  2.31it/s] 96%|█████████▋| 46242/48008 [6:38:56<13:10,  2.23it/s] 96%|█████████▋| 46243/48008 [6:38:57<13:27,  2.18it/s] 96%|█████████▋| 46244/48008 [6:38:58<14:11,  2.07it/s] 96%|█████████▋| 46245/48008 [6:38:58<15:51,  1.85it/s] 96%|█████████▋| 46246/48008 [6:38:59<15:31,  1.89it/s] 96%|█████████▋| 46247/48008 [6:38:59<14:31,  2.02it/s] 96%|█████████▋| 46248/48008 [6:39:00<14:38,  2.00it/s] 96%|█████████▋| 46249/48008 [6:39:00<14:29,  2.02it/s] 96%|█████████▋| 46250/48008 [6:39:01<14:22,  2.04it/s]                                                       {'loss': 4.1836, 'grad_norm': 0.10690905153751373, 'learning_rate': 7.327945342442926e-06, 'epoch': 0.96} 96%|█████████▋| 46250/48008 [6:39:01<14:22,  2.04it/s]
 96%|█████████▋| 46251/48008 [6:39:01<14:19,  2.04it/s] 96%|█████████▋| 46252/48008 [6:39:01<13:39,  2.14it/s] 96%|█████████▋| 46253/48008 [6:39:02<13:13,  2.21it/s] 96%|█████████▋| 46254/48008 [6:39:02<12:54,  2.27it/s] 96%|█████████▋| 46255/48008 [6:39:03<13:27,  2.17it/s] 96%|█████████▋| 46256/48008 [6:39:03<13:50,  2.11it/s] 96%|█████████▋| 46257/48008 [6:39:04<13:55,  2.10it/s] 96%|█████████▋| 46258/48008 [6:39:04<13:59,  2.09it/s] 96%|█████████▋| 46259/48008 [6:39:05<14:01,  2.08it/s] 96%|█████████▋| 46260/48008 [6:39:05<14:22,  2.03it/s] 96%|█████████▋| 46261/48008 [6:39:06<14:17,  2.04it/s] 96%|█████████▋| 46262/48008 [6:39:06<14:13,  2.05it/s] 96%|█████████▋| 46263/48008 [6:39:07<14:10,  2.05it/s] 96%|█████████▋| 46264/48008 [6:39:07<15:50,  1.83it/s] 96%|█████████▋| 46265/48008 [6:39:08<14:43,  1.97it/s] 96%|█████████▋| 46266/48008 [6:39:08<14:30,  2.00it/s] 96%|█████████▋| 46267/48008 [6:39:09<13:46,  2.11it/s] 96%|█████████▋| 46268/48008 [6:39:09<14:02,  2.06it/s] 96%|█████████▋| 46269/48008 [6:39:10<14:01,  2.07it/s] 96%|█████████▋| 46270/48008 [6:39:10<14:01,  2.07it/s] 96%|█████████▋| 46271/48008 [6:39:11<14:14,  2.03it/s] 96%|█████████▋| 46272/48008 [6:39:11<14:10,  2.04it/s] 96%|█████████▋| 46273/48008 [6:39:12<15:47,  1.83it/s] 96%|█████████▋| 46274/48008 [6:39:12<15:24,  1.88it/s] 96%|█████████▋| 46275/48008 [6:39:13<14:24,  2.00it/s] 96%|█████████▋| 46276/48008 [6:39:13<14:28,  1.99it/s] 96%|█████████▋| 46277/48008 [6:39:14<14:18,  2.02it/s] 96%|█████████▋| 46278/48008 [6:39:14<15:51,  1.82it/s] 96%|█████████▋| 46279/48008 [6:39:15<15:16,  1.89it/s] 96%|█████████▋| 46280/48008 [6:39:15<14:18,  2.01it/s] 96%|█████████▋| 46281/48008 [6:39:16<14:11,  2.03it/s] 96%|█████████▋| 46282/48008 [6:39:16<13:13,  2.18it/s] 96%|█████████▋| 46283/48008 [6:39:17<13:36,  2.11it/s] 96%|█████████▋| 46284/48008 [6:39:17<13:52,  2.07it/s] 96%|█████████▋| 46285/48008 [6:39:18<13:50,  2.07it/s] 96%|█████████▋| 46286/48008 [6:39:18<13:17,  2.16it/s] 96%|█████████▋| 46287/48008 [6:39:19<12:54,  2.22it/s] 96%|█████████▋| 46288/48008 [6:39:19<13:11,  2.17it/s] 96%|█████████▋| 46289/48008 [6:39:19<12:48,  2.24it/s] 96%|█████████▋| 46290/48008 [6:39:20<13:06,  2.19it/s] 96%|█████████▋| 46291/48008 [6:39:20<13:17,  2.15it/s] 96%|█████████▋| 46292/48008 [6:39:21<13:28,  2.12it/s] 96%|█████████▋| 46293/48008 [6:39:21<12:59,  2.20it/s] 96%|█████████▋| 46294/48008 [6:39:22<13:27,  2.12it/s] 96%|█████████▋| 46295/48008 [6:39:22<13:31,  2.11it/s] 96%|█████████▋| 46296/48008 [6:39:23<13:35,  2.10it/s] 96%|█████████▋| 46297/48008 [6:39:23<13:05,  2.18it/s] 96%|█████████▋| 46298/48008 [6:39:24<13:16,  2.15it/s] 96%|█████████▋| 46299/48008 [6:39:24<13:23,  2.13it/s] 96%|█████████▋| 46300/48008 [6:39:25<13:49,  2.06it/s]                                                       {'loss': 4.1679, 'grad_norm': 0.08597210794687271, 'learning_rate': 7.119646725545742e-06, 'epoch': 0.96}
 96%|█████████▋| 46300/48008 [6:39:25<13:49,  2.06it/s] 96%|█████████▋| 46301/48008 [6:39:25<14:08,  2.01it/s] 96%|█████████▋| 46302/48008 [6:39:26<14:13,  2.00it/s] 96%|█████████▋| 46303/48008 [6:39:26<13:31,  2.10it/s] 96%|█████████▋| 46304/48008 [6:39:27<13:01,  2.18it/s] 96%|█████████▋| 46305/48008 [6:39:27<13:25,  2.11it/s] 96%|█████████▋| 46306/48008 [6:39:28<13:40,  2.07it/s] 96%|█████████▋| 46307/48008 [6:39:28<13:52,  2.04it/s] 96%|█████████▋| 46308/48008 [6:39:29<14:00,  2.02it/s] 96%|█████████▋| 46309/48008 [6:39:29<13:54,  2.04it/s] 96%|█████████▋| 46310/48008 [6:39:30<14:09,  2.00it/s] 96%|█████████▋| 46311/48008 [6:39:30<14:21,  1.97it/s] 96%|█████████▋| 46312/48008 [6:39:31<14:26,  1.96it/s] 96%|█████████▋| 46313/48008 [6:39:31<14:11,  1.99it/s] 96%|█████████▋| 46314/48008 [6:39:32<14:14,  1.98it/s] 96%|█████████▋| 46315/48008 [6:39:32<14:02,  2.01it/s] 96%|█████████▋| 46316/48008 [6:39:33<14:23,  1.96it/s] 96%|█████████▋| 46317/48008 [6:39:33<13:35,  2.07it/s] 96%|█████████▋| 46318/48008 [6:39:34<13:35,  2.07it/s] 96%|█████████▋| 46319/48008 [6:39:34<14:05,  2.00it/s] 96%|█████████▋| 46320/48008 [6:39:35<14:15,  1.97it/s] 96%|█████████▋| 46321/48008 [6:39:35<13:30,  2.08it/s] 96%|█████████▋| 46322/48008 [6:39:36<13:32,  2.08it/s] 96%|█████████▋| 46323/48008 [6:39:36<13:46,  2.04it/s] 96%|█████████▋| 46324/48008 [6:39:37<15:20,  1.83it/s] 96%|█████████▋| 46325/48008 [6:39:37<14:14,  1.97it/s] 96%|█████████▋| 46326/48008 [6:39:38<13:28,  2.08it/s] 96%|█████████▋| 46327/48008 [6:39:38<15:07,  1.85it/s] 97%|█████████▋| 46328/48008 [6:39:39<14:48,  1.89it/s] 97%|█████████▋| 46329/48008 [6:39:39<13:52,  2.02it/s] 97%|█████████▋| 46330/48008 [6:39:40<13:46,  2.03it/s] 97%|█████████▋| 46331/48008 [6:39:40<13:07,  2.13it/s] 97%|█████████▋| 46332/48008 [6:39:41<13:14,  2.11it/s] 97%|█████████▋| 46333/48008 [6:39:41<16:39,  1.68it/s] 97%|█████████▋| 46334/48008 [6:39:42<15:40,  1.78it/s] 97%|█████████▋| 46335/48008 [6:39:42<15:30,  1.80it/s] 97%|█████████▋| 46336/48008 [6:39:43<14:19,  1.94it/s] 97%|█████████▋| 46337/48008 [6:39:43<14:05,  1.98it/s] 97%|█████████▋| 46338/48008 [6:39:44<13:52,  2.01it/s] 97%|█████████▋| 46339/48008 [6:39:44<13:57,  1.99it/s] 97%|█████████▋| 46340/48008 [6:39:45<13:15,  2.10it/s] 97%|█████████▋| 46341/48008 [6:39:45<13:28,  2.06it/s] 97%|█████████▋| 46342/48008 [6:39:46<13:37,  2.04it/s] 97%|█████████▋| 46343/48008 [6:39:46<14:01,  1.98it/s] 97%|█████████▋| 46344/48008 [6:39:47<13:49,  2.01it/s] 97%|█████████▋| 46345/48008 [6:39:47<13:07,  2.11it/s] 97%|█████████▋| 46346/48008 [6:39:48<14:48,  1.87it/s] 97%|█████████▋| 46347/48008 [6:39:49<20:44,  1.33it/s] 97%|█████████▋| 46348/48008 [6:39:50<18:49,  1.47it/s] 97%|█████████▋| 46349/48008 [6:39:50<17:10,  1.61it/s] 97%|█████████▋| 46350/48008 [6:39:51<15:29,  1.78it/s]                                                       {'loss': 4.2265, 'grad_norm': 0.10828865319490433, 'learning_rate': 6.911348108648559e-06, 'epoch': 0.97} 97%|█████████▋| 46350/48008 [6:39:51<15:29,  1.78it/s]
 97%|█████████▋| 46351/48008 [6:39:51<14:50,  1.86it/s] 97%|█████████▋| 46352/48008 [6:39:52<14:23,  1.92it/s] 97%|█████████▋| 46353/48008 [6:39:52<14:03,  1.96it/s] 97%|█████████▋| 46354/48008 [6:39:53<13:50,  1.99it/s] 97%|█████████▋| 46355/48008 [6:39:53<13:40,  2.01it/s] 97%|█████████▋| 46356/48008 [6:39:53<13:45,  2.00it/s] 97%|█████████▋| 46357/48008 [6:39:54<15:11,  1.81it/s] 97%|█████████▋| 46358/48008 [6:39:55<14:35,  1.89it/s] 97%|█████████▋| 46359/48008 [6:39:55<14:10,  1.94it/s] 97%|█████████▋| 46360/48008 [6:39:56<14:22,  1.91it/s] 97%|█████████▋| 46361/48008 [6:39:56<14:13,  1.93it/s] 97%|█████████▋| 46362/48008 [6:39:57<14:15,  1.92it/s] 97%|█████████▋| 46363/48008 [6:39:57<14:07,  1.94it/s] 97%|█████████▋| 46364/48008 [6:39:58<13:17,  2.06it/s] 97%|█████████▋| 46365/48008 [6:39:58<13:36,  2.01it/s] 97%|█████████▋| 46366/48008 [6:39:59<13:29,  2.03it/s] 97%|█████████▋| 46367/48008 [6:39:59<13:52,  1.97it/s] 97%|█████████▋| 46368/48008 [6:40:00<14:08,  1.93it/s] 97%|█████████▋| 46369/48008 [6:40:00<14:01,  1.95it/s] 97%|█████████▋| 46370/48008 [6:40:01<13:14,  2.06it/s] 97%|█████████▋| 46371/48008 [6:40:01<13:12,  2.07it/s] 97%|█████████▋| 46372/48008 [6:40:02<13:11,  2.07it/s] 97%|█████████▋| 46373/48008 [6:40:02<13:20,  2.04it/s] 97%|█████████▋| 46374/48008 [6:40:03<13:28,  2.02it/s] 97%|█████████▋| 46375/48008 [6:40:03<13:21,  2.04it/s] 97%|█████████▋| 46376/48008 [6:40:04<13:16,  2.05it/s] 97%|█████████▋| 46377/48008 [6:40:04<13:13,  2.06it/s] 97%|█████████▋| 46378/48008 [6:40:05<13:10,  2.06it/s] 97%|█████████▋| 46379/48008 [6:40:05<13:37,  1.99it/s] 97%|█████████▋| 46380/48008 [6:40:06<16:40,  1.63it/s] 97%|█████████▋| 46381/48008 [6:40:06<15:35,  1.74it/s] 97%|█████████▋| 46382/48008 [6:40:07<14:49,  1.83it/s] 97%|█████████▋| 46383/48008 [6:40:07<14:17,  1.90it/s] 97%|█████████▋| 46384/48008 [6:40:08<13:53,  1.95it/s] 97%|█████████▋| 46385/48008 [6:40:08<13:57,  1.94it/s] 97%|█████████▋| 46386/48008 [6:40:09<13:08,  2.06it/s] 97%|█████████▋| 46387/48008 [6:40:09<13:17,  2.03it/s] 97%|█████████▋| 46388/48008 [6:40:10<13:22,  2.02it/s] 97%|█████████▋| 46389/48008 [6:40:11<14:49,  1.82it/s] 97%|█████████▋| 46390/48008 [6:40:11<14:27,  1.87it/s] 97%|█████████▋| 46391/48008 [6:40:11<14:01,  1.92it/s] 97%|█████████▋| 46392/48008 [6:40:12<13:59,  1.92it/s] 97%|█████████▋| 46393/48008 [6:40:13<15:13,  1.77it/s] 97%|█████████▋| 46394/48008 [6:40:13<16:04,  1.67it/s] 97%|█████████▋| 46395/48008 [6:40:14<14:35,  1.84it/s] 97%|█████████▋| 46396/48008 [6:40:14<15:40,  1.71it/s] 97%|█████████▋| 46397/48008 [6:40:15<15:19,  1.75it/s] 97%|█████████▋| 46398/48008 [6:40:16<14:55,  1.80it/s] 97%|█████████▋| 46399/48008 [6:40:16<14:30,  1.85it/s] 97%|█████████▋| 46400/48008 [6:40:16<14:02,  1.91it/s]                                                       {'loss': 4.2629, 'grad_norm': 0.10398419201374054, 'learning_rate': 6.703049491751374e-06, 'epoch': 0.97} 97%|█████████▋| 46400/48008 [6:40:17<14:02,  1.91it/s]
 97%|█████████▋| 46401/48008 [6:40:17<13:40,  1.96it/s] 97%|█████████▋| 46402/48008 [6:40:17<13:27,  1.99it/s] 97%|█████████▋| 46403/48008 [6:40:18<13:16,  2.02it/s] 97%|█████████▋| 46404/48008 [6:40:18<13:27,  1.99it/s] 97%|█████████▋| 46405/48008 [6:40:19<13:16,  2.01it/s] 97%|█████████▋| 46406/48008 [6:40:19<13:10,  2.03it/s] 97%|█████████▋| 46407/48008 [6:40:21<19:13,  1.39it/s] 97%|█████████▋| 46408/48008 [6:40:21<17:35,  1.52it/s] 97%|█████████▋| 46409/48008 [6:40:22<15:38,  1.70it/s] 97%|█████████▋| 46410/48008 [6:40:22<15:06,  1.76it/s] 97%|█████████▋| 46411/48008 [6:40:23<14:37,  1.82it/s] 97%|█████████▋| 46412/48008 [6:40:23<14:23,  1.85it/s] 97%|█████████▋| 46413/48008 [6:40:24<14:05,  1.89it/s] 97%|█████████▋| 46414/48008 [6:40:24<13:53,  1.91it/s] 97%|█████████▋| 46415/48008 [6:40:25<14:01,  1.89it/s] 97%|█████████▋| 46416/48008 [6:40:25<13:58,  1.90it/s] 97%|█████████▋| 46417/48008 [6:40:26<16:46,  1.58it/s] 97%|█████████▋| 46418/48008 [6:40:27<15:33,  1.70it/s] 97%|█████████▋| 46419/48008 [6:40:27<15:00,  1.77it/s] 97%|█████████▋| 46420/48008 [6:40:28<20:28,  1.29it/s] 97%|█████████▋| 46421/48008 [6:40:29<18:19,  1.44it/s] 97%|█████████▋| 46422/48008 [6:40:29<16:41,  1.58it/s] 97%|█████████▋| 46423/48008 [6:40:30<15:31,  1.70it/s] 97%|█████████▋| 46424/48008 [6:40:30<14:39,  1.80it/s] 97%|█████████▋| 46425/48008 [6:40:31<13:33,  1.95it/s] 97%|█████████▋| 46426/48008 [6:40:31<13:16,  1.99it/s] 97%|█████████▋| 46427/48008 [6:40:32<13:06,  2.01it/s] 97%|█████████▋| 46428/48008 [6:40:32<13:26,  1.96it/s] 97%|█████████▋| 46429/48008 [6:40:33<13:13,  1.99it/s] 97%|█████████▋| 46430/48008 [6:40:33<13:15,  1.98it/s] 97%|█████████▋| 46431/48008 [6:40:34<13:03,  2.01it/s] 97%|█████████▋| 46432/48008 [6:40:34<12:58,  2.02it/s] 97%|█████████▋| 46433/48008 [6:40:35<13:02,  2.01it/s] 97%|█████████▋| 46434/48008 [6:40:35<13:04,  2.01it/s] 97%|█████████▋| 46435/48008 [6:40:36<12:57,  2.02it/s] 97%|█████████▋| 46436/48008 [6:40:36<12:51,  2.04it/s] 97%|█████████▋| 46437/48008 [6:40:37<14:18,  1.83it/s] 97%|█████████▋| 46438/48008 [6:40:37<13:57,  1.88it/s] 97%|█████████▋| 46439/48008 [6:40:38<13:33,  1.93it/s] 97%|█████████▋| 46440/48008 [6:40:38<13:43,  1.90it/s] 97%|█████████▋| 46441/48008 [6:40:39<12:52,  2.03it/s] 97%|█████████▋| 46442/48008 [6:40:39<12:59,  2.01it/s] 97%|█████████▋| 46443/48008 [6:40:40<12:21,  2.11it/s] 97%|█████████▋| 46444/48008 [6:40:40<12:43,  2.05it/s] 97%|█████████▋| 46445/48008 [6:40:42<21:03,  1.24it/s] 97%|█████████▋| 46446/48008 [6:40:42<19:59,  1.30it/s] 97%|█████████▋| 46447/48008 [6:40:43<17:45,  1.46it/s] 97%|█████████▋| 46448/48008 [6:40:43<16:11,  1.61it/s] 97%|█████████▋| 46449/48008 [6:40:44<15:04,  1.72it/s] 97%|█████████▋| 46450/48008 [6:40:44<14:46,  1.76it/s]                                                       {'loss': 4.2721, 'grad_norm': 0.11595457792282104, 'learning_rate': 6.494750874854192e-06, 'epoch': 0.97} 97%|█████████▋| 46450/48008 [6:40:44<14:46,  1.76it/s]
 97%|█████████▋| 46451/48008 [6:40:45<14:15,  1.82it/s] 97%|█████████▋| 46452/48008 [6:40:45<13:13,  1.96it/s] 97%|█████████▋| 46453/48008 [6:40:46<13:11,  1.96it/s] 97%|█████████▋| 46454/48008 [6:40:46<12:59,  1.99it/s] 97%|█████████▋| 46455/48008 [6:40:47<12:49,  2.02it/s] 97%|█████████▋| 46456/48008 [6:40:47<12:52,  2.01it/s] 97%|█████████▋| 46457/48008 [6:40:48<12:13,  2.11it/s] 97%|█████████▋| 46458/48008 [6:40:48<12:28,  2.07it/s] 97%|█████████▋| 46459/48008 [6:40:49<11:56,  2.16it/s] 97%|█████████▋| 46460/48008 [6:40:49<12:05,  2.13it/s] 97%|█████████▋| 46461/48008 [6:40:50<12:11,  2.12it/s] 97%|█████████▋| 46462/48008 [6:40:50<11:44,  2.19it/s] 97%|█████████▋| 46463/48008 [6:40:51<12:07,  2.12it/s] 97%|█████████▋| 46464/48008 [6:40:51<12:10,  2.11it/s] 97%|█████████▋| 46465/48008 [6:40:52<12:30,  2.06it/s] 97%|█████████▋| 46466/48008 [6:40:52<12:45,  2.01it/s] 97%|█████████▋| 46467/48008 [6:40:53<12:39,  2.03it/s] 97%|█████████▋| 46468/48008 [6:40:53<12:43,  2.02it/s] 97%|█████████▋| 46469/48008 [6:40:54<12:36,  2.04it/s] 97%|█████████▋| 46470/48008 [6:40:54<12:00,  2.13it/s] 97%|█████████▋| 46471/48008 [6:40:54<12:06,  2.11it/s] 97%|█████████▋| 46472/48008 [6:40:55<12:10,  2.10it/s] 97%|█████████▋| 46473/48008 [6:40:55<12:12,  2.10it/s] 97%|█████████▋| 46474/48008 [6:40:56<12:40,  2.02it/s] 97%|█████████▋| 46475/48008 [6:40:56<12:45,  2.00it/s] 97%|█████████▋| 46476/48008 [6:40:57<13:03,  1.96it/s] 97%|█████████▋| 46477/48008 [6:40:58<18:43,  1.36it/s] 97%|█████████▋| 46478/48008 [6:40:59<16:46,  1.52it/s] 97%|█████████▋| 46479/48008 [6:40:59<14:52,  1.71it/s] 97%|█████████▋| 46480/48008 [6:41:00<13:33,  1.88it/s] 97%|█████████▋| 46481/48008 [6:41:00<13:11,  1.93it/s] 97%|█████████▋| 46482/48008 [6:41:01<12:55,  1.97it/s] 97%|█████████▋| 46483/48008 [6:41:01<12:53,  1.97it/s] 97%|█████████▋| 46484/48008 [6:41:02<12:52,  1.97it/s] 97%|█████████▋| 46485/48008 [6:41:02<12:50,  1.98it/s] 97%|█████████▋| 46486/48008 [6:41:02<12:09,  2.09it/s] 97%|█████████▋| 46487/48008 [6:41:03<11:39,  2.17it/s] 97%|█████████▋| 46488/48008 [6:41:03<12:07,  2.09it/s] 97%|█████████▋| 46489/48008 [6:41:04<12:36,  2.01it/s] 97%|█████████▋| 46490/48008 [6:41:04<11:58,  2.11it/s] 97%|█████████▋| 46491/48008 [6:41:05<12:02,  2.10it/s] 97%|█████████▋| 46492/48008 [6:41:05<12:23,  2.04it/s] 97%|█████████▋| 46493/48008 [6:41:06<12:20,  2.05it/s] 97%|█████████▋| 46494/48008 [6:41:06<11:47,  2.14it/s] 97%|█████████▋| 46495/48008 [6:41:07<11:52,  2.12it/s] 97%|█████████▋| 46496/48008 [6:41:07<11:56,  2.11it/s] 97%|█████████▋| 46497/48008 [6:41:08<15:00,  1.68it/s] 97%|█████████▋| 46498/48008 [6:41:09<14:20,  1.76it/s] 97%|█████████▋| 46499/48008 [6:41:09<13:39,  1.84it/s] 97%|█████████▋| 46500/48008 [6:41:10<13:21,  1.88it/s]                                                       {'loss': 4.2417, 'grad_norm': 0.09890979528427124, 'learning_rate': 6.286452257957008e-06, 'epoch': 0.97} 97%|█████████▋| 46500/48008 [6:41:10<13:21,  1.88it/s]
 97%|█████████▋| 46501/48008 [6:41:10<13:27,  1.87it/s] 97%|█████████▋| 46502/48008 [6:41:11<12:33,  2.00it/s] 97%|█████████▋| 46503/48008 [6:41:11<12:25,  2.02it/s] 97%|█████████▋| 46504/48008 [6:41:12<12:29,  2.01it/s] 97%|█████████▋| 46505/48008 [6:41:12<11:51,  2.11it/s] 97%|█████████▋| 46506/48008 [6:41:12<11:55,  2.10it/s] 97%|█████████▋| 46507/48008 [6:41:13<11:56,  2.09it/s] 97%|█████████▋| 46508/48008 [6:41:13<11:58,  2.09it/s] 97%|█████████▋| 46509/48008 [6:41:15<17:45,  1.41it/s] 97%|█████████▋| 46510/48008 [6:41:15<16:19,  1.53it/s] 97%|█████████▋| 46511/48008 [6:41:16<15:26,  1.62it/s] 97%|█████████▋| 46512/48008 [6:41:16<15:51,  1.57it/s] 97%|█████████▋| 46513/48008 [6:41:17<14:11,  1.76it/s] 97%|█████████▋| 46514/48008 [6:41:17<13:02,  1.91it/s] 97%|█████████▋| 46515/48008 [6:41:18<12:53,  1.93it/s] 97%|█████████▋| 46516/48008 [6:41:18<12:37,  1.97it/s] 97%|█████████▋| 46517/48008 [6:41:19<11:55,  2.09it/s] 97%|█████████▋| 46518/48008 [6:41:19<12:07,  2.05it/s] 97%|█████████▋| 46519/48008 [6:41:20<12:03,  2.06it/s] 97%|█████████▋| 46520/48008 [6:41:20<12:02,  2.06it/s] 97%|█████████▋| 46521/48008 [6:41:21<13:26,  1.84it/s] 97%|█████████▋| 46522/48008 [6:41:21<13:15,  1.87it/s] 97%|█████████▋| 46523/48008 [6:41:22<12:51,  1.93it/s] 97%|█████████▋| 46524/48008 [6:41:22<12:34,  1.97it/s] 97%|█████████▋| 46525/48008 [6:41:23<13:48,  1.79it/s] 97%|█████████▋| 46526/48008 [6:41:23<13:31,  1.83it/s] 97%|█████████▋| 46527/48008 [6:41:24<13:01,  1.90it/s] 97%|█████████▋| 46528/48008 [6:41:24<12:50,  1.92it/s] 97%|█████████▋| 46529/48008 [6:41:25<12:33,  1.96it/s] 97%|█████████▋| 46530/48008 [6:41:25<12:19,  2.00it/s] 97%|█████████▋| 46531/48008 [6:41:26<12:11,  2.02it/s] 97%|█████████▋| 46532/48008 [6:41:26<12:14,  2.01it/s] 97%|█████████▋| 46533/48008 [6:41:27<12:24,  1.98it/s] 97%|█████████▋| 46534/48008 [6:41:27<12:12,  2.01it/s] 97%|█████████▋| 46535/48008 [6:41:28<12:14,  2.01it/s] 97%|█████████▋| 46536/48008 [6:41:28<12:16,  2.00it/s] 97%|█████████▋| 46537/48008 [6:41:29<12:33,  1.95it/s] 97%|█████████▋| 46538/48008 [6:41:29<12:40,  1.93it/s] 97%|█████████▋| 46539/48008 [6:41:30<12:36,  1.94it/s] 97%|█████████▋| 46540/48008 [6:41:31<12:37,  1.94it/s] 97%|█████████▋| 46541/48008 [6:41:31<11:38,  2.10it/s] 97%|█████████▋| 46542/48008 [6:41:31<11:50,  2.06it/s] 97%|█████████▋| 46543/48008 [6:41:32<11:06,  2.20it/s] 97%|█████████▋| 46544/48008 [6:41:32<11:16,  2.17it/s] 97%|█████████▋| 46545/48008 [6:41:33<11:25,  2.14it/s] 97%|█████████▋| 46546/48008 [6:41:33<11:47,  2.07it/s] 97%|█████████▋| 46547/48008 [6:41:34<11:55,  2.04it/s] 97%|█████████▋| 46548/48008 [6:41:34<11:53,  2.04it/s] 97%|█████████▋| 46549/48008 [6:41:35<12:17,  1.98it/s] 97%|█████████▋| 46550/48008 [6:41:36<14:58,  1.62it/s]                                                       {'loss': 4.2766, 'grad_norm': 0.10346589237451553, 'learning_rate': 6.078153641059824e-06, 'epoch': 0.97}
 97%|█████████▋| 46550/48008 [6:41:36<14:58,  1.62it/s] 97%|█████████▋| 46551/48008 [6:41:36<13:59,  1.74it/s] 97%|█████████▋| 46552/48008 [6:41:37<13:15,  1.83it/s] 97%|█████████▋| 46553/48008 [6:41:37<14:10,  1.71it/s] 97%|█████████▋| 46554/48008 [6:41:38<12:43,  1.90it/s] 97%|█████████▋| 46555/48008 [6:41:38<12:24,  1.95it/s] 97%|█████████▋| 46556/48008 [6:41:39<12:09,  1.99it/s] 97%|█████████▋| 46557/48008 [6:41:39<12:00,  2.01it/s] 97%|█████████▋| 46558/48008 [6:41:40<12:10,  1.99it/s] 97%|█████████▋| 46559/48008 [6:41:40<12:16,  1.97it/s] 97%|█████████▋| 46560/48008 [6:41:41<12:04,  2.00it/s] 97%|█████████▋| 46561/48008 [6:41:41<13:20,  1.81it/s] 97%|█████████▋| 46562/48008 [6:41:42<12:48,  1.88it/s] 97%|█████████▋| 46563/48008 [6:41:42<12:42,  1.90it/s] 97%|█████████▋| 46564/48008 [6:41:43<12:22,  1.95it/s] 97%|█████████▋| 46565/48008 [6:41:43<11:38,  2.06it/s] 97%|█████████▋| 46566/48008 [6:41:44<11:38,  2.07it/s] 97%|█████████▋| 46567/48008 [6:41:44<11:47,  2.04it/s] 97%|█████████▋| 46568/48008 [6:41:45<12:01,  2.00it/s] 97%|█████████▋| 46569/48008 [6:41:45<11:53,  2.02it/s] 97%|█████████▋| 46570/48008 [6:41:46<11:56,  2.01it/s] 97%|█████████▋| 46571/48008 [6:41:46<11:20,  2.11it/s] 97%|█████████▋| 46572/48008 [6:41:47<11:48,  2.03it/s] 97%|█████████▋| 46573/48008 [6:41:47<11:42,  2.04it/s] 97%|█████████▋| 46574/48008 [6:41:48<11:51,  2.02it/s] 97%|█████████▋| 46575/48008 [6:41:48<12:01,  1.99it/s] 97%|█████████▋| 46576/48008 [6:41:49<11:51,  2.01it/s] 97%|█████████▋| 46577/48008 [6:41:49<11:45,  2.03it/s] 97%|█████████▋| 46578/48008 [6:41:50<13:04,  1.82it/s] 97%|█████████▋| 46579/48008 [6:41:50<12:33,  1.90it/s] 97%|█████████▋| 46580/48008 [6:41:51<12:12,  1.95it/s] 97%|█████████▋| 46581/48008 [6:41:51<11:57,  1.99it/s] 97%|█████████▋| 46582/48008 [6:41:52<12:00,  1.98it/s] 97%|█████████▋| 46583/48008 [6:41:52<11:21,  2.09it/s] 97%|█████████▋| 46584/48008 [6:41:53<10:55,  2.17it/s] 97%|█████████▋| 46585/48008 [6:41:53<11:03,  2.15it/s] 97%|█████████▋| 46586/48008 [6:41:54<11:09,  2.12it/s] 97%|█████████▋| 46587/48008 [6:41:54<11:24,  2.08it/s] 97%|█████████▋| 46588/48008 [6:41:55<14:13,  1.66it/s] 97%|█████████▋| 46589/48008 [6:41:55<13:30,  1.75it/s] 97%|█████████▋| 46590/48008 [6:41:56<12:53,  1.83it/s] 97%|█████████▋| 46591/48008 [6:41:56<12:35,  1.87it/s] 97%|█████████▋| 46592/48008 [6:41:57<11:46,  2.00it/s] 97%|█████████▋| 46593/48008 [6:41:58<17:05,  1.38it/s] 97%|█████████▋| 46594/48008 [6:41:59<15:40,  1.50it/s] 97%|█████████▋| 46595/48008 [6:41:59<13:55,  1.69it/s] 97%|█████████▋| 46596/48008 [6:42:00<13:27,  1.75it/s] 97%|█████████▋| 46597/48008 [6:42:00<12:49,  1.83it/s] 97%|█████████▋| 46598/48008 [6:42:01<12:23,  1.90it/s] 97%|█████████▋| 46599/48008 [6:42:01<12:21,  1.90it/s] 97%|█████████▋| 46600/48008 [6:42:02<12:11,  1.92it/s]                                                        97%|█████████▋| 46600/48008 [6:42:02<12:11,  1.92it/s]{'loss': 4.2541, 'grad_norm': 0.09667550772428513, 'learning_rate': 5.8698550241626395e-06, 'epoch': 0.97}
 97%|█████████▋| 46601/48008 [6:42:02<11:57,  1.96it/s] 97%|█████████▋| 46602/48008 [6:42:03<11:45,  1.99it/s] 97%|█████████▋| 46603/48008 [6:42:03<11:52,  1.97it/s] 97%|█████████▋| 46604/48008 [6:42:04<12:05,  1.94it/s] 97%|█████████▋| 46605/48008 [6:42:04<12:00,  1.95it/s] 97%|█████████▋| 46606/48008 [6:42:05<11:47,  1.98it/s] 97%|█████████▋| 46607/48008 [6:42:05<12:03,  1.94it/s] 97%|█████████▋| 46608/48008 [6:42:06<11:57,  1.95it/s] 97%|█████████▋| 46609/48008 [6:42:06<11:55,  1.96it/s] 97%|█████████▋| 46610/48008 [6:42:07<12:08,  1.92it/s] 97%|█████████▋| 46611/48008 [6:42:07<12:03,  1.93it/s] 97%|█████████▋| 46612/48008 [6:42:08<11:48,  1.97it/s] 97%|█████████▋| 46613/48008 [6:42:08<11:48,  1.97it/s] 97%|█████████▋| 46614/48008 [6:42:09<12:02,  1.93it/s] 97%|█████████▋| 46615/48008 [6:42:09<11:48,  1.97it/s] 97%|█████████▋| 46616/48008 [6:42:10<11:37,  2.00it/s] 97%|█████████▋| 46617/48008 [6:42:10<11:28,  2.02it/s] 97%|█████████▋| 46618/48008 [6:42:11<11:39,  1.99it/s] 97%|█████████▋| 46619/48008 [6:42:11<11:42,  1.98it/s] 97%|█████████▋| 46620/48008 [6:42:12<11:42,  1.97it/s] 97%|█████████▋| 46621/48008 [6:42:12<11:06,  2.08it/s] 97%|█████████▋| 46622/48008 [6:42:13<10:39,  2.17it/s] 97%|█████████▋| 46623/48008 [6:42:14<16:07,  1.43it/s] 97%|█████████▋| 46624/48008 [6:42:14<14:38,  1.58it/s] 97%|█████████▋| 46625/48008 [6:42:15<13:50,  1.66it/s] 97%|█████████▋| 46626/48008 [6:42:15<13:00,  1.77it/s] 97%|█████████▋| 46627/48008 [6:42:17<18:15,  1.26it/s] 97%|█████████▋| 46628/48008 [6:42:17<16:06,  1.43it/s] 97%|█████████▋| 46629/48008 [6:42:18<14:52,  1.54it/s] 97%|█████████▋| 46630/48008 [6:42:18<13:59,  1.64it/s] 97%|█████████▋| 46631/48008 [6:42:19<13:15,  1.73it/s] 97%|█████████▋| 46632/48008 [6:42:19<12:35,  1.82it/s] 97%|█████████▋| 46633/48008 [6:42:21<18:18,  1.25it/s] 97%|█████████▋| 46634/48008 [6:42:21<16:07,  1.42it/s] 97%|█████████▋| 46635/48008 [6:42:22<14:44,  1.55it/s] 97%|█████████▋| 46636/48008 [6:42:22<13:53,  1.65it/s] 97%|█████████▋| 46637/48008 [6:42:23<13:00,  1.76it/s] 97%|█████████▋| 46638/48008 [6:42:23<12:23,  1.84it/s] 97%|█████████▋| 46639/48008 [6:42:24<15:37,  1.46it/s] 97%|█████████▋| 46640/48008 [6:42:24<13:46,  1.65it/s] 97%|█████████▋| 46641/48008 [6:42:25<13:05,  1.74it/s] 97%|█████████▋| 46642/48008 [6:42:25<12:26,  1.83it/s] 97%|█████████▋| 46643/48008 [6:42:26<11:59,  1.90it/s] 97%|█████████▋| 46644/48008 [6:42:26<11:13,  2.02it/s] 97%|█████████▋| 46645/48008 [6:42:27<11:18,  2.01it/s] 97%|█████████▋| 46646/48008 [6:42:27<11:20,  2.00it/s] 97%|█████████▋| 46647/48008 [6:42:28<11:12,  2.02it/s] 97%|█████████▋| 46648/48008 [6:42:28<11:05,  2.04it/s] 97%|█████████▋| 46649/48008 [6:42:29<11:02,  2.05it/s] 97%|█████████▋| 46650/48008 [6:42:29<11:10,  2.03it/s]                                                       {'loss': 4.2482, 'grad_norm': 0.11251497268676758, 'learning_rate': 5.661556407265456e-06, 'epoch': 0.97} 97%|█████████▋| 46650/48008 [6:42:29<11:10,  2.03it/s]
 97%|█████████▋| 46651/48008 [6:42:30<11:06,  2.04it/s] 97%|█████████▋| 46652/48008 [6:42:30<10:36,  2.13it/s] 97%|█████████▋| 46653/48008 [6:42:31<10:42,  2.11it/s] 97%|█████████▋| 46654/48008 [6:42:31<12:04,  1.87it/s] 97%|█████████▋| 46655/48008 [6:42:32<11:41,  1.93it/s] 97%|█████████▋| 46656/48008 [6:42:32<11:50,  1.90it/s] 97%|█████████▋| 46657/48008 [6:42:33<15:17,  1.47it/s] 97%|█████████▋| 46658/48008 [6:42:34<13:30,  1.67it/s] 97%|█████████▋| 46659/48008 [6:42:35<17:53,  1.26it/s] 97%|█████████▋| 46660/48008 [6:42:36<15:47,  1.42it/s] 97%|█████████▋| 46661/48008 [6:42:36<14:27,  1.55it/s] 97%|█████████▋| 46662/48008 [6:42:37<13:24,  1.67it/s] 97%|█████████▋| 46663/48008 [6:42:37<12:46,  1.76it/s] 97%|█████████▋| 46664/48008 [6:42:38<12:10,  1.84it/s] 97%|█████████▋| 46665/48008 [6:42:38<11:45,  1.90it/s] 97%|█████████▋| 46666/48008 [6:42:39<11:35,  1.93it/s] 97%|█████████▋| 46667/48008 [6:42:39<11:21,  1.97it/s] 97%|█████████▋| 46668/48008 [6:42:40<11:08,  2.00it/s] 97%|█████████▋| 46669/48008 [6:42:41<16:10,  1.38it/s] 97%|█████████▋| 46670/48008 [6:42:42<17:12,  1.30it/s] 97%|█████████▋| 46671/48008 [6:42:42<15:15,  1.46it/s] 97%|█████████▋| 46672/48008 [6:42:43<13:53,  1.60it/s] 97%|█████████▋| 46673/48008 [6:42:43<13:04,  1.70it/s] 97%|█████████▋| 46674/48008 [6:42:44<12:37,  1.76it/s] 97%|█████████▋| 46675/48008 [6:42:44<12:12,  1.82it/s] 97%|█████████▋| 46676/48008 [6:42:45<11:43,  1.89it/s] 97%|█████████▋| 46677/48008 [6:42:45<11:36,  1.91it/s] 97%|█████████▋| 46678/48008 [6:42:46<11:36,  1.91it/s] 97%|█████████▋| 46679/48008 [6:42:46<11:21,  1.95it/s] 97%|█████████▋| 46680/48008 [6:42:47<10:42,  2.07it/s] 97%|█████████▋| 46681/48008 [6:42:47<10:43,  2.06it/s] 97%|█████████▋| 46682/48008 [6:42:48<10:53,  2.03it/s] 97%|█████████▋| 46683/48008 [6:42:48<10:48,  2.04it/s] 97%|█████████▋| 46684/48008 [6:42:49<10:45,  2.05it/s] 97%|█████████▋| 46685/48008 [6:42:49<11:05,  1.99it/s] 97%|█████████▋| 46686/48008 [6:42:50<11:06,  1.98it/s] 97%|█████████▋| 46687/48008 [6:42:50<10:58,  2.01it/s] 97%|█████████▋| 46688/48008 [6:42:51<11:01,  1.99it/s] 97%|█████████▋| 46689/48008 [6:42:51<11:02,  1.99it/s] 97%|█████████▋| 46690/48008 [6:42:52<10:55,  2.01it/s] 97%|█████████▋| 46691/48008 [6:42:52<10:49,  2.03it/s] 97%|█████████▋| 46692/48008 [6:42:52<10:05,  2.17it/s] 97%|█████████▋| 46693/48008 [6:42:53<12:50,  1.71it/s] 97%|█████████▋| 46694/48008 [6:42:54<12:09,  1.80it/s] 97%|█████████▋| 46695/48008 [6:42:54<12:04,  1.81it/s] 97%|█████████▋| 46696/48008 [6:42:55<11:36,  1.88it/s] 97%|█████████▋| 46697/48008 [6:42:55<10:52,  2.01it/s] 97%|█████████▋| 46698/48008 [6:42:56<10:46,  2.03it/s] 97%|█████████▋| 46699/48008 [6:42:56<10:41,  2.04it/s] 97%|█████████▋| 46700/48008 [6:42:57<10:46,  2.02it/s]                                                       {'loss': 4.2679, 'grad_norm': 0.10333812236785889, 'learning_rate': 5.453257790368272e-06, 'epoch': 0.97}
 97%|█████████▋| 46700/48008 [6:42:57<10:46,  2.02it/s] 97%|█████████▋| 46701/48008 [6:42:57<10:42,  2.03it/s] 97%|█████████▋| 46702/48008 [6:42:58<10:13,  2.13it/s] 97%|█████████▋| 46703/48008 [6:42:58<10:18,  2.11it/s] 97%|█████████▋| 46704/48008 [6:42:59<10:29,  2.07it/s] 97%|█████████▋| 46705/48008 [6:42:59<10:37,  2.04it/s] 97%|█████████▋| 46706/48008 [6:43:00<10:42,  2.03it/s] 97%|█████████▋| 46707/48008 [6:43:00<10:37,  2.04it/s] 97%|█████████▋| 46708/48008 [6:43:01<10:09,  2.13it/s] 97%|█████████▋| 46709/48008 [6:43:01<10:29,  2.06it/s] 97%|█████████▋| 46710/48008 [6:43:02<10:29,  2.06it/s] 97%|█████████▋| 46711/48008 [6:43:02<10:49,  2.00it/s] 97%|█████████▋| 46712/48008 [6:43:03<10:40,  2.02it/s] 97%|█████████▋| 46713/48008 [6:43:04<15:37,  1.38it/s] 97%|█████████▋| 46714/48008 [6:43:04<14:20,  1.50it/s] 97%|█████████▋| 46715/48008 [6:43:05<13:10,  1.63it/s] 97%|█████████▋| 46716/48008 [6:43:05<12:29,  1.72it/s] 97%|█████████▋| 46717/48008 [6:43:06<12:13,  1.76it/s] 97%|█████████▋| 46718/48008 [6:43:06<11:40,  1.84it/s] 97%|█████████▋| 46719/48008 [6:43:07<10:38,  2.02it/s] 97%|█████████▋| 46720/48008 [6:43:07<10:44,  2.00it/s] 97%|█████████▋| 46721/48008 [6:43:08<10:38,  2.02it/s] 97%|█████████▋| 46722/48008 [6:43:08<11:47,  1.82it/s] 97%|█████████▋| 46723/48008 [6:43:09<10:56,  1.96it/s] 97%|█████████▋| 46724/48008 [6:43:09<10:46,  1.99it/s] 97%|█████████▋| 46725/48008 [6:43:10<10:12,  2.10it/s] 97%|█████████▋| 46726/48008 [6:43:10<10:37,  2.01it/s] 97%|█████████▋| 46727/48008 [6:43:11<10:06,  2.11it/s] 97%|█████████▋| 46728/48008 [6:43:11<10:11,  2.09it/s] 97%|█████████▋| 46729/48008 [6:43:12<10:22,  2.05it/s] 97%|█████████▋| 46730/48008 [6:43:12<09:55,  2.15it/s] 97%|█████████▋| 46731/48008 [6:43:13<10:08,  2.10it/s] 97%|█████████▋| 46732/48008 [6:43:13<10:19,  2.06it/s] 97%|█████████▋| 46733/48008 [6:43:14<10:17,  2.06it/s] 97%|█████████▋| 46734/48008 [6:43:14<10:16,  2.07it/s] 97%|█████████▋| 46735/48008 [6:43:15<10:37,  2.00it/s] 97%|█████████▋| 46736/48008 [6:43:15<10:30,  2.02it/s] 97%|█████████▋| 46737/48008 [6:43:16<11:37,  1.82it/s] 97%|█████████▋| 46738/48008 [6:43:16<11:11,  1.89it/s] 97%|█████████▋| 46739/48008 [6:43:17<11:02,  1.92it/s] 97%|█████████▋| 46740/48008 [6:43:17<10:56,  1.93it/s] 97%|█████████▋| 46741/48008 [6:43:18<10:43,  1.97it/s] 97%|█████████▋| 46742/48008 [6:43:18<11:45,  1.79it/s] 97%|█████████▋| 46743/48008 [6:43:19<10:52,  1.94it/s] 97%|█████████▋| 46744/48008 [6:43:19<10:38,  1.98it/s] 97%|█████████▋| 46745/48008 [6:43:20<11:44,  1.79it/s] 97%|█████████▋| 46746/48008 [6:43:20<10:50,  1.94it/s] 97%|█████████▋| 46747/48008 [6:43:21<10:36,  1.98it/s] 97%|█████████▋| 46748/48008 [6:43:21<10:01,  2.09it/s] 97%|█████████▋| 46749/48008 [6:43:22<10:13,  2.05it/s] 97%|█████████▋| 46750/48008 [6:43:22<10:11,  2.06it/s]                                                       {'loss': 4.2185, 'grad_norm': 0.10320587456226349, 'learning_rate': 5.244959173471088e-06, 'epoch': 0.97}
 97%|█████████▋| 46750/48008 [6:43:22<10:11,  2.06it/s] 97%|█████████▋| 46751/48008 [6:43:23<10:09,  2.06it/s] 97%|█████████▋| 46752/48008 [6:43:23<10:08,  2.06it/s] 97%|█████████▋| 46753/48008 [6:43:24<09:43,  2.15it/s] 97%|█████████▋| 46754/48008 [6:43:24<11:03,  1.89it/s] 97%|█████████▋| 46755/48008 [6:43:25<10:47,  1.94it/s] 97%|█████████▋| 46756/48008 [6:43:25<10:44,  1.94it/s] 97%|█████████▋| 46757/48008 [6:43:26<10:32,  1.98it/s] 97%|█████████▋| 46758/48008 [6:43:26<10:21,  2.01it/s] 97%|█████████▋| 46759/48008 [6:43:27<10:30,  1.98it/s] 97%|█████████▋| 46760/48008 [6:43:27<10:45,  1.93it/s] 97%|█████████▋| 46761/48008 [6:43:28<10:46,  1.93it/s] 97%|█████████▋| 46762/48008 [6:43:28<10:42,  1.94it/s] 97%|█████████▋| 46763/48008 [6:43:29<10:38,  1.95it/s] 97%|█████████▋| 46764/48008 [6:43:29<10:26,  1.98it/s] 97%|█████████▋| 46765/48008 [6:43:30<12:47,  1.62it/s] 97%|█████████▋| 46766/48008 [6:43:31<12:06,  1.71it/s] 97%|█████████▋| 46767/48008 [6:43:31<11:45,  1.76it/s] 97%|█████████▋| 46768/48008 [6:43:32<11:20,  1.82it/s] 97%|█████████▋| 46769/48008 [6:43:32<10:56,  1.89it/s] 97%|█████████▋| 46770/48008 [6:43:33<11:52,  1.74it/s] 97%|█████████▋| 46771/48008 [6:43:34<11:33,  1.78it/s] 97%|█████████▋| 46772/48008 [6:43:34<11:04,  1.86it/s] 97%|█████████▋| 46773/48008 [6:43:34<10:20,  1.99it/s] 97%|█████████▋| 46774/48008 [6:43:35<09:50,  2.09it/s] 97%|█████████▋| 46775/48008 [6:43:36<11:04,  1.86it/s] 97%|█████████▋| 46776/48008 [6:43:37<15:27,  1.33it/s] 97%|█████████▋| 46777/48008 [6:43:37<13:47,  1.49it/s] 97%|█████████▋| 46778/48008 [6:43:38<12:43,  1.61it/s] 97%|█████████▋| 46779/48008 [6:43:38<11:52,  1.72it/s] 97%|█████████▋| 46780/48008 [6:43:39<11:30,  1.78it/s] 97%|█████████▋| 46781/48008 [6:43:40<13:27,  1.52it/s] 97%|█████████▋| 46782/48008 [6:43:40<13:34,  1.51it/s] 97%|█████████▋| 46783/48008 [6:43:41<12:27,  1.64it/s] 97%|█████████▋| 46784/48008 [6:43:41<12:03,  1.69it/s] 97%|█████████▋| 46785/48008 [6:43:42<11:33,  1.76it/s] 97%|█████████▋| 46786/48008 [6:43:43<12:13,  1.67it/s] 97%|█████████▋| 46787/48008 [6:43:43<11:39,  1.75it/s] 97%|█████████▋| 46788/48008 [6:43:44<11:26,  1.78it/s] 97%|█████████▋| 46789/48008 [6:43:44<11:06,  1.83it/s] 97%|█████████▋| 46790/48008 [6:43:45<10:50,  1.87it/s] 97%|█████████▋| 46791/48008 [6:43:45<10:30,  1.93it/s] 97%|█████████▋| 46792/48008 [6:43:46<10:17,  1.97it/s] 97%|█████████▋| 46793/48008 [6:43:46<10:07,  2.00it/s] 97%|█████████▋| 46794/48008 [6:43:47<11:11,  1.81it/s] 97%|█████████▋| 46795/48008 [6:43:47<10:45,  1.88it/s] 97%|█████████▋| 46796/48008 [6:43:48<10:27,  1.93it/s] 97%|█████████▋| 46797/48008 [6:43:48<10:15,  1.97it/s] 97%|█████████▋| 46798/48008 [6:43:49<10:18,  1.96it/s] 97%|█████████▋| 46799/48008 [6:43:49<10:06,  1.99it/s] 97%|█████████▋| 46800/48008 [6:43:50<09:36,  2.10it/s]                                                       {'loss': 4.2671, 'grad_norm': 0.12088511139154434, 'learning_rate': 5.036660556573905e-06, 'epoch': 0.97}
 97%|█████████▋| 46800/48008 [6:43:50<09:36,  2.10it/s] 97%|█████████▋| 46801/48008 [6:43:50<09:39,  2.08it/s] 97%|█████████▋| 46802/48008 [6:43:51<09:47,  2.05it/s] 97%|█████████▋| 46803/48008 [6:43:51<09:58,  2.01it/s] 97%|█████████▋| 46804/48008 [6:43:52<09:52,  2.03it/s] 97%|█████████▋| 46805/48008 [6:43:52<10:58,  1.83it/s] 97%|█████████▋| 46806/48008 [6:43:53<10:34,  1.90it/s] 97%|█████████▋| 46807/48008 [6:43:53<09:54,  2.02it/s] 98%|█████████▊| 46808/48008 [6:43:54<09:49,  2.04it/s] 98%|█████████▊| 46809/48008 [6:43:54<09:22,  2.13it/s] 98%|█████████▊| 46810/48008 [6:43:55<09:27,  2.11it/s] 98%|█████████▊| 46811/48008 [6:43:55<09:38,  2.07it/s] 98%|█████████▊| 46812/48008 [6:43:56<09:38,  2.07it/s] 98%|█████████▊| 46813/48008 [6:43:56<09:14,  2.16it/s] 98%|█████████▊| 46814/48008 [6:43:56<08:57,  2.22it/s] 98%|█████████▊| 46815/48008 [6:43:57<09:28,  2.10it/s] 98%|█████████▊| 46816/48008 [6:43:57<09:31,  2.09it/s] 98%|█████████▊| 46817/48008 [6:43:58<09:33,  2.08it/s] 98%|█████████▊| 46818/48008 [6:43:58<09:34,  2.07it/s] 98%|█████████▊| 46819/48008 [6:43:59<09:33,  2.07it/s] 98%|█████████▊| 46820/48008 [6:43:59<09:33,  2.07it/s] 98%|█████████▊| 46821/48008 [6:44:00<09:32,  2.07it/s] 98%|█████████▊| 46822/48008 [6:44:00<09:45,  2.02it/s] 98%|█████████▊| 46823/48008 [6:44:02<14:17,  1.38it/s] 98%|█████████▊| 46824/48008 [6:44:02<12:52,  1.53it/s] 98%|█████████▊| 46825/48008 [6:44:03<13:00,  1.51it/s] 98%|█████████▊| 46826/48008 [6:44:03<11:34,  1.70it/s] 98%|█████████▊| 46827/48008 [6:44:04<10:33,  1.86it/s] 98%|█████████▊| 46828/48008 [6:44:04<09:38,  2.04it/s] 98%|█████████▊| 46829/48008 [6:44:04<09:34,  2.05it/s] 98%|█████████▊| 46830/48008 [6:44:05<09:33,  2.06it/s] 98%|█████████▊| 46831/48008 [6:44:05<09:31,  2.06it/s] 98%|█████████▊| 46832/48008 [6:44:06<09:43,  2.01it/s] 98%|█████████▊| 46833/48008 [6:44:06<09:46,  2.00it/s] 98%|█████████▊| 46834/48008 [6:44:07<09:39,  2.02it/s] 98%|█████████▊| 46835/48008 [6:44:07<09:12,  2.12it/s] 98%|█████████▊| 46836/48008 [6:44:08<11:37,  1.68it/s] 98%|█████████▊| 46837/48008 [6:44:09<10:58,  1.78it/s] 98%|█████████▊| 46838/48008 [6:44:09<10:36,  1.84it/s] 98%|█████████▊| 46839/48008 [6:44:10<11:22,  1.71it/s] 98%|█████████▊| 46840/48008 [6:44:10<10:46,  1.81it/s] 98%|█████████▊| 46841/48008 [6:44:11<10:30,  1.85it/s] 98%|█████████▊| 46842/48008 [6:44:11<10:18,  1.89it/s] 98%|█████████▊| 46843/48008 [6:44:12<10:08,  1.92it/s] 98%|█████████▊| 46844/48008 [6:44:12<10:02,  1.93it/s] 98%|█████████▊| 46845/48008 [6:44:13<09:49,  1.97it/s] 98%|█████████▊| 46846/48008 [6:44:13<10:01,  1.93it/s] 98%|█████████▊| 46847/48008 [6:44:14<09:48,  1.97it/s] 98%|█████████▊| 46848/48008 [6:44:14<09:38,  2.00it/s] 98%|█████████▊| 46849/48008 [6:44:15<09:09,  2.11it/s] 98%|█████████▊| 46850/48008 [6:44:15<09:11,  2.10it/s]                                                       {'loss': 4.2147, 'grad_norm': 0.1000848263502121, 'learning_rate': 4.82836193967672e-06, 'epoch': 0.98} 98%|█████████▊| 46850/48008 [6:44:15<09:11,  2.10it/s]
 98%|█████████▊| 46851/48008 [6:44:16<09:13,  2.09it/s] 98%|█████████▊| 46852/48008 [6:44:16<09:13,  2.09it/s] 98%|█████████▊| 46853/48008 [6:44:17<09:23,  2.05it/s] 98%|█████████▊| 46854/48008 [6:44:17<08:59,  2.14it/s] 98%|█████████▊| 46855/48008 [6:44:18<08:42,  2.21it/s] 98%|█████████▊| 46856/48008 [6:44:18<09:00,  2.13it/s] 98%|█████████▊| 46857/48008 [6:44:19<08:41,  2.21it/s] 98%|█████████▊| 46858/48008 [6:44:19<08:51,  2.16it/s] 98%|█████████▊| 46859/48008 [6:44:19<08:36,  2.23it/s] 98%|█████████▊| 46860/48008 [6:44:20<08:24,  2.28it/s] 98%|█████████▊| 46861/48008 [6:44:20<08:48,  2.17it/s] 98%|█████████▊| 46862/48008 [6:44:21<09:09,  2.08it/s] 98%|█████████▊| 46863/48008 [6:44:21<08:47,  2.17it/s] 98%|█████████▊| 46864/48008 [6:44:22<08:53,  2.14it/s] 98%|█████████▊| 46865/48008 [6:44:22<09:05,  2.10it/s] 98%|█████████▊| 46866/48008 [6:44:23<08:44,  2.18it/s] 98%|█████████▊| 46867/48008 [6:44:23<08:51,  2.15it/s] 98%|█████████▊| 46868/48008 [6:44:24<08:33,  2.22it/s] 98%|█████████▊| 46869/48008 [6:44:24<08:44,  2.17it/s] 98%|█████████▊| 46870/48008 [6:44:25<08:50,  2.14it/s] 98%|█████████▊| 46871/48008 [6:44:25<08:55,  2.13it/s] 98%|█████████▊| 46872/48008 [6:44:26<08:58,  2.11it/s] 98%|█████████▊| 46873/48008 [6:44:26<09:20,  2.03it/s] 98%|█████████▊| 46874/48008 [6:44:27<09:28,  2.00it/s] 98%|█████████▊| 46875/48008 [6:44:27<09:20,  2.02it/s] 98%|█████████▊| 46876/48008 [6:44:28<09:22,  2.01it/s] 98%|█████████▊| 46877/48008 [6:44:28<09:17,  2.03it/s] 98%|█████████▊| 46878/48008 [6:44:29<10:17,  1.83it/s] 98%|█████████▊| 46879/48008 [6:44:29<09:33,  1.97it/s] 98%|█████████▊| 46880/48008 [6:44:30<09:31,  1.97it/s] 98%|█████████▊| 46881/48008 [6:44:30<09:23,  2.00it/s] 98%|█████████▊| 46882/48008 [6:44:31<09:17,  2.02it/s] 98%|█████████▊| 46883/48008 [6:44:31<09:21,  2.00it/s] 98%|█████████▊| 46884/48008 [6:44:32<09:14,  2.03it/s] 98%|█████████▊| 46885/48008 [6:44:32<09:16,  2.02it/s] 98%|█████████▊| 46886/48008 [6:44:33<09:18,  2.01it/s] 98%|█████████▊| 46887/48008 [6:44:33<09:12,  2.03it/s] 98%|█████████▊| 46888/48008 [6:44:34<09:21,  2.00it/s] 98%|█████████▊| 46889/48008 [6:44:34<09:13,  2.02it/s] 98%|█████████▊| 46890/48008 [6:44:35<09:27,  1.97it/s] 98%|█████████▊| 46891/48008 [6:44:35<09:17,  2.00it/s] 98%|█████████▊| 46892/48008 [6:44:36<09:10,  2.03it/s] 98%|█████████▊| 46893/48008 [6:44:36<09:06,  2.04it/s] 98%|█████████▊| 46894/48008 [6:44:37<09:04,  2.05it/s] 98%|█████████▊| 46895/48008 [6:44:37<09:02,  2.05it/s] 98%|█████████▊| 46896/48008 [6:44:38<08:59,  2.06it/s] 98%|█████████▊| 46897/48008 [6:44:38<08:58,  2.06it/s] 98%|█████████▊| 46898/48008 [6:44:39<09:09,  2.02it/s] 98%|█████████▊| 46899/48008 [6:44:39<09:05,  2.03it/s] 98%|█████████▊| 46900/48008 [6:44:40<09:02,  2.04it/s]                                                       {'loss': 4.2031, 'grad_norm': 0.10751207917928696, 'learning_rate': 4.620063322779537e-06, 'epoch': 0.98}
 98%|█████████▊| 46900/48008 [6:44:40<09:02,  2.04it/s] 98%|█████████▊| 46901/48008 [6:44:40<08:38,  2.13it/s] 98%|█████████▊| 46902/48008 [6:44:40<08:55,  2.06it/s] 98%|█████████▊| 46903/48008 [6:44:41<09:01,  2.04it/s] 98%|█████████▊| 46904/48008 [6:44:42<13:14,  1.39it/s] 98%|█████████▊| 46905/48008 [6:44:43<12:59,  1.41it/s] 98%|█████████▊| 46906/48008 [6:44:43<11:23,  1.61it/s] 98%|█████████▊| 46907/48008 [6:44:44<10:51,  1.69it/s] 98%|█████████▊| 46908/48008 [6:44:44<10:33,  1.74it/s] 98%|█████████▊| 46909/48008 [6:44:45<09:39,  1.90it/s] 98%|█████████▊| 46910/48008 [6:44:45<09:02,  2.03it/s] 98%|█████████▊| 46911/48008 [6:44:46<09:04,  2.01it/s] 98%|█████████▊| 46912/48008 [6:44:46<08:26,  2.17it/s] 98%|█████████▊| 46913/48008 [6:44:47<08:38,  2.11it/s] 98%|█████████▊| 46914/48008 [6:44:47<10:51,  1.68it/s] 98%|█████████▊| 46915/48008 [6:44:48<10:13,  1.78it/s] 98%|█████████▊| 46916/48008 [6:44:48<09:55,  1.83it/s] 98%|█████████▊| 46917/48008 [6:44:49<09:46,  1.86it/s] 98%|█████████▊| 46918/48008 [6:44:49<09:29,  1.91it/s] 98%|█████████▊| 46919/48008 [6:44:50<09:23,  1.93it/s] 98%|█████████▊| 46920/48008 [6:44:50<09:10,  1.98it/s] 98%|█████████▊| 46921/48008 [6:44:51<09:03,  2.00it/s] 98%|█████████▊| 46922/48008 [6:44:51<09:04,  2.00it/s] 98%|█████████▊| 46923/48008 [6:44:52<08:36,  2.10it/s] 98%|█████████▊| 46924/48008 [6:44:52<08:45,  2.06it/s] 98%|█████████▊| 46925/48008 [6:44:53<08:52,  2.03it/s] 98%|█████████▊| 46926/48008 [6:44:53<09:09,  1.97it/s] 98%|█████████▊| 46927/48008 [6:44:54<08:40,  2.08it/s] 98%|█████████▊| 46928/48008 [6:44:54<08:58,  2.00it/s] 98%|█████████▊| 46929/48008 [6:44:55<08:52,  2.03it/s] 98%|█████████▊| 46930/48008 [6:44:55<08:49,  2.04it/s] 98%|█████████▊| 46931/48008 [6:44:56<08:47,  2.04it/s] 98%|█████████▊| 46932/48008 [6:44:56<08:54,  2.01it/s] 98%|█████████▊| 46933/48008 [6:44:57<08:29,  2.11it/s] 98%|█████████▊| 46934/48008 [6:44:57<08:11,  2.19it/s] 98%|█████████▊| 46935/48008 [6:44:58<08:26,  2.12it/s] 98%|█████████▊| 46936/48008 [6:44:58<08:29,  2.10it/s] 98%|█████████▊| 46937/48008 [6:44:59<08:32,  2.09it/s] 98%|█████████▊| 46938/48008 [6:44:59<08:12,  2.17it/s] 98%|█████████▊| 46939/48008 [6:45:00<09:23,  1.90it/s] 98%|█████████▊| 46940/48008 [6:45:00<08:48,  2.02it/s] 98%|█████████▊| 46941/48008 [6:45:01<08:22,  2.13it/s] 98%|█████████▊| 46942/48008 [6:45:01<08:24,  2.11it/s] 98%|█████████▊| 46943/48008 [6:45:02<08:26,  2.10it/s] 98%|█████████▊| 46944/48008 [6:45:02<08:28,  2.09it/s] 98%|█████████▊| 46945/48008 [6:45:03<08:29,  2.09it/s] 98%|█████████▊| 46946/48008 [6:45:03<08:43,  2.03it/s] 98%|█████████▊| 46947/48008 [6:45:03<08:18,  2.13it/s] 98%|█████████▊| 46948/48008 [6:45:04<08:29,  2.08it/s] 98%|█████████▊| 46949/48008 [6:45:04<08:08,  2.17it/s] 98%|█████████▊| 46950/48008 [6:45:05<08:27,  2.09it/s]                                                       {'loss': 4.255, 'grad_norm': 0.10859736055135727, 'learning_rate': 4.411764705882353e-06, 'epoch': 0.98}
 98%|█████████▊| 46950/48008 [6:45:05<08:27,  2.09it/s] 98%|█████████▊| 46951/48008 [6:45:05<08:29,  2.08it/s] 98%|█████████▊| 46952/48008 [6:45:06<08:36,  2.04it/s] 98%|█████████▊| 46953/48008 [6:45:06<08:33,  2.05it/s] 98%|█████████▊| 46954/48008 [6:45:07<08:12,  2.14it/s] 98%|█████████▊| 46955/48008 [6:45:07<08:30,  2.06it/s] 98%|█████████▊| 46956/48008 [6:45:08<08:29,  2.07it/s] 98%|█████████▊| 46957/48008 [6:45:08<08:33,  2.04it/s] 98%|█████████▊| 46958/48008 [6:45:09<08:31,  2.05it/s] 98%|█████████▊| 46959/48008 [6:45:09<08:28,  2.06it/s] 98%|█████████▊| 46960/48008 [6:45:10<08:26,  2.07it/s] 98%|█████████▊| 46961/48008 [6:45:10<08:36,  2.03it/s] 98%|█████████▊| 46962/48008 [6:45:11<08:13,  2.12it/s] 98%|█████████▊| 46963/48008 [6:45:11<08:15,  2.11it/s] 98%|█████████▊| 46964/48008 [6:45:12<08:18,  2.09it/s] 98%|█████████▊| 46965/48008 [6:45:12<08:19,  2.09it/s] 98%|█████████▊| 46966/48008 [6:45:13<08:19,  2.09it/s] 98%|█████████▊| 46967/48008 [6:45:13<08:19,  2.08it/s] 98%|█████████▊| 46968/48008 [6:45:14<09:21,  1.85it/s] 98%|█████████▊| 46969/48008 [6:45:14<09:03,  1.91it/s] 98%|█████████▊| 46970/48008 [6:45:15<08:50,  1.96it/s] 98%|█████████▊| 46971/48008 [6:45:15<09:00,  1.92it/s] 98%|█████████▊| 46972/48008 [6:45:16<08:27,  2.04it/s] 98%|█████████▊| 46973/48008 [6:45:16<08:31,  2.02it/s] 98%|█████████▊| 46974/48008 [6:45:17<08:28,  2.03it/s] 98%|█████████▊| 46975/48008 [6:45:17<08:37,  2.00it/s] 98%|█████████▊| 46976/48008 [6:45:18<12:28,  1.38it/s] 98%|█████████▊| 46977/48008 [6:45:19<11:12,  1.53it/s] 98%|█████████▊| 46978/48008 [6:45:19<10:31,  1.63it/s] 98%|█████████▊| 46979/48008 [6:45:20<09:56,  1.72it/s] 98%|█████████▊| 46980/48008 [6:45:20<09:06,  1.88it/s] 98%|█████████▊| 46981/48008 [6:45:21<08:56,  1.91it/s] 98%|█████████▊| 46982/48008 [6:45:21<08:54,  1.92it/s] 98%|█████████▊| 46983/48008 [6:45:22<08:22,  2.04it/s] 98%|█████████▊| 46984/48008 [6:45:22<09:18,  1.83it/s] 98%|█████████▊| 46985/48008 [6:45:23<09:04,  1.88it/s] 98%|█████████▊| 46986/48008 [6:45:24<09:07,  1.87it/s] 98%|█████████▊| 46987/48008 [6:45:24<09:01,  1.88it/s] 98%|█████████▊| 46988/48008 [6:45:25<08:57,  1.90it/s] 98%|█████████▊| 46989/48008 [6:45:25<08:55,  1.90it/s] 98%|█████████▊| 46990/48008 [6:45:26<08:42,  1.95it/s] 98%|█████████▊| 46991/48008 [6:45:26<09:30,  1.78it/s] 98%|█████████▊| 46992/48008 [6:45:27<09:19,  1.82it/s] 98%|█████████▊| 46993/48008 [6:45:27<09:15,  1.83it/s] 98%|█████████▊| 46994/48008 [6:45:28<09:06,  1.86it/s] 98%|█████████▊| 46995/48008 [6:45:28<08:55,  1.89it/s] 98%|█████████▊| 46996/48008 [6:45:29<08:20,  2.02it/s] 98%|█████████▊| 46997/48008 [6:45:29<08:15,  2.04it/s] 98%|█████████▊| 46998/48008 [6:45:30<08:11,  2.05it/s] 98%|█████████▊| 46999/48008 [6:45:30<08:09,  2.06it/s] 98%|█████████▊| 47000/48008 [6:45:31<08:06,  2.07it/s]                                                       {'loss': 4.2516, 'grad_norm': 0.1037747710943222, 'learning_rate': 4.20346608898517e-06, 'epoch': 0.98} 98%|█████████▊| 47000/48008 [6:45:31<08:06,  2.07it/s]
 98%|█████████▊| 47001/48008 [6:45:31<08:12,  2.04it/s] 98%|█████████▊| 47002/48008 [6:45:32<08:22,  2.00it/s] 98%|█████████▊| 47003/48008 [6:45:32<08:17,  2.02it/s] 98%|█████████▊| 47004/48008 [6:45:33<07:53,  2.12it/s] 98%|█████████▊| 47005/48008 [6:45:33<08:03,  2.07it/s] 98%|█████████▊| 47006/48008 [6:45:34<08:03,  2.07it/s] 98%|█████████▊| 47007/48008 [6:45:34<08:02,  2.07it/s] 98%|█████████▊| 47008/48008 [6:45:35<08:02,  2.07it/s] 98%|█████████▊| 47009/48008 [6:45:35<08:15,  2.02it/s] 98%|█████████▊| 47010/48008 [6:45:36<08:17,  2.01it/s] 98%|█████████▊| 47011/48008 [6:45:36<07:51,  2.12it/s] 98%|█████████▊| 47012/48008 [6:45:37<07:59,  2.08it/s] 98%|█████████▊| 47013/48008 [6:45:37<07:58,  2.08it/s] 98%|█████████▊| 47014/48008 [6:45:37<07:38,  2.17it/s] 98%|█████████▊| 47015/48008 [6:45:38<07:53,  2.10it/s] 98%|█████████▊| 47016/48008 [6:45:39<08:51,  1.86it/s] 98%|█████████▊| 47017/48008 [6:45:39<08:42,  1.90it/s] 98%|█████████▊| 47018/48008 [6:45:40<09:25,  1.75it/s] 98%|█████████▊| 47019/48008 [6:45:40<09:14,  1.78it/s] 98%|█████████▊| 47020/48008 [6:45:41<09:01,  1.83it/s] 98%|█████████▊| 47021/48008 [6:45:41<08:42,  1.89it/s] 98%|█████████▊| 47022/48008 [6:45:42<08:27,  1.94it/s] 98%|█████████▊| 47023/48008 [6:45:42<08:27,  1.94it/s] 98%|█████████▊| 47024/48008 [6:45:43<08:17,  1.98it/s] 98%|█████████▊| 47025/48008 [6:45:43<08:10,  2.01it/s] 98%|█████████▊| 47026/48008 [6:45:44<08:21,  1.96it/s] 98%|█████████▊| 47027/48008 [6:45:44<08:12,  1.99it/s] 98%|█████████▊| 47028/48008 [6:45:45<08:05,  2.02it/s] 98%|█████████▊| 47029/48008 [6:45:45<08:01,  2.03it/s] 98%|█████████▊| 47030/48008 [6:45:46<07:38,  2.13it/s] 98%|█████████▊| 47031/48008 [6:45:46<07:40,  2.12it/s] 98%|█████████▊| 47032/48008 [6:45:47<07:42,  2.11it/s] 98%|█████████▊| 47033/48008 [6:45:47<07:44,  2.10it/s] 98%|█████████▊| 47034/48008 [6:45:48<07:59,  2.03it/s] 98%|█████████▊| 47035/48008 [6:45:49<11:41,  1.39it/s] 98%|█████████▊| 47036/48008 [6:45:49<10:30,  1.54it/s] 98%|█████████▊| 47037/48008 [6:45:50<09:12,  1.76it/s] 98%|█████████▊| 47038/48008 [6:45:50<08:46,  1.84it/s] 98%|█████████▊| 47039/48008 [6:45:51<08:34,  1.88it/s] 98%|█████████▊| 47040/48008 [6:45:51<08:19,  1.94it/s] 98%|█████████▊| 47041/48008 [6:45:52<11:54,  1.35it/s] 98%|█████████▊| 47042/48008 [6:45:53<10:39,  1.51it/s] 98%|█████████▊| 47043/48008 [6:45:53<09:27,  1.70it/s] 98%|█████████▊| 47044/48008 [6:45:54<08:55,  1.80it/s] 98%|█████████▊| 47045/48008 [6:45:54<08:34,  1.87it/s] 98%|█████████▊| 47046/48008 [6:45:55<07:59,  2.01it/s] 98%|█████████▊| 47047/48008 [6:45:55<08:06,  1.98it/s] 98%|█████████▊| 47048/48008 [6:45:56<07:58,  2.01it/s] 98%|█████████▊| 47049/48008 [6:45:56<07:35,  2.11it/s] 98%|█████████▊| 47050/48008 [6:45:57<07:36,  2.10it/s]                                                       {'loss': 4.2309, 'grad_norm': 0.10790559649467468, 'learning_rate': 3.995167472087986e-06, 'epoch': 0.98} 98%|█████████▊| 47050/48008 [6:45:57<07:36,  2.10it/s]
 98%|█████████▊| 47051/48008 [6:45:57<07:49,  2.04it/s] 98%|█████████▊| 47052/48008 [6:45:58<07:46,  2.05it/s] 98%|█████████▊| 47053/48008 [6:45:58<07:51,  2.03it/s] 98%|█████████▊| 47054/48008 [6:45:59<08:00,  1.99it/s] 98%|█████████▊| 47055/48008 [6:45:59<07:59,  1.99it/s] 98%|█████████▊| 47056/48008 [6:46:00<07:59,  1.99it/s] 98%|█████████▊| 47057/48008 [6:46:00<08:04,  1.96it/s] 98%|█████████▊| 47058/48008 [6:46:01<08:03,  1.97it/s] 98%|█████████▊| 47059/48008 [6:46:01<08:06,  1.95it/s] 98%|█████████▊| 47060/48008 [6:46:02<08:08,  1.94it/s] 98%|█████████▊| 47061/48008 [6:46:02<08:53,  1.77it/s] 98%|█████████▊| 47062/48008 [6:46:03<08:46,  1.80it/s] 98%|█████████▊| 47063/48008 [6:46:04<08:40,  1.81it/s] 98%|█████████▊| 47064/48008 [6:46:04<08:37,  1.82it/s] 98%|█████████▊| 47065/48008 [6:46:05<08:30,  1.85it/s] 98%|█████████▊| 47066/48008 [6:46:05<08:20,  1.88it/s] 98%|█████████▊| 47067/48008 [6:46:06<08:06,  1.94it/s] 98%|█████████▊| 47068/48008 [6:46:06<08:51,  1.77it/s] 98%|█████████▊| 47069/48008 [6:46:07<08:28,  1.85it/s] 98%|█████████▊| 47070/48008 [6:46:07<07:52,  1.99it/s] 98%|█████████▊| 47071/48008 [6:46:08<07:53,  1.98it/s] 98%|█████████▊| 47072/48008 [6:46:08<07:46,  2.01it/s] 98%|█████████▊| 47073/48008 [6:46:09<07:22,  2.11it/s] 98%|█████████▊| 47074/48008 [6:46:09<07:24,  2.10it/s] 98%|█████████▊| 47075/48008 [6:46:10<07:33,  2.06it/s] 98%|█████████▊| 47076/48008 [6:46:10<07:32,  2.06it/s] 98%|█████████▊| 47077/48008 [6:46:11<07:30,  2.07it/s] 98%|█████████▊| 47078/48008 [6:46:11<07:10,  2.16it/s] 98%|█████████▊| 47079/48008 [6:46:11<07:15,  2.13it/s] 98%|█████████▊| 47080/48008 [6:46:12<07:29,  2.06it/s] 98%|█████████▊| 47081/48008 [6:46:12<07:34,  2.04it/s] 98%|█████████▊| 47082/48008 [6:46:13<07:31,  2.05it/s] 98%|█████████▊| 47083/48008 [6:46:13<07:35,  2.03it/s] 98%|█████████▊| 47084/48008 [6:46:14<07:14,  2.13it/s] 98%|█████████▊| 47085/48008 [6:46:14<07:28,  2.06it/s] 98%|█████████▊| 47086/48008 [6:46:15<07:08,  2.15it/s] 98%|█████████▊| 47087/48008 [6:46:15<07:18,  2.10it/s] 98%|█████████▊| 47088/48008 [6:46:16<07:20,  2.09it/s] 98%|█████████▊| 47089/48008 [6:46:16<07:19,  2.09it/s] 98%|█████████▊| 47090/48008 [6:46:17<07:20,  2.08it/s] 98%|█████████▊| 47091/48008 [6:46:17<07:31,  2.03it/s] 98%|█████████▊| 47092/48008 [6:46:18<07:27,  2.05it/s] 98%|█████████▊| 47093/48008 [6:46:18<07:36,  2.00it/s] 98%|█████████▊| 47094/48008 [6:46:20<11:01,  1.38it/s] 98%|█████████▊| 47095/48008 [6:46:20<09:54,  1.54it/s] 98%|█████████▊| 47096/48008 [6:46:21<09:19,  1.63it/s] 98%|█████████▊| 47097/48008 [6:46:21<08:25,  1.80it/s] 98%|█████████▊| 47098/48008 [6:46:21<08:10,  1.85it/s] 98%|█████████▊| 47099/48008 [6:46:22<08:05,  1.87it/s] 98%|█████████▊| 47100/48008 [6:46:22<07:33,  2.00it/s]                                                       {'loss': 4.2514, 'grad_norm': 0.11906694620847702, 'learning_rate': 3.7868688551908017e-06, 'epoch': 0.98} 98%|█████████▊| 47100/48008 [6:46:22<07:33,  2.00it/s]
 98%|█████████▊| 47101/48008 [6:46:23<07:27,  2.03it/s] 98%|█████████▊| 47102/48008 [6:46:23<07:24,  2.04it/s] 98%|█████████▊| 47103/48008 [6:46:24<07:37,  1.98it/s] 98%|█████████▊| 47104/48008 [6:46:24<07:29,  2.01it/s] 98%|█████████▊| 47105/48008 [6:46:25<07:35,  1.98it/s] 98%|█████████▊| 47106/48008 [6:46:25<07:35,  1.98it/s] 98%|█████████▊| 47107/48008 [6:46:26<07:38,  1.96it/s] 98%|█████████▊| 47108/48008 [6:46:27<09:17,  1.61it/s] 98%|█████████▊| 47109/48008 [6:46:27<08:50,  1.69it/s] 98%|█████████▊| 47110/48008 [6:46:28<08:36,  1.74it/s] 98%|█████████▊| 47111/48008 [6:46:28<08:16,  1.81it/s] 98%|█████████▊| 47112/48008 [6:46:29<08:01,  1.86it/s] 98%|█████████▊| 47113/48008 [6:46:29<07:46,  1.92it/s] 98%|█████████▊| 47114/48008 [6:46:30<08:26,  1.76it/s] 98%|█████████▊| 47115/48008 [6:46:31<08:03,  1.85it/s] 98%|█████████▊| 47116/48008 [6:46:31<07:47,  1.91it/s] 98%|█████████▊| 47117/48008 [6:46:31<07:41,  1.93it/s] 98%|█████████▊| 47118/48008 [6:46:32<07:14,  2.05it/s] 98%|█████████▊| 47119/48008 [6:46:32<07:12,  2.05it/s] 98%|█████████▊| 47120/48008 [6:46:33<08:02,  1.84it/s] 98%|█████████▊| 47121/48008 [6:46:34<07:45,  1.90it/s] 98%|█████████▊| 47122/48008 [6:46:34<07:39,  1.93it/s] 98%|█████████▊| 47123/48008 [6:46:35<07:30,  1.97it/s] 98%|█████████▊| 47124/48008 [6:46:35<07:23,  1.99it/s] 98%|█████████▊| 47125/48008 [6:46:36<07:19,  2.01it/s] 98%|█████████▊| 47126/48008 [6:46:36<07:20,  2.00it/s] 98%|█████████▊| 47127/48008 [6:46:37<07:15,  2.02it/s] 98%|█████████▊| 47128/48008 [6:46:37<07:13,  2.03it/s] 98%|█████████▊| 47129/48008 [6:46:37<06:53,  2.13it/s] 98%|█████████▊| 47130/48008 [6:46:38<06:55,  2.11it/s] 98%|█████████▊| 47131/48008 [6:46:38<07:08,  2.05it/s] 98%|█████████▊| 47132/48008 [6:46:39<07:17,  2.00it/s] 98%|█████████▊| 47133/48008 [6:46:39<07:14,  2.01it/s] 98%|█████████▊| 47134/48008 [6:46:40<07:15,  2.01it/s] 98%|█████████▊| 47135/48008 [6:46:40<07:20,  1.98it/s] 98%|█████████▊| 47136/48008 [6:46:41<07:21,  1.98it/s] 98%|█████████▊| 47137/48008 [6:46:41<06:57,  2.09it/s] 98%|█████████▊| 47138/48008 [6:46:42<07:04,  2.05it/s] 98%|█████████▊| 47139/48008 [6:46:42<07:02,  2.06it/s] 98%|█████████▊| 47140/48008 [6:46:43<07:06,  2.04it/s] 98%|█████████▊| 47141/48008 [6:46:43<06:46,  2.14it/s] 98%|█████████▊| 47142/48008 [6:46:44<06:32,  2.21it/s] 98%|█████████▊| 47143/48008 [6:46:44<06:22,  2.26it/s] 98%|█████████▊| 47144/48008 [6:46:45<06:42,  2.15it/s] 98%|█████████▊| 47145/48008 [6:46:45<06:46,  2.12it/s] 98%|█████████▊| 47146/48008 [6:46:46<06:56,  2.07it/s] 98%|█████████▊| 47147/48008 [6:46:46<06:55,  2.07it/s] 98%|█████████▊| 47148/48008 [6:46:47<06:37,  2.16it/s] 98%|█████████▊| 47149/48008 [6:46:47<06:41,  2.14it/s] 98%|█████████▊| 47150/48008 [6:46:48<07:00,  2.04it/s]                                                       {'loss': 4.2605, 'grad_norm': 0.09978598356246948, 'learning_rate': 3.5785702382936182e-06, 'epoch': 0.98} 98%|█████████▊| 47150/48008 [6:46:48<07:00,  2.04it/s]
 98%|█████████▊| 47151/48008 [6:46:48<07:12,  1.98it/s] 98%|█████████▊| 47152/48008 [6:46:49<08:48,  1.62it/s] 98%|█████████▊| 47153/48008 [6:46:50<08:28,  1.68it/s] 98%|█████████▊| 47154/48008 [6:46:50<08:05,  1.76it/s] 98%|█████████▊| 47155/48008 [6:46:51<07:43,  1.84it/s] 98%|█████████▊| 47156/48008 [6:46:51<07:10,  1.98it/s] 98%|█████████▊| 47157/48008 [6:46:51<07:13,  1.97it/s] 98%|█████████▊| 47158/48008 [6:46:52<07:05,  2.00it/s] 98%|█████████▊| 47159/48008 [6:46:52<06:59,  2.02it/s] 98%|█████████▊| 47160/48008 [6:46:53<06:56,  2.04it/s] 98%|█████████▊| 47161/48008 [6:46:53<07:08,  1.98it/s] 98%|█████████▊| 47162/48008 [6:46:54<07:01,  2.01it/s] 98%|█████████▊| 47163/48008 [6:46:54<06:55,  2.03it/s] 98%|█████████▊| 47164/48008 [6:46:55<06:58,  2.02it/s] 98%|█████████▊| 47165/48008 [6:46:55<06:54,  2.03it/s] 98%|█████████▊| 47166/48008 [6:46:56<06:52,  2.04it/s] 98%|█████████▊| 47167/48008 [6:46:56<06:49,  2.06it/s] 98%|█████████▊| 47168/48008 [6:46:57<06:47,  2.06it/s] 98%|█████████▊| 47169/48008 [6:46:57<06:52,  2.03it/s] 98%|█████████▊| 47170/48008 [6:46:58<06:49,  2.04it/s] 98%|█████████▊| 47171/48008 [6:46:58<07:03,  1.98it/s] 98%|█████████▊| 47172/48008 [6:46:59<07:10,  1.94it/s] 98%|█████████▊| 47173/48008 [6:46:59<07:11,  1.94it/s] 98%|█████████▊| 47174/48008 [6:47:00<06:45,  2.06it/s] 98%|█████████▊| 47175/48008 [6:47:00<06:44,  2.06it/s] 98%|█████████▊| 47176/48008 [6:47:01<07:30,  1.85it/s] 98%|█████████▊| 47177/48008 [6:47:02<08:04,  1.72it/s] 98%|█████████▊| 47178/48008 [6:47:02<07:45,  1.78it/s] 98%|█████████▊| 47179/48008 [6:47:03<07:09,  1.93it/s] 98%|█████████▊| 47180/48008 [6:47:03<06:59,  1.97it/s] 98%|█████████▊| 47181/48008 [6:47:04<06:51,  2.01it/s] 98%|█████████▊| 47182/48008 [6:47:04<06:52,  2.00it/s] 98%|█████████▊| 47183/48008 [6:47:05<06:48,  2.02it/s] 98%|█████████▊| 47184/48008 [6:47:05<06:43,  2.04it/s] 98%|█████████▊| 47185/48008 [6:47:05<06:40,  2.05it/s] 98%|█████████▊| 47186/48008 [6:47:06<06:48,  2.01it/s] 98%|█████████▊| 47187/48008 [6:47:06<06:43,  2.03it/s] 98%|█████████▊| 47188/48008 [6:47:07<06:40,  2.05it/s] 98%|█████████▊| 47189/48008 [6:47:07<06:43,  2.03it/s] 98%|█████████▊| 47190/48008 [6:47:08<06:46,  2.01it/s] 98%|█████████▊| 47191/48008 [6:47:08<06:51,  1.98it/s] 98%|█████████▊| 47192/48008 [6:47:09<06:30,  2.09it/s] 98%|█████████▊| 47193/48008 [6:47:09<06:31,  2.08it/s] 98%|█████████▊| 47194/48008 [6:47:10<06:45,  2.01it/s] 98%|█████████▊| 47195/48008 [6:47:10<06:25,  2.11it/s] 98%|█████████▊| 47196/48008 [6:47:11<06:02,  2.24it/s] 98%|█████████▊| 47197/48008 [6:47:11<06:19,  2.14it/s] 98%|█████████▊| 47198/48008 [6:47:12<06:21,  2.12it/s] 98%|█████████▊| 47199/48008 [6:47:12<06:07,  2.20it/s] 98%|█████████▊| 47200/48008 [6:47:13<06:28,  2.08it/s]                                                       {'loss': 4.2827, 'grad_norm': 0.09474954009056091, 'learning_rate': 3.3702716213964343e-06, 'epoch': 0.98}
 98%|█████████▊| 47200/48008 [6:47:13<06:28,  2.08it/s] 98%|█████████▊| 47201/48008 [6:47:13<06:38,  2.03it/s] 98%|█████████▊| 47202/48008 [6:47:14<06:43,  2.00it/s] 98%|█████████▊| 47203/48008 [6:47:14<06:38,  2.02it/s] 98%|█████████▊| 47204/48008 [6:47:15<06:19,  2.12it/s] 98%|█████████▊| 47205/48008 [6:47:16<07:56,  1.68it/s] 98%|█████████▊| 47206/48008 [6:47:16<07:28,  1.79it/s] 98%|█████████▊| 47207/48008 [6:47:16<07:09,  1.86it/s] 98%|█████████▊| 47208/48008 [6:47:17<07:01,  1.90it/s] 98%|█████████▊| 47209/48008 [6:47:17<06:56,  1.92it/s] 98%|█████████▊| 47210/48008 [6:47:18<06:46,  1.96it/s] 98%|█████████▊| 47211/48008 [6:47:19<08:14,  1.61it/s] 98%|█████████▊| 47212/48008 [6:47:19<07:47,  1.70it/s] 98%|█████████▊| 47213/48008 [6:47:20<07:21,  1.80it/s] 98%|█████████▊| 47214/48008 [6:47:20<07:16,  1.82it/s] 98%|█████████▊| 47215/48008 [6:47:21<07:05,  1.86it/s] 98%|█████████▊| 47216/48008 [6:47:21<06:51,  1.92it/s] 98%|█████████▊| 47217/48008 [6:47:22<06:48,  1.94it/s] 98%|█████████▊| 47218/48008 [6:47:22<06:38,  1.98it/s] 98%|█████████▊| 47219/48008 [6:47:23<06:32,  2.01it/s] 98%|█████████▊| 47220/48008 [6:47:23<06:27,  2.03it/s] 98%|█████████▊| 47221/48008 [6:47:24<07:59,  1.64it/s] 98%|█████████▊| 47222/48008 [6:47:25<07:13,  1.81it/s] 98%|█████████▊| 47223/48008 [6:47:25<07:02,  1.86it/s] 98%|█████████▊| 47224/48008 [6:47:26<06:48,  1.92it/s] 98%|█████████▊| 47225/48008 [6:47:26<06:22,  2.05it/s] 98%|█████████▊| 47226/48008 [6:47:26<06:05,  2.14it/s] 98%|█████████▊| 47227/48008 [6:47:27<06:08,  2.12it/s] 98%|█████████▊| 47228/48008 [6:47:27<06:15,  2.08it/s] 98%|█████████▊| 47229/48008 [6:47:28<06:00,  2.16it/s] 98%|█████████▊| 47230/48008 [6:47:28<06:12,  2.09it/s] 98%|█████████▊| 47231/48008 [6:47:29<06:17,  2.06it/s] 98%|█████████▊| 47232/48008 [6:47:29<06:00,  2.15it/s] 98%|█████████▊| 47233/48008 [6:47:30<05:49,  2.22it/s] 98%|█████████▊| 47234/48008 [6:47:30<05:40,  2.28it/s] 98%|█████████▊| 47235/48008 [6:47:31<05:49,  2.21it/s] 98%|█████████▊| 47236/48008 [6:47:31<06:09,  2.09it/s] 98%|█████████▊| 47237/48008 [6:47:32<06:18,  2.04it/s] 98%|█████████▊| 47238/48008 [6:47:32<06:21,  2.02it/s] 98%|█████████▊| 47239/48008 [6:47:33<09:16,  1.38it/s] 98%|█████████▊| 47240/48008 [6:47:34<08:24,  1.52it/s] 98%|█████████▊| 47241/48008 [6:47:34<07:48,  1.64it/s] 98%|█████████▊| 47242/48008 [6:47:35<07:23,  1.73it/s] 98%|█████████▊| 47243/48008 [6:47:35<07:01,  1.82it/s] 98%|█████████▊| 47244/48008 [6:47:36<06:44,  1.89it/s] 98%|█████████▊| 47245/48008 [6:47:36<06:32,  1.94it/s] 98%|█████████▊| 47246/48008 [6:47:37<07:09,  1.78it/s] 98%|█████████▊| 47247/48008 [6:47:37<06:35,  1.92it/s] 98%|█████████▊| 47248/48008 [6:47:38<06:27,  1.96it/s] 98%|█████████▊| 47249/48008 [6:47:38<06:20,  2.00it/s] 98%|█████████▊| 47250/48008 [6:47:39<06:23,  1.98it/s]                                                       {'loss': 4.2456, 'grad_norm': 0.1020808070898056, 'learning_rate': 3.1619730044992504e-06, 'epoch': 0.98}
 98%|█████████▊| 47250/48008 [6:47:39<06:23,  1.98it/s] 98%|█████████▊| 47251/48008 [6:47:39<06:17,  2.00it/s] 98%|█████████▊| 47252/48008 [6:47:40<06:12,  2.03it/s] 98%|█████████▊| 47253/48008 [6:47:40<06:09,  2.04it/s] 98%|█████████▊| 47254/48008 [6:47:41<06:12,  2.02it/s] 98%|█████████▊| 47255/48008 [6:47:41<06:09,  2.04it/s] 98%|█████████▊| 47256/48008 [6:47:42<06:06,  2.05it/s] 98%|█████████▊| 47257/48008 [6:47:42<06:04,  2.06it/s] 98%|█████████▊| 47258/48008 [6:47:43<06:07,  2.04it/s] 98%|█████████▊| 47259/48008 [6:47:43<06:14,  2.00it/s] 98%|█████████▊| 47260/48008 [6:47:44<06:22,  1.96it/s] 98%|█████████▊| 47261/48008 [6:47:44<05:59,  2.08it/s] 98%|█████████▊| 47262/48008 [6:47:45<06:04,  2.05it/s] 98%|█████████▊| 47263/48008 [6:47:46<07:31,  1.65it/s] 98%|█████████▊| 47264/48008 [6:47:46<07:07,  1.74it/s] 98%|█████████▊| 47265/48008 [6:47:47<06:46,  1.83it/s] 98%|█████████▊| 47266/48008 [6:47:47<06:30,  1.90it/s] 98%|█████████▊| 47267/48008 [6:47:48<06:25,  1.92it/s] 98%|█████████▊| 47268/48008 [6:47:48<06:22,  1.94it/s] 98%|█████████▊| 47269/48008 [6:47:49<06:13,  1.98it/s] 98%|█████████▊| 47270/48008 [6:47:49<06:16,  1.96it/s] 98%|█████████▊| 47271/48008 [6:47:50<05:54,  2.08it/s] 98%|█████████▊| 47272/48008 [6:47:50<05:54,  2.08it/s] 98%|█████████▊| 47273/48008 [6:47:50<05:38,  2.17it/s] 98%|█████████▊| 47274/48008 [6:47:51<05:42,  2.14it/s] 98%|█████████▊| 47275/48008 [6:47:51<05:45,  2.12it/s] 98%|█████████▊| 47276/48008 [6:47:53<08:58,  1.36it/s] 98%|█████████▊| 47277/48008 [6:47:53<08:02,  1.52it/s] 98%|█████████▊| 47278/48008 [6:47:54<07:23,  1.65it/s] 98%|█████████▊| 47279/48008 [6:47:54<06:55,  1.76it/s] 98%|█████████▊| 47280/48008 [6:47:55<06:35,  1.84it/s] 98%|█████████▊| 47281/48008 [6:47:55<06:21,  1.90it/s] 98%|█████████▊| 47282/48008 [6:47:57<09:31,  1.27it/s] 98%|█████████▊| 47283/48008 [6:47:57<08:24,  1.44it/s] 98%|█████████▊| 47284/48008 [6:47:58<07:37,  1.58it/s] 98%|█████████▊| 47285/48008 [6:47:58<07:09,  1.68it/s] 98%|█████████▊| 47286/48008 [6:47:59<06:44,  1.78it/s] 98%|█████████▊| 47287/48008 [6:47:59<06:27,  1.86it/s] 99%|█████████▊| 47288/48008 [6:48:00<08:19,  1.44it/s] 99%|█████████▊| 47289/48008 [6:48:01<07:32,  1.59it/s] 99%|█████████▊| 47290/48008 [6:48:01<07:05,  1.69it/s] 99%|█████████▊| 47291/48008 [6:48:02<06:40,  1.79it/s] 99%|█████████▊| 47292/48008 [6:48:02<06:32,  1.83it/s] 99%|█████████▊| 47293/48008 [6:48:03<06:22,  1.87it/s] 99%|█████████▊| 47294/48008 [6:48:03<06:10,  1.93it/s] 99%|█████████▊| 47295/48008 [6:48:03<05:40,  2.09it/s] 99%|█████████▊| 47296/48008 [6:48:05<08:25,  1.41it/s] 99%|█████████▊| 47297/48008 [6:48:05<07:22,  1.61it/s] 99%|█████████▊| 47298/48008 [6:48:06<06:56,  1.70it/s] 99%|█████████▊| 47299/48008 [6:48:06<06:19,  1.87it/s] 99%|█████████▊| 47300/48008 [6:48:07<06:15,  1.89it/s]                                                        99%|█████████▊| 47300/48008 [6:48:07<06:15,  1.89it/s]{'loss': 4.1979, 'grad_norm': 0.10525966435670853, 'learning_rate': 2.9536743876020665e-06, 'epoch': 0.99}
 99%|█████████▊| 47301/48008 [6:48:07<06:17,  1.87it/s] 99%|█████████▊| 47302/48008 [6:48:08<06:06,  1.93it/s] 99%|█████████▊| 47303/48008 [6:48:08<05:57,  1.97it/s] 99%|█████████▊| 47304/48008 [6:48:09<05:51,  2.00it/s] 99%|█████████▊| 47305/48008 [6:48:09<05:52,  2.00it/s] 99%|█████████▊| 47306/48008 [6:48:10<07:48,  1.50it/s] 99%|█████████▊| 47307/48008 [6:48:11<07:08,  1.64it/s] 99%|█████████▊| 47308/48008 [6:48:11<06:26,  1.81it/s] 99%|█████████▊| 47309/48008 [6:48:11<06:11,  1.88it/s] 99%|█████████▊| 47310/48008 [6:48:12<06:08,  1.89it/s] 99%|█████████▊| 47311/48008 [6:48:13<06:02,  1.92it/s] 99%|█████████▊| 47312/48008 [6:48:13<05:58,  1.94it/s] 99%|█████████▊| 47313/48008 [6:48:13<05:51,  1.98it/s] 99%|█████████▊| 47314/48008 [6:48:14<05:45,  2.01it/s] 99%|█████████▊| 47315/48008 [6:48:14<05:41,  2.03it/s] 99%|█████████▊| 47316/48008 [6:48:15<05:44,  2.01it/s] 99%|█████████▊| 47317/48008 [6:48:15<05:40,  2.03it/s] 99%|█████████▊| 47318/48008 [6:48:16<05:45,  2.00it/s] 99%|█████████▊| 47319/48008 [6:48:16<05:46,  1.99it/s] 99%|█████████▊| 47320/48008 [6:48:17<05:41,  2.01it/s] 99%|█████████▊| 47321/48008 [6:48:17<05:38,  2.03it/s] 99%|█████████▊| 47322/48008 [6:48:18<05:36,  2.04it/s] 99%|█████████▊| 47323/48008 [6:48:18<05:34,  2.05it/s] 99%|█████████▊| 47324/48008 [6:48:19<05:32,  2.06it/s] 99%|█████████▊| 47325/48008 [6:48:19<05:39,  2.01it/s] 99%|█████████▊| 47326/48008 [6:48:20<05:36,  2.03it/s] 99%|█████████▊| 47327/48008 [6:48:20<05:19,  2.13it/s] 99%|█████████▊| 47328/48008 [6:48:21<05:29,  2.06it/s] 99%|█████████▊| 47329/48008 [6:48:21<05:34,  2.03it/s] 99%|█████████▊| 47330/48008 [6:48:22<05:36,  2.02it/s] 99%|█████████▊| 47331/48008 [6:48:22<05:33,  2.03it/s] 99%|█████████▊| 47332/48008 [6:48:23<05:17,  2.13it/s] 99%|█████████▊| 47333/48008 [6:48:23<05:05,  2.21it/s] 99%|█████████▊| 47334/48008 [6:48:24<07:46,  1.44it/s] 99%|█████████▊| 47335/48008 [6:48:25<06:50,  1.64it/s] 99%|█████████▊| 47336/48008 [6:48:25<06:31,  1.72it/s] 99%|█████████▊| 47337/48008 [6:48:26<06:14,  1.79it/s] 99%|█████████▊| 47338/48008 [6:48:26<06:03,  1.84it/s] 99%|█████████▊| 47339/48008 [6:48:27<05:30,  2.03it/s] 99%|█████████▊| 47340/48008 [6:48:27<05:26,  2.04it/s] 99%|█████████▊| 47341/48008 [6:48:28<05:29,  2.03it/s] 99%|█████████▊| 47342/48008 [6:48:28<05:30,  2.01it/s] 99%|█████████▊| 47343/48008 [6:48:29<05:14,  2.12it/s] 99%|█████████▊| 47344/48008 [6:48:29<05:19,  2.08it/s] 99%|█████████▊| 47345/48008 [6:48:30<05:20,  2.07it/s] 99%|█████████▊| 47346/48008 [6:48:30<05:30,  2.00it/s] 99%|█████████▊| 47347/48008 [6:48:31<05:26,  2.02it/s] 99%|█████████▊| 47348/48008 [6:48:31<05:35,  1.97it/s] 99%|█████████▊| 47349/48008 [6:48:32<06:08,  1.79it/s] 99%|█████████▊| 47350/48008 [6:48:32<05:39,  1.94it/s]                                                       {'loss': 4.2219, 'grad_norm': 0.10951287299394608, 'learning_rate': 2.7453757707048826e-06, 'epoch': 0.99}
 99%|█████████▊| 47350/48008 [6:48:32<05:39,  1.94it/s] 99%|█████████▊| 47351/48008 [6:48:33<05:39,  1.94it/s] 99%|█████████▊| 47352/48008 [6:48:33<06:10,  1.77it/s] 99%|█████████▊| 47353/48008 [6:48:34<05:53,  1.85it/s] 99%|█████████▊| 47354/48008 [6:48:35<08:12,  1.33it/s] 99%|█████████▊| 47355/48008 [6:48:36<08:36,  1.26it/s] 99%|█████████▊| 47356/48008 [6:48:37<07:35,  1.43it/s] 99%|█████████▊| 47357/48008 [6:48:37<06:52,  1.58it/s] 99%|█████████▊| 47358/48008 [6:48:38<06:31,  1.66it/s] 99%|█████████▊| 47359/48008 [6:48:38<06:06,  1.77it/s] 99%|█████████▊| 47360/48008 [6:48:38<05:37,  1.92it/s] 99%|█████████▊| 47361/48008 [6:48:39<05:33,  1.94it/s] 99%|█████████▊| 47362/48008 [6:48:39<05:26,  1.98it/s] 99%|█████████▊| 47363/48008 [6:48:40<05:21,  2.01it/s] 99%|█████████▊| 47364/48008 [6:48:40<05:22,  2.00it/s] 99%|█████████▊| 47365/48008 [6:48:41<05:27,  1.97it/s] 99%|█████████▊| 47366/48008 [6:48:41<05:21,  2.00it/s] 99%|█████████▊| 47367/48008 [6:48:42<05:16,  2.02it/s] 99%|█████████▊| 47368/48008 [6:48:42<05:01,  2.12it/s] 99%|█████████▊| 47369/48008 [6:48:43<05:08,  2.07it/s] 99%|█████████▊| 47370/48008 [6:48:44<06:23,  1.66it/s] 99%|█████████▊| 47371/48008 [6:48:45<07:17,  1.46it/s] 99%|█████████▊| 47372/48008 [6:48:46<09:03,  1.17it/s] 99%|█████████▊| 47373/48008 [6:48:46<07:52,  1.34it/s] 99%|█████████▊| 47374/48008 [6:48:47<07:06,  1.49it/s] 99%|█████████▊| 47375/48008 [6:48:48<07:43,  1.36it/s] 99%|█████████▊| 47376/48008 [6:48:48<06:55,  1.52it/s] 99%|█████████▊| 47377/48008 [6:48:49<06:25,  1.64it/s] 99%|█████████▊| 47378/48008 [6:48:49<06:07,  1.71it/s] 99%|█████████▊| 47379/48008 [6:48:50<05:52,  1.79it/s] 99%|█████████▊| 47380/48008 [6:48:50<05:23,  1.94it/s] 99%|█████████▊| 47381/48008 [6:48:51<05:04,  2.06it/s] 99%|█████████▊| 47382/48008 [6:48:51<05:03,  2.06it/s] 99%|█████████▊| 47383/48008 [6:48:52<05:01,  2.07it/s] 99%|█████████▊| 47384/48008 [6:48:52<05:00,  2.07it/s] 99%|█████████▊| 47385/48008 [6:48:52<05:00,  2.08it/s] 99%|█████████▊| 47386/48008 [6:48:53<04:59,  2.08it/s] 99%|█████████▊| 47387/48008 [6:48:53<05:03,  2.05it/s] 99%|█████████▊| 47388/48008 [6:48:54<05:01,  2.06it/s] 99%|█████████▊| 47389/48008 [6:48:54<04:59,  2.06it/s] 99%|█████████▊| 47390/48008 [6:48:55<04:46,  2.16it/s] 99%|█████████▊| 47391/48008 [6:48:55<04:49,  2.13it/s] 99%|█████████▊| 47392/48008 [6:48:56<04:58,  2.07it/s] 99%|█████████▊| 47393/48008 [6:48:56<05:04,  2.02it/s] 99%|█████████▊| 47394/48008 [6:48:57<05:06,  2.00it/s] 99%|█████████▊| 47395/48008 [6:48:58<07:25,  1.38it/s] 99%|█████████▊| 47396/48008 [6:48:59<06:39,  1.53it/s] 99%|█████████▊| 47397/48008 [6:48:59<06:10,  1.65it/s] 99%|█████████▊| 47398/48008 [6:49:00<05:47,  1.75it/s] 99%|█████████▊| 47399/48008 [6:49:00<05:35,  1.81it/s] 99%|█████████▊| 47400/48008 [6:49:01<05:25,  1.87it/s]                                                       {'loss': 4.2435, 'grad_norm': 0.1057192012667656, 'learning_rate': 2.5370771538076987e-06, 'epoch': 0.99} 99%|█████████▊| 47400/48008 [6:49:01<05:25,  1.87it/s]
 99%|█████████▊| 47401/48008 [6:49:01<05:15,  1.93it/s] 99%|█████████▊| 47402/48008 [6:49:02<04:56,  2.04it/s] 99%|█████████▊| 47403/48008 [6:49:02<04:54,  2.05it/s] 99%|█████████▊| 47404/48008 [6:49:02<04:52,  2.06it/s] 99%|█████████▊| 47405/48008 [6:49:03<04:51,  2.07it/s] 99%|█████████▊| 47406/48008 [6:49:03<05:01,  2.00it/s] 99%|█████████▊| 47407/48008 [6:49:04<04:58,  2.02it/s] 99%|█████████▉| 47408/48008 [6:49:04<05:00,  2.00it/s] 99%|█████████▉| 47409/48008 [6:49:05<04:44,  2.11it/s] 99%|█████████▉| 47410/48008 [6:49:05<04:33,  2.18it/s] 99%|█████████▉| 47411/48008 [6:49:06<04:25,  2.24it/s] 99%|█████████▉| 47412/48008 [6:49:06<04:20,  2.29it/s] 99%|█████████▉| 47413/48008 [6:49:07<04:32,  2.19it/s] 99%|█████████▉| 47414/48008 [6:49:07<04:35,  2.15it/s] 99%|█████████▉| 47415/48008 [6:49:08<04:38,  2.13it/s] 99%|█████████▉| 47416/48008 [6:49:08<04:28,  2.20it/s] 99%|█████████▉| 47417/48008 [6:49:09<04:37,  2.13it/s] 99%|█████████▉| 47418/48008 [6:49:09<04:40,  2.11it/s] 99%|█████████▉| 47419/48008 [6:49:10<04:41,  2.09it/s] 99%|█████████▉| 47420/48008 [6:49:10<04:30,  2.18it/s] 99%|█████████▉| 47421/48008 [6:49:10<04:33,  2.15it/s] 99%|█████████▉| 47422/48008 [6:49:11<04:36,  2.12it/s] 99%|█████████▉| 47423/48008 [6:49:11<04:25,  2.20it/s] 99%|█████████▉| 47424/48008 [6:49:12<04:30,  2.16it/s] 99%|█████████▉| 47425/48008 [6:49:12<04:33,  2.13it/s] 99%|█████████▉| 47426/48008 [6:49:13<04:39,  2.09it/s] 99%|█████████▉| 47427/48008 [6:49:13<04:38,  2.08it/s] 99%|█████████▉| 47428/48008 [6:49:14<04:39,  2.08it/s] 99%|█████████▉| 47429/48008 [6:49:14<04:39,  2.07it/s] 99%|█████████▉| 47430/48008 [6:49:15<04:38,  2.07it/s] 99%|█████████▉| 47431/48008 [6:49:15<04:42,  2.04it/s] 99%|█████████▉| 47432/48008 [6:49:16<04:50,  1.98it/s] 99%|█████████▉| 47433/48008 [6:49:16<04:46,  2.01it/s] 99%|█████████▉| 47434/48008 [6:49:17<04:31,  2.11it/s] 99%|█████████▉| 47435/48008 [6:49:17<04:32,  2.10it/s] 99%|█████████▉| 47436/48008 [6:49:18<04:33,  2.09it/s] 99%|█████████▉| 47437/48008 [6:49:18<05:06,  1.86it/s] 99%|█████████▉| 47438/48008 [6:49:19<05:07,  1.86it/s] 99%|█████████▉| 47439/48008 [6:49:19<04:56,  1.92it/s] 99%|█████████▉| 47440/48008 [6:49:20<04:52,  1.94it/s] 99%|█████████▉| 47441/48008 [6:49:20<04:51,  1.95it/s] 99%|█████████▉| 47442/48008 [6:49:21<04:44,  1.99it/s] 99%|█████████▉| 47443/48008 [6:49:21<04:40,  2.01it/s] 99%|█████████▉| 47444/48008 [6:49:22<04:43,  1.99it/s] 99%|█████████▉| 47445/48008 [6:49:22<04:44,  1.98it/s] 99%|█████████▉| 47446/48008 [6:49:23<04:29,  2.09it/s] 99%|█████████▉| 47447/48008 [6:49:23<04:32,  2.06it/s] 99%|█████████▉| 47448/48008 [6:49:24<04:31,  2.06it/s] 99%|█████████▉| 47449/48008 [6:49:24<04:39,  2.00it/s] 99%|█████████▉| 47450/48008 [6:49:25<04:36,  2.02it/s]                                                        99%|█████████▉| 47450/48008 [6:49:25<04:36,  2.02it/s]{'loss': 4.1942, 'grad_norm': 0.10754232853651047, 'learning_rate': 2.328778536910515e-06, 'epoch': 0.99}
 99%|█████████▉| 47451/48008 [6:49:25<04:33,  2.04it/s] 99%|█████████▉| 47452/48008 [6:49:26<04:20,  2.13it/s] 99%|█████████▉| 47453/48008 [6:49:26<04:11,  2.21it/s] 99%|█████████▉| 47454/48008 [6:49:26<04:04,  2.26it/s] 99%|█████████▉| 47455/48008 [6:49:27<04:11,  2.20it/s] 99%|█████████▉| 47456/48008 [6:49:27<04:15,  2.16it/s] 99%|█████████▉| 47457/48008 [6:49:28<04:27,  2.06it/s] 99%|█████████▉| 47458/48008 [6:49:28<04:15,  2.15it/s] 99%|█████████▉| 47459/48008 [6:49:29<04:18,  2.12it/s] 99%|█████████▉| 47460/48008 [6:49:29<04:09,  2.20it/s] 99%|█████████▉| 47461/48008 [6:49:30<04:12,  2.17it/s] 99%|█████████▉| 47462/48008 [6:49:30<04:04,  2.23it/s] 99%|█████████▉| 47463/48008 [6:49:31<04:13,  2.15it/s] 99%|█████████▉| 47464/48008 [6:49:31<04:47,  1.89it/s] 99%|█████████▉| 47465/48008 [6:49:32<04:39,  1.94it/s] 99%|█████████▉| 47466/48008 [6:49:32<04:34,  1.98it/s] 99%|█████████▉| 47467/48008 [6:49:33<04:33,  1.98it/s] 99%|█████████▉| 47468/48008 [6:49:33<04:29,  2.00it/s] 99%|█████████▉| 47469/48008 [6:49:34<04:26,  2.02it/s] 99%|█████████▉| 47470/48008 [6:49:34<04:24,  2.04it/s] 99%|█████████▉| 47471/48008 [6:49:35<04:22,  2.05it/s] 99%|█████████▉| 47472/48008 [6:49:35<04:20,  2.06it/s] 99%|█████████▉| 47473/48008 [6:49:36<04:18,  2.07it/s] 99%|█████████▉| 47474/48008 [6:49:36<04:20,  2.05it/s] 99%|█████████▉| 47475/48008 [6:49:37<04:25,  2.01it/s] 99%|█████████▉| 47476/48008 [6:49:37<04:52,  1.82it/s] 99%|█████████▉| 47477/48008 [6:49:38<04:40,  1.89it/s] 99%|█████████▉| 47478/48008 [6:49:38<04:39,  1.90it/s] 99%|█████████▉| 47479/48008 [6:49:39<04:21,  2.02it/s] 99%|█████████▉| 47480/48008 [6:49:39<04:08,  2.12it/s] 99%|█████████▉| 47481/48008 [6:49:40<04:16,  2.05it/s] 99%|█████████▉| 47482/48008 [6:49:40<04:15,  2.06it/s] 99%|█████████▉| 47483/48008 [6:49:41<04:14,  2.07it/s] 99%|█████████▉| 47484/48008 [6:49:41<04:02,  2.16it/s] 99%|█████████▉| 47485/48008 [6:49:42<04:08,  2.10it/s] 99%|█████████▉| 47486/48008 [6:49:42<04:12,  2.07it/s] 99%|█████████▉| 47487/48008 [6:49:43<04:00,  2.16it/s] 99%|█████████▉| 47488/48008 [6:49:43<04:12,  2.06it/s] 99%|█████████▉| 47489/48008 [6:49:44<04:10,  2.07it/s] 99%|█████████▉| 47490/48008 [6:49:44<03:59,  2.16it/s] 99%|█████████▉| 47491/48008 [6:49:45<04:01,  2.14it/s] 99%|█████████▉| 47492/48008 [6:49:45<04:03,  2.12it/s] 99%|█████████▉| 47493/48008 [6:49:45<04:04,  2.10it/s] 99%|█████████▉| 47494/48008 [6:49:46<03:55,  2.18it/s] 99%|█████████▉| 47495/48008 [6:49:46<04:02,  2.12it/s] 99%|█████████▉| 47496/48008 [6:49:47<04:09,  2.05it/s] 99%|█████████▉| 47497/48008 [6:49:47<04:12,  2.02it/s] 99%|█████████▉| 47498/48008 [6:49:48<04:00,  2.12it/s] 99%|█████████▉| 47499/48008 [6:49:48<04:01,  2.11it/s] 99%|█████████▉| 47500/48008 [6:49:49<03:52,  2.19it/s]                                                       {'loss': 4.1936, 'grad_norm': 0.10704750567674637, 'learning_rate': 2.1204799200133313e-06, 'epoch': 0.99} 99%|█████████▉| 47500/48008 [6:49:49<03:52,  2.19it/s]
 99%|█████████▉| 47501/48008 [6:49:49<04:01,  2.10it/s] 99%|█████████▉| 47502/48008 [6:49:50<03:51,  2.18it/s] 99%|█████████▉| 47503/48008 [6:49:50<04:04,  2.06it/s] 99%|█████████▉| 47504/48008 [6:49:51<04:03,  2.07it/s] 99%|█████████▉| 47505/48008 [6:49:51<04:06,  2.04it/s] 99%|█████████▉| 47506/48008 [6:49:52<04:10,  2.00it/s] 99%|█████████▉| 47507/48008 [6:49:52<04:13,  1.98it/s] 99%|█████████▉| 47508/48008 [6:49:53<04:09,  2.01it/s] 99%|█████████▉| 47509/48008 [6:49:53<04:12,  1.98it/s] 99%|█████████▉| 47510/48008 [6:49:54<03:59,  2.08it/s] 99%|█████████▉| 47511/48008 [6:49:54<04:04,  2.03it/s] 99%|█████████▉| 47512/48008 [6:49:55<04:02,  2.05it/s] 99%|█████████▉| 47513/48008 [6:49:55<04:07,  2.00it/s] 99%|█████████▉| 47514/48008 [6:49:56<04:03,  2.03it/s] 99%|█████████▉| 47515/48008 [6:49:56<04:06,  2.00it/s] 99%|█████████▉| 47516/48008 [6:49:57<04:11,  1.95it/s] 99%|█████████▉| 47517/48008 [6:49:57<03:52,  2.12it/s] 99%|█████████▉| 47518/48008 [6:49:58<03:53,  2.10it/s] 99%|█████████▉| 47519/48008 [6:49:58<03:54,  2.08it/s] 99%|█████████▉| 47520/48008 [6:49:59<03:57,  2.05it/s] 99%|█████████▉| 47521/48008 [6:49:59<03:56,  2.06it/s] 99%|█████████▉| 47522/48008 [6:50:00<03:55,  2.06it/s] 99%|█████████▉| 47523/48008 [6:50:00<03:58,  2.03it/s] 99%|█████████▉| 47524/48008 [6:50:01<03:56,  2.05it/s] 99%|█████████▉| 47525/48008 [6:50:01<03:46,  2.13it/s] 99%|█████████▉| 47526/48008 [6:50:01<03:51,  2.09it/s] 99%|█████████▉| 47527/48008 [6:50:02<03:56,  2.03it/s] 99%|█████████▉| 47528/48008 [6:50:02<03:57,  2.02it/s] 99%|█████████▉| 47529/48008 [6:50:03<03:58,  2.01it/s] 99%|█████████▉| 47530/48008 [6:50:03<03:55,  2.03it/s] 99%|█████████▉| 47531/48008 [6:50:04<03:53,  2.04it/s] 99%|█████████▉| 47532/48008 [6:50:04<03:55,  2.02it/s] 99%|█████████▉| 47533/48008 [6:50:05<03:57,  2.00it/s] 99%|█████████▉| 47534/48008 [6:50:05<03:54,  2.02it/s] 99%|█████████▉| 47535/48008 [6:50:06<03:53,  2.03it/s] 99%|█████████▉| 47536/48008 [6:50:06<03:58,  1.98it/s] 99%|█████████▉| 47537/48008 [6:50:07<03:58,  1.97it/s] 99%|█████████▉| 47538/48008 [6:50:08<04:02,  1.94it/s] 99%|█████████▉| 47539/48008 [6:50:08<03:57,  1.98it/s] 99%|█████████▉| 47540/48008 [6:50:08<03:44,  2.08it/s] 99%|█████████▉| 47541/48008 [6:50:09<04:11,  1.85it/s] 99%|█████████▉| 47542/48008 [6:50:10<03:54,  1.99it/s] 99%|█████████▉| 47543/48008 [6:50:10<04:18,  1.80it/s] 99%|█████████▉| 47544/48008 [6:50:11<03:58,  1.95it/s] 99%|█████████▉| 47545/48008 [6:50:11<03:53,  1.98it/s] 99%|█████████▉| 47546/48008 [6:50:12<03:52,  1.99it/s] 99%|█████████▉| 47547/48008 [6:50:12<03:54,  1.97it/s] 99%|█████████▉| 47548/48008 [6:50:13<03:50,  2.00it/s] 99%|█████████▉| 47549/48008 [6:50:13<04:15,  1.80it/s] 99%|█████████▉| 47550/48008 [6:50:14<03:55,  1.95it/s]                                                       {'loss': 4.2647, 'grad_norm': 0.10636191815137863, 'learning_rate': 1.9121813031161474e-06, 'epoch': 0.99} 99%|█████████▉| 47550/48008 [6:50:14<03:55,  1.95it/s]
 99%|█████████▉| 47551/48008 [6:50:14<03:54,  1.95it/s] 99%|█████████▉| 47552/48008 [6:50:15<03:49,  1.99it/s] 99%|█████████▉| 47553/48008 [6:50:15<03:49,  1.98it/s] 99%|█████████▉| 47554/48008 [6:50:16<03:49,  1.98it/s] 99%|█████████▉| 47555/48008 [6:50:16<03:51,  1.96it/s] 99%|█████████▉| 47556/48008 [6:50:17<03:38,  2.07it/s] 99%|█████████▉| 47557/48008 [6:50:17<03:37,  2.07it/s] 99%|█████████▉| 47558/48008 [6:50:18<03:37,  2.07it/s] 99%|█████████▉| 47559/48008 [6:50:18<03:36,  2.07it/s] 99%|█████████▉| 47560/48008 [6:50:19<03:27,  2.16it/s] 99%|█████████▉| 47561/48008 [6:50:19<03:34,  2.08it/s] 99%|█████████▉| 47562/48008 [6:50:20<03:34,  2.08it/s] 99%|█████████▉| 47563/48008 [6:50:20<03:34,  2.08it/s] 99%|█████████▉| 47564/48008 [6:50:20<03:34,  2.07it/s] 99%|█████████▉| 47565/48008 [6:50:21<03:33,  2.08it/s] 99%|█████████▉| 47566/48008 [6:50:22<03:40,  2.00it/s] 99%|█████████▉| 47567/48008 [6:50:22<03:37,  2.03it/s] 99%|█████████▉| 47568/48008 [6:50:23<03:38,  2.01it/s] 99%|█████████▉| 47569/48008 [6:50:23<04:01,  1.82it/s] 99%|█████████▉| 47570/48008 [6:50:24<03:55,  1.86it/s] 99%|█████████▉| 47571/48008 [6:50:24<03:47,  1.92it/s] 99%|█████████▉| 47572/48008 [6:50:25<03:41,  1.96it/s] 99%|█████████▉| 47573/48008 [6:50:25<03:43,  1.95it/s] 99%|█████████▉| 47574/48008 [6:50:26<03:38,  1.99it/s] 99%|█████████▉| 47575/48008 [6:50:26<03:35,  2.01it/s] 99%|█████████▉| 47576/48008 [6:50:27<03:24,  2.12it/s] 99%|█████████▉| 47577/48008 [6:50:27<03:27,  2.07it/s] 99%|█████████▉| 47578/48008 [6:50:28<03:27,  2.08it/s] 99%|█████████▉| 47579/48008 [6:50:28<03:34,  2.00it/s] 99%|█████████▉| 47580/48008 [6:50:29<03:31,  2.03it/s] 99%|█████████▉| 47581/48008 [6:50:30<05:08,  1.38it/s] 99%|█████████▉| 47582/48008 [6:50:30<04:42,  1.51it/s] 99%|█████████▉| 47583/48008 [6:50:31<04:23,  1.61it/s] 99%|█████████▉| 47584/48008 [6:50:31<04:05,  1.73it/s] 99%|█████████▉| 47585/48008 [6:50:33<05:46,  1.22it/s] 99%|█████████▉| 47586/48008 [6:50:33<05:06,  1.38it/s] 99%|█████████▉| 47587/48008 [6:50:34<04:38,  1.51it/s] 99%|█████████▉| 47588/48008 [6:50:34<04:20,  1.61it/s] 99%|█████████▉| 47589/48008 [6:50:35<04:02,  1.73it/s] 99%|█████████▉| 47590/48008 [6:50:35<03:49,  1.82it/s] 99%|█████████▉| 47591/48008 [6:50:36<03:40,  1.89it/s] 99%|█████████▉| 47592/48008 [6:50:36<03:34,  1.94it/s] 99%|█████████▉| 47593/48008 [6:50:37<03:29,  1.98it/s] 99%|█████████▉| 47594/48008 [6:50:37<03:28,  1.98it/s] 99%|█████████▉| 47595/48008 [6:50:38<03:29,  1.97it/s] 99%|█████████▉| 47596/48008 [6:50:38<03:30,  1.95it/s] 99%|█████████▉| 47597/48008 [6:50:39<03:29,  1.96it/s] 99%|█████████▉| 47598/48008 [6:50:39<03:17,  2.07it/s] 99%|█████████▉| 47599/48008 [6:50:40<03:20,  2.04it/s] 99%|█████████▉| 47600/48008 [6:50:40<03:11,  2.13it/s]                                                       {'loss': 4.2521, 'grad_norm': 0.10546490550041199, 'learning_rate': 1.7038826862189637e-06, 'epoch': 0.99} 99%|█████████▉| 47600/48008 [6:50:40<03:11,  2.13it/s]
 99%|█████████▉| 47601/48008 [6:50:41<03:12,  2.11it/s] 99%|█████████▉| 47602/48008 [6:50:41<03:15,  2.08it/s] 99%|█████████▉| 47603/48008 [6:50:41<03:07,  2.16it/s] 99%|█████████▉| 47604/48008 [6:50:42<03:09,  2.14it/s] 99%|█████████▉| 47605/48008 [6:50:43<03:33,  1.88it/s] 99%|█████████▉| 47606/48008 [6:50:43<03:27,  1.94it/s] 99%|█████████▉| 47607/48008 [6:50:44<04:10,  1.60it/s] 99%|█████████▉| 47608/48008 [6:50:44<03:52,  1.72it/s] 99%|█████████▉| 47609/48008 [6:50:45<03:32,  1.88it/s] 99%|█████████▉| 47610/48008 [6:50:45<03:17,  2.01it/s] 99%|█████████▉| 47611/48008 [6:50:46<03:18,  2.00it/s] 99%|█████████▉| 47612/48008 [6:50:46<03:03,  2.16it/s] 99%|█████████▉| 47613/48008 [6:50:47<03:04,  2.14it/s] 99%|█████████▉| 47614/48008 [6:50:47<02:58,  2.21it/s] 99%|█████████▉| 47615/48008 [6:50:48<03:04,  2.13it/s] 99%|█████████▉| 47616/48008 [6:50:48<03:07,  2.09it/s] 99%|█████████▉| 47617/48008 [6:50:49<03:00,  2.17it/s] 99%|█████████▉| 47618/48008 [6:50:49<03:01,  2.14it/s] 99%|█████████▉| 47619/48008 [6:50:49<03:03,  2.12it/s] 99%|█████████▉| 47620/48008 [6:50:50<03:04,  2.10it/s] 99%|█████████▉| 47621/48008 [6:50:50<03:07,  2.06it/s] 99%|█████████▉| 47622/48008 [6:50:51<03:13,  1.99it/s] 99%|█████████▉| 47623/48008 [6:50:51<03:11,  2.01it/s] 99%|█████████▉| 47624/48008 [6:50:52<03:08,  2.04it/s] 99%|█████████▉| 47625/48008 [6:50:52<03:06,  2.05it/s] 99%|█████████▉| 47626/48008 [6:50:53<03:05,  2.06it/s] 99%|█████████▉| 47627/48008 [6:50:53<03:07,  2.03it/s] 99%|█████████▉| 47628/48008 [6:50:54<03:06,  2.04it/s] 99%|█████████▉| 47629/48008 [6:50:54<03:09,  2.00it/s] 99%|█████████▉| 47630/48008 [6:50:55<03:06,  2.02it/s] 99%|█████████▉| 47631/48008 [6:50:55<03:07,  2.01it/s] 99%|█████████▉| 47632/48008 [6:50:56<02:58,  2.11it/s] 99%|█████████▉| 47633/48008 [6:50:56<02:58,  2.10it/s] 99%|█████████▉| 47634/48008 [6:50:57<02:58,  2.09it/s] 99%|█████████▉| 47635/48008 [6:50:57<02:58,  2.09it/s] 99%|█████████▉| 47636/48008 [6:50:58<02:58,  2.08it/s] 99%|█████████▉| 47637/48008 [6:50:58<02:58,  2.07it/s] 99%|█████████▉| 47638/48008 [6:50:59<03:20,  1.85it/s] 99%|█████████▉| 47639/48008 [6:50:59<03:15,  1.89it/s] 99%|█████████▉| 47640/48008 [6:51:00<03:14,  1.89it/s] 99%|█████████▉| 47641/48008 [6:51:00<03:13,  1.90it/s] 99%|█████████▉| 47642/48008 [6:51:01<03:08,  1.94it/s] 99%|█████████▉| 47643/48008 [6:51:01<03:03,  1.98it/s] 99%|█████████▉| 47644/48008 [6:51:02<03:22,  1.80it/s] 99%|█████████▉| 47645/48008 [6:51:03<03:13,  1.88it/s] 99%|█████████▉| 47646/48008 [6:51:03<03:13,  1.87it/s] 99%|█████████▉| 47647/48008 [6:51:04<03:12,  1.88it/s] 99%|█████████▉| 47648/48008 [6:51:04<03:10,  1.89it/s] 99%|█████████▉| 47649/48008 [6:51:05<03:04,  1.94it/s] 99%|█████████▉| 47650/48008 [6:51:05<02:53,  2.06it/s]                                                       {'loss': 4.2297, 'grad_norm': 0.1118260994553566, 'learning_rate': 1.4955840693217798e-06, 'epoch': 0.99} 99%|█████████▉| 47650/48008 [6:51:05<02:53,  2.06it/s]
 99%|█████████▉| 47651/48008 [6:51:06<02:46,  2.15it/s] 99%|█████████▉| 47652/48008 [6:51:06<02:40,  2.21it/s] 99%|█████████▉| 47653/48008 [6:51:06<02:43,  2.17it/s] 99%|█████████▉| 47654/48008 [6:51:07<02:38,  2.23it/s] 99%|█████████▉| 47655/48008 [6:51:07<02:42,  2.18it/s] 99%|█████████▉| 47656/48008 [6:51:08<03:25,  1.71it/s] 99%|█████████▉| 47657/48008 [6:51:09<03:17,  1.78it/s] 99%|█████████▉| 47658/48008 [6:51:10<03:49,  1.52it/s] 99%|█████████▉| 47659/48008 [6:51:10<03:33,  1.64it/s] 99%|█████████▉| 47660/48008 [6:51:11<03:23,  1.71it/s] 99%|█████████▉| 47661/48008 [6:51:11<03:12,  1.81it/s] 99%|█████████▉| 47662/48008 [6:51:12<03:04,  1.88it/s] 99%|█████████▉| 47663/48008 [6:51:12<03:01,  1.90it/s] 99%|█████████▉| 47664/48008 [6:51:13<02:59,  1.92it/s] 99%|█████████▉| 47665/48008 [6:51:13<03:00,  1.90it/s] 99%|█████████▉| 47666/48008 [6:51:14<02:55,  1.95it/s] 99%|█████████▉| 47667/48008 [6:51:14<02:51,  1.99it/s] 99%|█████████▉| 47668/48008 [6:51:15<02:55,  1.94it/s] 99%|█████████▉| 47669/48008 [6:51:15<02:44,  2.06it/s] 99%|█████████▉| 47670/48008 [6:51:15<02:37,  2.15it/s] 99%|█████████▉| 47671/48008 [6:51:16<02:38,  2.13it/s] 99%|█████████▉| 47672/48008 [6:51:16<02:39,  2.11it/s] 99%|█████████▉| 47673/48008 [6:51:17<02:42,  2.07it/s] 99%|█████████▉| 47674/48008 [6:51:17<02:47,  2.00it/s] 99%|█████████▉| 47675/48008 [6:51:18<02:47,  1.99it/s] 99%|█████████▉| 47676/48008 [6:51:18<02:44,  2.01it/s] 99%|█████████▉| 47677/48008 [6:51:19<02:42,  2.03it/s] 99%|█████████▉| 47678/48008 [6:51:19<02:43,  2.02it/s] 99%|█████████▉| 47679/48008 [6:51:20<02:41,  2.04it/s] 99%|█████████▉| 47680/48008 [6:51:20<02:44,  2.00it/s] 99%|█████████▉| 47681/48008 [6:51:21<02:43,  2.00it/s] 99%|█████████▉| 47682/48008 [6:51:21<02:41,  2.02it/s] 99%|█████████▉| 47683/48008 [6:51:22<02:41,  2.01it/s] 99%|█████████▉| 47684/48008 [6:51:22<02:43,  1.98it/s] 99%|█████████▉| 47685/48008 [6:51:23<02:40,  2.01it/s] 99%|█████████▉| 47686/48008 [6:51:24<02:57,  1.81it/s] 99%|█████████▉| 47687/48008 [6:51:24<02:55,  1.83it/s] 99%|█████████▉| 47688/48008 [6:51:25<02:48,  1.90it/s] 99%|█████████▉| 47689/48008 [6:51:25<02:37,  2.02it/s] 99%|█████████▉| 47690/48008 [6:51:26<02:35,  2.04it/s] 99%|█████████▉| 47691/48008 [6:51:26<02:28,  2.14it/s] 99%|█████████▉| 47692/48008 [6:51:26<02:31,  2.09it/s] 99%|█████████▉| 47693/48008 [6:51:27<02:31,  2.08it/s] 99%|█████████▉| 47694/48008 [6:51:27<02:34,  2.03it/s] 99%|█████████▉| 47695/48008 [6:51:28<02:32,  2.05it/s] 99%|█████████▉| 47696/48008 [6:51:28<02:33,  2.03it/s] 99%|█████████▉| 47697/48008 [6:51:29<02:34,  2.01it/s] 99%|█████████▉| 47698/48008 [6:51:29<02:35,  2.00it/s] 99%|█████████▉| 47699/48008 [6:51:30<02:33,  2.02it/s] 99%|█████████▉| 47700/48008 [6:51:30<02:25,  2.12it/s]                                                       {'loss': 4.2512, 'grad_norm': 0.10523968935012817, 'learning_rate': 1.287285452424596e-06, 'epoch': 0.99} 99%|█████████▉| 47700/48008 [6:51:30<02:25,  2.12it/s]
 99%|█████████▉| 47701/48008 [6:51:31<02:19,  2.20it/s] 99%|█████████▉| 47702/48008 [6:51:31<02:23,  2.13it/s] 99%|█████████▉| 47703/48008 [6:51:32<02:18,  2.20it/s] 99%|█████████▉| 47704/48008 [6:51:32<02:22,  2.13it/s] 99%|█████████▉| 47705/48008 [6:51:33<02:27,  2.06it/s] 99%|█████████▉| 47706/48008 [6:51:33<02:43,  1.84it/s] 99%|█████████▉| 47707/48008 [6:51:34<02:37,  1.91it/s] 99%|█████████▉| 47708/48008 [6:51:34<02:33,  1.96it/s] 99%|█████████▉| 47709/48008 [6:51:35<02:30,  1.98it/s] 99%|█████████▉| 47710/48008 [6:51:35<02:33,  1.94it/s] 99%|█████████▉| 47711/48008 [6:51:36<02:23,  2.06it/s] 99%|█████████▉| 47712/48008 [6:51:36<02:23,  2.07it/s] 99%|█████████▉| 47713/48008 [6:51:37<02:25,  2.02it/s] 99%|█████████▉| 47714/48008 [6:51:37<02:41,  1.82it/s] 99%|█████████▉| 47715/48008 [6:51:38<02:38,  1.85it/s] 99%|█████████▉| 47716/48008 [6:51:38<02:32,  1.91it/s] 99%|█████████▉| 47717/48008 [6:51:39<02:28,  1.96it/s] 99%|█████████▉| 47718/48008 [6:51:39<02:28,  1.96it/s] 99%|█████████▉| 47719/48008 [6:51:40<02:26,  1.97it/s] 99%|█████████▉| 47720/48008 [6:51:40<02:24,  2.00it/s] 99%|█████████▉| 47721/48008 [6:51:41<02:16,  2.10it/s] 99%|█████████▉| 47722/48008 [6:51:41<02:18,  2.06it/s] 99%|█████████▉| 47723/48008 [6:51:42<02:12,  2.15it/s] 99%|█████████▉| 47724/48008 [6:51:42<02:13,  2.13it/s] 99%|█████████▉| 47725/48008 [6:51:43<02:15,  2.08it/s] 99%|█████████▉| 47726/48008 [6:51:44<02:49,  1.67it/s] 99%|█████████▉| 47727/48008 [6:51:44<02:33,  1.83it/s] 99%|█████████▉| 47728/48008 [6:51:45<02:30,  1.86it/s] 99%|█████████▉| 47729/48008 [6:51:45<02:25,  1.92it/s] 99%|█████████▉| 47730/48008 [6:51:46<03:26,  1.35it/s] 99%|█████████▉| 47731/48008 [6:51:47<02:58,  1.55it/s] 99%|█████████▉| 47732/48008 [6:51:47<02:44,  1.68it/s] 99%|█████████▉| 47733/48008 [6:51:48<02:37,  1.75it/s] 99%|█████████▉| 47734/48008 [6:51:48<02:31,  1.81it/s] 99%|█████████▉| 47735/48008 [6:51:49<02:27,  1.85it/s] 99%|█████████▉| 47736/48008 [6:51:49<02:21,  1.92it/s] 99%|█████████▉| 47737/48008 [6:51:50<02:21,  1.92it/s] 99%|█████████▉| 47738/48008 [6:51:50<02:20,  1.92it/s] 99%|█████████▉| 47739/48008 [6:51:51<02:18,  1.94it/s] 99%|█████████▉| 47740/48008 [6:51:51<02:17,  1.95it/s] 99%|█████████▉| 47741/48008 [6:51:52<02:16,  1.96it/s] 99%|█████████▉| 47742/48008 [6:51:52<02:13,  1.99it/s] 99%|█████████▉| 47743/48008 [6:51:53<02:11,  2.02it/s] 99%|█████████▉| 47744/48008 [6:51:53<02:09,  2.03it/s] 99%|█████████▉| 47745/48008 [6:51:54<02:11,  2.00it/s] 99%|█████████▉| 47746/48008 [6:51:54<02:09,  2.02it/s] 99%|█████████▉| 47747/48008 [6:51:55<02:10,  2.01it/s] 99%|█████████▉| 47748/48008 [6:51:55<02:07,  2.03it/s] 99%|█████████▉| 47749/48008 [6:51:56<02:09,  2.00it/s] 99%|█████████▉| 47750/48008 [6:51:56<02:02,  2.10it/s]                                                       {'loss': 4.2195, 'grad_norm': 0.11383401602506638, 'learning_rate': 1.078986835527412e-06, 'epoch': 0.99}
 99%|█████████▉| 47750/48008 [6:51:56<02:02,  2.10it/s] 99%|█████████▉| 47751/48008 [6:51:57<02:04,  2.06it/s] 99%|█████████▉| 47752/48008 [6:51:57<02:06,  2.03it/s] 99%|█████████▉| 47753/48008 [6:51:58<02:07,  2.00it/s] 99%|█████████▉| 47754/48008 [6:51:58<02:20,  1.81it/s] 99%|█████████▉| 47755/48008 [6:51:59<02:16,  1.85it/s] 99%|█████████▉| 47756/48008 [6:51:59<02:13,  1.89it/s] 99%|█████████▉| 47757/48008 [6:52:00<02:10,  1.92it/s] 99%|█████████▉| 47758/48008 [6:52:00<02:10,  1.92it/s] 99%|█████████▉| 47759/48008 [6:52:01<02:08,  1.94it/s] 99%|█████████▉| 47760/48008 [6:52:02<03:02,  1.36it/s] 99%|█████████▉| 47761/48008 [6:52:03<02:43,  1.51it/s] 99%|█████████▉| 47762/48008 [6:52:03<02:31,  1.63it/s] 99%|█████████▉| 47763/48008 [6:52:04<02:20,  1.74it/s] 99%|█████████▉| 47764/48008 [6:52:05<03:09,  1.29it/s] 99%|█████████▉| 47765/48008 [6:52:05<02:47,  1.45it/s] 99%|█████████▉| 47766/48008 [6:52:06<02:31,  1.60it/s] 99%|█████████▉| 47767/48008 [6:52:06<02:20,  1.71it/s]100%|█████████▉| 47768/48008 [6:52:07<02:14,  1.79it/s]100%|█████████▉| 47769/48008 [6:52:07<02:08,  1.86it/s]100%|█████████▉| 47770/48008 [6:52:08<02:03,  1.92it/s]100%|█████████▉| 47771/48008 [6:52:09<02:14,  1.77it/s]100%|█████████▉| 47772/48008 [6:52:09<02:07,  1.85it/s]100%|█████████▉| 47773/48008 [6:52:10<02:07,  1.85it/s]100%|█████████▉| 47774/48008 [6:52:10<02:02,  1.91it/s]100%|█████████▉| 47775/48008 [6:52:11<02:00,  1.93it/s]100%|█████████▉| 47776/48008 [6:52:11<01:52,  2.05it/s]100%|█████████▉| 47777/48008 [6:52:11<01:53,  2.03it/s]100%|█████████▉| 47778/48008 [6:52:12<01:47,  2.13it/s]100%|█████████▉| 47779/48008 [6:52:12<01:50,  2.08it/s]100%|█████████▉| 47780/48008 [6:52:13<01:51,  2.04it/s]100%|█████████▉| 47781/48008 [6:52:13<01:50,  2.05it/s]100%|█████████▉| 47782/48008 [6:52:14<01:49,  2.06it/s]100%|█████████▉| 47783/48008 [6:52:14<01:44,  2.15it/s]100%|█████████▉| 47784/48008 [6:52:15<01:48,  2.07it/s]100%|█████████▉| 47785/48008 [6:52:15<01:51,  2.00it/s]100%|█████████▉| 47786/48008 [6:52:16<01:52,  1.98it/s]100%|█████████▉| 47787/48008 [6:52:17<02:03,  1.79it/s]100%|█████████▉| 47788/48008 [6:52:17<01:59,  1.85it/s]100%|█████████▉| 47789/48008 [6:52:18<01:58,  1.85it/s]100%|█████████▉| 47790/48008 [6:52:18<01:53,  1.91it/s]100%|█████████▉| 47791/48008 [6:52:19<01:52,  1.93it/s]100%|█████████▉| 47792/48008 [6:52:19<01:49,  1.97it/s]100%|█████████▉| 47793/48008 [6:52:20<01:49,  1.97it/s]100%|█████████▉| 47794/48008 [6:52:20<01:49,  1.95it/s]100%|█████████▉| 47795/48008 [6:52:21<01:47,  1.99it/s]100%|█████████▉| 47796/48008 [6:52:21<01:49,  1.94it/s]100%|█████████▉| 47797/48008 [6:52:22<01:46,  1.98it/s]100%|█████████▉| 47798/48008 [6:52:22<01:44,  2.01it/s]100%|█████████▉| 47799/48008 [6:52:23<01:46,  1.96it/s]100%|█████████▉| 47800/48008 [6:52:23<01:44,  2.00it/s]                                                       {'loss': 4.2393, 'grad_norm': 0.10862286388874054, 'learning_rate': 8.706882186302284e-07, 'epoch': 1.0}100%|█████████▉| 47800/48008 [6:52:23<01:44,  2.00it/s]
100%|█████████▉| 47801/48008 [6:52:24<01:43,  1.99it/s]100%|█████████▉| 47802/48008 [6:52:24<01:42,  2.01it/s]100%|█████████▉| 47803/48008 [6:52:24<01:36,  2.12it/s]100%|█████████▉| 47804/48008 [6:52:25<01:32,  2.20it/s]100%|█████████▉| 47805/48008 [6:52:25<01:34,  2.15it/s]100%|█████████▉| 47806/48008 [6:52:26<01:30,  2.22it/s]100%|█████████▉| 47807/48008 [6:52:26<01:28,  2.27it/s]100%|█████████▉| 47808/48008 [6:52:27<01:31,  2.18it/s]100%|█████████▉| 47809/48008 [6:52:27<01:28,  2.24it/s]100%|█████████▉| 47810/48008 [6:52:28<01:31,  2.16it/s]100%|█████████▉| 47811/48008 [6:52:29<02:18,  1.43it/s]100%|█████████▉| 47812/48008 [6:52:29<02:04,  1.57it/s]100%|█████████▉| 47813/48008 [6:52:30<01:56,  1.67it/s]100%|█████████▉| 47814/48008 [6:52:31<02:34,  1.26it/s]100%|█████████▉| 47815/48008 [6:52:32<02:16,  1.41it/s]100%|█████████▉| 47816/48008 [6:52:32<02:06,  1.52it/s]100%|█████████▉| 47817/48008 [6:52:33<01:57,  1.63it/s]100%|█████████▉| 47818/48008 [6:52:33<01:45,  1.81it/s]100%|█████████▉| 47819/48008 [6:52:34<01:41,  1.85it/s]100%|█████████▉| 47820/48008 [6:52:34<01:39,  1.88it/s]100%|█████████▉| 47821/48008 [6:52:35<01:36,  1.94it/s]100%|█████████▉| 47822/48008 [6:52:35<01:35,  1.94it/s]100%|█████████▉| 47823/48008 [6:52:36<01:33,  1.98it/s]100%|█████████▉| 47824/48008 [6:52:36<01:31,  2.01it/s]100%|█████████▉| 47825/48008 [6:52:37<01:30,  2.02it/s]100%|█████████▉| 47826/48008 [6:52:37<01:29,  2.04it/s]100%|█████████▉| 47827/48008 [6:52:38<01:28,  2.05it/s]100%|█████████▉| 47828/48008 [6:52:38<01:23,  2.14it/s]100%|█████████▉| 47829/48008 [6:52:38<01:20,  2.22it/s]100%|█████████▉| 47830/48008 [6:52:39<01:23,  2.13it/s]100%|█████████▉| 47831/48008 [6:52:39<01:25,  2.08it/s]100%|█████████▉| 47832/48008 [6:52:40<01:21,  2.17it/s]100%|█████████▉| 47833/48008 [6:52:40<01:21,  2.14it/s]100%|█████████▉| 47834/48008 [6:52:41<01:18,  2.21it/s]100%|█████████▉| 47835/48008 [6:52:41<01:22,  2.09it/s]100%|█████████▉| 47836/48008 [6:52:42<01:22,  2.09it/s]100%|█████████▉| 47837/48008 [6:52:42<01:18,  2.17it/s]100%|█████████▉| 47838/48008 [6:52:43<01:19,  2.14it/s]100%|█████████▉| 47839/48008 [6:52:43<01:16,  2.22it/s]100%|█████████▉| 47840/48008 [6:52:44<01:19,  2.12it/s]100%|█████████▉| 47841/48008 [6:52:44<01:19,  2.10it/s]100%|█████████▉| 47842/48008 [6:52:45<01:21,  2.04it/s]100%|█████████▉| 47843/48008 [6:52:45<01:17,  2.14it/s]100%|█████████▉| 47844/48008 [6:52:45<01:17,  2.12it/s]100%|█████████▉| 47845/48008 [6:52:46<01:14,  2.19it/s]100%|█████████▉| 47846/48008 [6:52:46<01:16,  2.11it/s]100%|█████████▉| 47847/48008 [6:52:47<01:16,  2.10it/s]100%|█████████▉| 47848/48008 [6:52:47<01:16,  2.09it/s]100%|█████████▉| 47849/48008 [6:52:48<01:18,  2.03it/s]100%|█████████▉| 47850/48008 [6:52:48<01:14,  2.13it/s]                                                       {'loss': 4.2089, 'grad_norm': 0.11095026880502701, 'learning_rate': 6.623896017330445e-07, 'epoch': 1.0}100%|█████████▉| 47850/48008 [6:52:48<01:14,  2.13it/s]
100%|█████████▉| 47851/48008 [6:52:49<01:11,  2.21it/s]100%|█████████▉| 47852/48008 [6:52:49<01:08,  2.26it/s]100%|█████████▉| 47853/48008 [6:52:50<01:07,  2.30it/s]100%|█████████▉| 47854/48008 [6:52:50<01:08,  2.24it/s]100%|█████████▉| 47855/48008 [6:52:51<01:10,  2.18it/s]100%|█████████▉| 47856/48008 [6:52:51<01:11,  2.12it/s]100%|█████████▉| 47857/48008 [6:52:51<01:08,  2.20it/s]100%|█████████▉| 47858/48008 [6:52:52<01:18,  1.92it/s]100%|█████████▉| 47859/48008 [6:52:53<01:18,  1.90it/s]100%|█████████▉| 47860/48008 [6:52:53<01:15,  1.95it/s]100%|█████████▉| 47861/48008 [6:52:54<01:14,  1.99it/s]100%|█████████▉| 47862/48008 [6:52:54<01:12,  2.01it/s]100%|█████████▉| 47863/48008 [6:52:55<01:11,  2.03it/s]100%|█████████▉| 47864/48008 [6:52:55<01:11,  2.02it/s]100%|█████████▉| 47865/48008 [6:52:56<01:10,  2.03it/s]100%|█████████▉| 47866/48008 [6:52:56<01:11,  1.98it/s]100%|█████████▉| 47867/48008 [6:52:57<01:12,  1.95it/s]100%|█████████▉| 47868/48008 [6:52:57<01:12,  1.94it/s]100%|█████████▉| 47869/48008 [6:52:58<01:10,  1.98it/s]100%|█████████▉| 47870/48008 [6:52:58<01:11,  1.94it/s]100%|█████████▉| 47871/48008 [6:52:59<01:06,  2.06it/s]100%|█████████▉| 47872/48008 [6:52:59<01:05,  2.07it/s]100%|█████████▉| 47873/48008 [6:53:00<01:05,  2.07it/s]100%|█████████▉| 47874/48008 [6:53:00<01:05,  2.04it/s]100%|█████████▉| 47875/48008 [6:53:01<01:05,  2.02it/s]100%|█████████▉| 47876/48008 [6:53:01<01:04,  2.04it/s]100%|█████████▉| 47877/48008 [6:53:02<01:03,  2.05it/s]100%|█████████▉| 47878/48008 [6:53:02<01:04,  2.01it/s]100%|█████████▉| 47879/48008 [6:53:03<01:03,  2.03it/s]100%|█████████▉| 47880/48008 [6:53:03<01:02,  2.05it/s]100%|█████████▉| 47881/48008 [6:53:03<01:02,  2.03it/s]100%|█████████▉| 47882/48008 [6:53:04<01:01,  2.04it/s]100%|█████████▉| 47883/48008 [6:53:04<01:01,  2.05it/s]100%|█████████▉| 47884/48008 [6:53:05<00:56,  2.19it/s]100%|█████████▉| 47885/48008 [6:53:06<01:11,  1.72it/s]100%|█████████▉| 47886/48008 [6:53:06<01:08,  1.79it/s]100%|█████████▉| 47887/48008 [6:53:07<01:04,  1.86it/s]100%|█████████▉| 47888/48008 [6:53:07<01:02,  1.92it/s]100%|█████████▉| 47889/48008 [6:53:08<01:00,  1.97it/s]100%|█████████▉| 47890/48008 [6:53:08<00:59,  2.00it/s]100%|█████████▉| 47891/48008 [6:53:09<00:57,  2.02it/s]100%|█████████▉| 47892/48008 [6:53:09<01:03,  1.82it/s]100%|█████████▉| 47893/48008 [6:53:10<01:00,  1.89it/s]100%|█████████▉| 47894/48008 [6:53:10<00:56,  2.02it/s]100%|█████████▉| 47895/48008 [6:53:11<00:56,  2.01it/s]100%|█████████▉| 47896/48008 [6:53:11<00:56,  1.98it/s]100%|█████████▉| 47897/48008 [6:53:12<00:55,  2.01it/s]100%|█████████▉| 47898/48008 [6:53:12<00:56,  1.96it/s]100%|█████████▉| 47899/48008 [6:53:13<00:54,  1.99it/s]100%|█████████▉| 47900/48008 [6:53:13<00:53,  2.02it/s]                                                       {'loss': 4.2132, 'grad_norm': 0.10727711021900177, 'learning_rate': 4.5409098483586067e-07, 'epoch': 1.0}100%|█████████▉| 47900/48008 [6:53:13<00:53,  2.02it/s]
100%|█████████▉| 47901/48008 [6:53:14<00:52,  2.04it/s]100%|█████████▉| 47902/48008 [6:53:14<00:51,  2.05it/s]100%|█████████▉| 47903/48008 [6:53:15<00:52,  1.99it/s]100%|█████████▉| 47904/48008 [6:53:15<00:51,  2.02it/s]100%|█████████▉| 47905/48008 [6:53:16<00:52,  1.95it/s]100%|█████████▉| 47906/48008 [6:53:17<01:03,  1.61it/s]100%|█████████▉| 47907/48008 [6:53:17<00:58,  1.73it/s]100%|█████████▉| 47908/48008 [6:53:18<00:54,  1.82it/s]100%|█████████▉| 47909/48008 [6:53:18<00:52,  1.89it/s]100%|█████████▉| 47910/48008 [6:53:19<00:51,  1.90it/s]100%|█████████▉| 47911/48008 [6:53:19<00:49,  1.95it/s]100%|█████████▉| 47912/48008 [6:53:20<00:48,  1.99it/s]100%|█████████▉| 47913/48008 [6:53:20<00:47,  1.99it/s]100%|█████████▉| 47914/48008 [6:53:21<00:46,  2.01it/s]100%|█████████▉| 47915/48008 [6:53:21<00:45,  2.03it/s]100%|█████████▉| 47916/48008 [6:53:22<00:46,  2.00it/s]100%|█████████▉| 47917/48008 [6:53:22<00:45,  2.02it/s]100%|█████████▉| 47918/48008 [6:53:22<00:44,  2.04it/s]100%|█████████▉| 47919/48008 [6:53:23<00:43,  2.05it/s]100%|█████████▉| 47920/48008 [6:53:24<00:44,  1.99it/s]100%|█████████▉| 47921/48008 [6:53:24<00:41,  2.09it/s]100%|█████████▉| 47922/48008 [6:53:24<00:39,  2.18it/s]100%|█████████▉| 47923/48008 [6:53:25<00:39,  2.15it/s]100%|█████████▉| 47924/48008 [6:53:25<00:37,  2.22it/s]100%|█████████▉| 47925/48008 [6:53:26<00:39,  2.13it/s]100%|█████████▉| 47926/48008 [6:53:26<00:37,  2.20it/s]100%|█████████▉| 47927/48008 [6:53:27<00:37,  2.17it/s]100%|█████████▉| 47928/48008 [6:53:27<00:37,  2.14it/s]100%|█████████▉| 47929/48008 [6:53:28<00:55,  1.42it/s]100%|█████████▉| 47930/48008 [6:53:29<00:50,  1.56it/s]100%|█████████▉| 47931/48008 [6:53:29<00:46,  1.65it/s]100%|█████████▉| 47932/48008 [6:53:30<00:41,  1.82it/s]100%|█████████▉| 47933/48008 [6:53:31<00:56,  1.32it/s]100%|█████████▉| 47934/48008 [6:53:32<00:50,  1.48it/s]100%|█████████▉| 47935/48008 [6:53:32<00:45,  1.59it/s]100%|█████████▉| 47936/48008 [6:53:33<00:43,  1.67it/s]100%|█████████▉| 47937/48008 [6:53:33<00:40,  1.76it/s]100%|█████████▉| 47938/48008 [6:53:34<00:38,  1.84it/s]100%|█████████▉| 47939/48008 [6:53:34<00:36,  1.88it/s]100%|█████████▉| 47940/48008 [6:53:35<00:33,  2.01it/s]100%|█████████▉| 47941/48008 [6:53:35<00:34,  1.96it/s]100%|█████████▉| 47942/48008 [6:53:36<00:33,  1.99it/s]100%|█████████▉| 47943/48008 [6:53:36<00:32,  2.01it/s]100%|█████████▉| 47944/48008 [6:53:36<00:31,  2.03it/s]100%|█████████▉| 47945/48008 [6:53:37<00:29,  2.12it/s]100%|█████████▉| 47946/48008 [6:53:37<00:29,  2.11it/s]100%|█████████▉| 47947/48008 [6:53:38<00:30,  2.02it/s]100%|█████████▉| 47948/48008 [6:53:38<00:29,  2.04it/s]100%|█████████▉| 47949/48008 [6:53:39<00:29,  2.02it/s]100%|█████████▉| 47950/48008 [6:53:39<00:28,  2.04it/s]                                                       {'loss': 4.2656, 'grad_norm': 0.10549142956733704, 'learning_rate': 2.457923679386769e-07, 'epoch': 1.0}
100%|█████████▉| 47950/48008 [6:53:39<00:28,  2.04it/s]100%|█████████▉| 47951/48008 [6:53:40<00:27,  2.05it/s]100%|█████████▉| 47952/48008 [6:53:40<00:27,  2.06it/s]100%|█████████▉| 47953/48008 [6:53:41<00:26,  2.07it/s]100%|█████████▉| 47954/48008 [6:53:41<00:24,  2.21it/s]100%|█████████▉| 47955/48008 [6:53:42<00:36,  1.44it/s]100%|█████████▉| 47956/48008 [6:53:43<00:32,  1.59it/s]100%|█████████▉| 47957/48008 [6:53:43<00:29,  1.71it/s]100%|█████████▉| 47958/48008 [6:53:44<00:26,  1.87it/s]100%|█████████▉| 47959/48008 [6:53:44<00:25,  1.91it/s]100%|█████████▉| 47960/48008 [6:53:45<00:24,  1.93it/s]100%|█████████▉| 47961/48008 [6:53:45<00:24,  1.95it/s]100%|█████████▉| 47962/48008 [6:53:46<00:23,  1.92it/s]100%|█████████▉| 47963/48008 [6:53:46<00:23,  1.93it/s]100%|█████████▉| 47964/48008 [6:53:47<00:22,  1.98it/s]100%|█████████▉| 47965/48008 [6:53:47<00:21,  2.01it/s]100%|█████████▉| 47966/48008 [6:53:48<00:20,  2.03it/s]100%|█████████▉| 47967/48008 [6:53:48<00:20,  2.05it/s]100%|█████████▉| 47968/48008 [6:53:49<00:18,  2.14it/s]100%|█████████▉| 47969/48008 [6:53:49<00:18,  2.13it/s]100%|█████████▉| 47970/48008 [6:53:50<00:18,  2.08it/s]100%|█████████▉| 47971/48008 [6:53:50<00:17,  2.08it/s]100%|█████████▉| 47972/48008 [6:53:51<00:17,  2.08it/s]100%|█████████▉| 47973/48008 [6:53:51<00:16,  2.17it/s]100%|█████████▉| 47974/48008 [6:53:52<00:16,  2.11it/s]100%|█████████▉| 47975/48008 [6:53:52<00:15,  2.10it/s]100%|█████████▉| 47976/48008 [6:53:53<00:15,  2.06it/s]100%|█████████▉| 47977/48008 [6:53:53<00:15,  2.07it/s]100%|█████████▉| 47978/48008 [6:53:54<00:14,  2.04it/s]100%|█████████▉| 47979/48008 [6:53:54<00:14,  2.00it/s]100%|█████████▉| 47980/48008 [6:53:55<00:13,  2.02it/s]100%|█████████▉| 47981/48008 [6:53:55<00:13,  2.04it/s]100%|█████████▉| 47982/48008 [6:53:55<00:12,  2.14it/s]100%|█████████▉| 47983/48008 [6:53:56<00:11,  2.21it/s]100%|█████████▉| 47984/48008 [6:53:56<00:11,  2.14it/s]100%|█████████▉| 47985/48008 [6:53:57<00:10,  2.12it/s]100%|█████████▉| 47986/48008 [6:53:57<00:10,  2.08it/s]100%|█████████▉| 47987/48008 [6:53:58<00:09,  2.17it/s]100%|█████████▉| 47988/48008 [6:53:58<00:09,  2.06it/s]100%|█████████▉| 47989/48008 [6:53:59<00:09,  2.07it/s]100%|█████████▉| 47990/48008 [6:53:59<00:08,  2.02it/s]100%|█████████▉| 47991/48008 [6:54:00<00:08,  2.12it/s]100%|█████████▉| 47992/48008 [6:54:00<00:07,  2.11it/s]100%|█████████▉| 47993/48008 [6:54:01<00:06,  2.19it/s]100%|█████████▉| 47994/48008 [6:54:01<00:06,  2.10it/s]100%|█████████▉| 47995/48008 [6:54:02<00:06,  2.09it/s]100%|█████████▉| 47996/48008 [6:54:02<00:05,  2.09it/s]100%|█████████▉| 47997/48008 [6:54:03<00:05,  2.08it/s]100%|█████████▉| 47998/48008 [6:54:03<00:04,  2.17it/s]100%|█████████▉| 47999/48008 [6:54:04<00:04,  2.09it/s]100%|█████████▉| 48000/48008 [6:54:04<00:03,  2.17it/s]                                                       100%|█████████▉| 48000/48008 [6:54:04<00:03,  2.17it/s]{'loss': 4.1979, 'grad_norm': 0.0983307957649231, 'learning_rate': 3.749375104149309e-08, 'epoch': 1.0}
100%|█████████▉| 48001/48008 [6:54:04<00:03,  2.24it/s]100%|█████████▉| 48002/48008 [6:54:05<00:02,  2.13it/s]100%|█████████▉| 48003/48008 [6:54:05<00:02,  2.11it/s]100%|█████████▉| 48004/48008 [6:54:06<00:01,  2.10it/s]100%|█████████▉| 48005/48008 [6:54:06<00:01,  2.06it/s]100%|█████████▉| 48006/48008 [6:54:07<00:00,  2.04it/s]100%|█████████▉| 48007/48008 [6:54:08<00:00,  1.42it/s]100%|██████████| 48008/48008 [6:54:09<00:00,  1.57it/s]                                                       100%|██████████| 48008/48008 [6:54:09<00:00,  1.57it/s]{'train_runtime': 24854.4257, 'train_samples_per_second': 494.479, 'train_steps_per_second': 1.932, 'train_loss': 4.311557951896831, 'epoch': 1.0}
100%|██████████| 48008/48008 [6:54:09<00:00,  1.93it/s]
Upload 2 LFS files:   0%|          | 0/2 [00:00<?, ?it/s]
adapter_model.safetensors:   0%|          | 0.00/40.4M [00:00<?, ?B/s][A

training_args.bin:   0%|          | 0.00/5.37k [00:00<?, ?B/s][A[A
adapter_model.safetensors:   0%|          | 8.19k/40.4M [00:00<10:02, 67.0kB/s][A

training_args.bin: 100%|██████████| 5.37k/5.37k [00:00<00:00, 39.5kB/s][A[A
adapter_model.safetensors:   1%|▏         | 532k/40.4M [00:00<00:14, 2.82MB/s] [A
adapter_model.safetensors:  12%|█▏        | 4.92M/40.4M [00:00<00:01, 20.4MB/s][A
adapter_model.safetensors:  37%|███▋      | 15.0M/40.4M [00:00<00:00, 45.4MB/s][Atraining_args.bin: 100%|██████████| 5.37k/5.37k [00:00<00:00, 11.5kB/s]

adapter_model.safetensors:  48%|████▊     | 19.3M/40.4M [00:02<00:02, 7.24MB/s][A
adapter_model.safetensors:  57%|█████▋    | 22.8M/40.4M [00:02<00:01, 9.24MB/s][A
adapter_model.safetensors:  79%|███████▉  | 32.0M/40.4M [00:02<00:00, 12.3MB/s][Aadapter_model.safetensors: 100%|██████████| 40.4M/40.4M [00:05<00:00, 7.85MB/s]
Upload 2 LFS files:  50%|█████     | 1/2 [00:05<00:05,  5.61s/it]Upload 2 LFS files: 100%|██████████| 2/2 [00:05<00:00,  2.80s/it]